Gate News сообщает, 25 марта, исследовательский институт Google опубликовал алгоритм квантованного сжатия TurboQuant, который позволяет сжимать KV-кэш больших языковых моделей до 3 бит, сокращая использование памяти как минимум в 6 раз, при этом не требуя обучения или донастройки и не теряя точности модели. В режиме 4 бита скорость вычисления внимания на GPU NVIDIA H100 выше по сравнению с базовым 32-битным не квантованным вариантом до 8 раз. Исследовательская команда проверила эффективность TurboQuant на длинных контекстных бенчмарках LongBench, Needle In A Haystack, ZeroSCROLLS с моделями Gemma и Mistral, и во всех тестах достигла лучших результатов. Алгоритм состоит из двух подсистем: PolarQuant, который устраняет память, необходимую для традиционной квантования, с помощью преобразования в полярные координаты, и QJL, использующий всего 1 бит для коррекции остаточной ошибки. Исследование возглавили Амир Зандиех из Google Research и вице-президент и Fellow Google Вахаб Миракни, совместно с KAIST в Южной Корее и Нью-Йоркским университетом, и оно будет опубликовано на ICLR 2026. Google заявил, что одним из основных применений этой технологии является устранение узких мест в KV-кэше моделей типа Gemini.