Google DeepMind представила TurboQuant - революционный алгоритм сжатия памяти для больших языковых моделей, который может стать новым стандартом инференса. Он решает главную проблему LLM - огромный расход памяти на KV-cache (хранилище ключей и значений для длинного контекста) и векторный поиск в RAG-системах. В современных моделях память уходит не только на миллиарды параметров, но и на обработку длинных разговоров или баз знаний. KV-cache тащит весь контекст, разрастаясь до гигабайт, а векторные индексы для поиска тормозят на больших объёмах. Обычное квантование (сжатие чисел до меньшего количества бит) помогает, но сильно бьёт по точности - модель начинает забывать нюансы. TurboQuant сжимает умнее. Сначала PolarQuant случайно поворачивает вектор в полярные координаты - так числа группируются компактнее, и основное сжатие проходит без потерь. Потом QJL (Quantized Johnson-Lindenstrauss) добавляет коррекцию ошибки всего одним битом на компонент, восстанавливая attention-score с минимальными вычислениями. Результат. KV-cache сжимается до 3 бит без дообучения и без заметной потери качества. До 6x экономии памяти и 8x ускорения attention на чипах H100. В vector search TurboQuant обходит PQ и RabbiQ по recall, работая с миллиардами векторов быстрее и точнее. Тесты на LongBench, ZeroSCROLLS и GloVe подтверждают, что TurboQuant близок к теоретическому оптимуму искажений. На практике это значит длинный контекст дешевле, инференс на том же железе быстрее, RAG-базы компактнее. Google снова задаёт тренд в инфраструктуре ИИ