Tin tức Gate News, ngày 25 tháng 3, Viện Nghiên cứu Google đã công bố thuật toán nén lượng tử TurboQuant, có thể nén bộ đệm KV của mô hình ngôn ngữ lớn xuống còn 3 bit, giảm tiêu thụ bộ nhớ ít nhất 6 lần, không cần huấn luyện hoặc tinh chỉnh, không làm giảm độ chính xác của mô hình. Trong chế độ 4 bit, tốc độ tính toán chú ý trên GPU NVIDIA H100 tăng tối đa 8 lần so với mức cơ sở không nén 32 bit. Nhóm nghiên cứu đã xác nhận hiệu quả của TurboQuant trên các bộ chuẩn dài như LongBench, Needle In A Haystack, ZeroSCROLLS bằng cách sử dụng các mô hình Gemma và Mistral, đạt hiệu suất tối ưu trong tất cả các thử nghiệm. Thuật toán này gồm hai phần: PolarQuant sử dụng biến đổi tọa độ cực để loại bỏ chi phí bộ nhớ của phương pháp lượng tử truyền thống, QJL chỉ dùng 1 bit để hiệu chỉnh sai số còn lại. Nghiên cứu do Amir Zandieh của Viện Nghiên cứu Google và Phó Chủ tịch kiêm Google Fellow Vahab Mirrokni dẫn đầu, hợp tác với KAIST Hàn Quốc và Đại học New York, sẽ được trình bày tại ICLR 2026. Google cho biết một trong những ứng dụng chính của công nghệ này là giải quyết nút thắt về bộ đệm KV của các mô hình như Gemini.