กูเกิลเปิดตัวอัลกอริทึม TurboQuant: การควอนไทซ์ KV แคชแบบ 3 บิตไม่มีการสูญเสียความแม่นยำ ความเร็วการอนุมานเพิ่มขึ้นสูงสุด 8 เท่า

ข่าว Gate News เมื่อวันที่ 25 มีนาคม คณะวิจัยของ Google ได้เผยแพร่อัลกอริทึมบีบอัดเชิงปริมาณ TurboQuant ซึ่งสามารถบีบอัดแคช KV ของโมเดลภาษาขนาดใหญ่ให้เหลือเพียง 3 บิต ลดการใช้หน่วยความจำอย่างน้อย 6 เท่า โดยไม่ต้องฝึกหรือปรับแต่งโมเดลใหม่ และไม่สูญเสียความแม่นยำของโมเดล ในโหมด 4 บิต บน GPU H100 ของ NVIDIA ความเร็วในการคำนวณความสนใจเพิ่มสูงสุด 8 เท่าจากฐาน 32 บิตที่ไม่ได้ทำการบีบอัด ทีมวิจัยได้ทำการทดสอบบนชุดข้อมูล LongBench, Needle In A Haystack, ZeroSCROLLS โดยใช้โมเดล Gemma และ Mistral ซึ่ง TurboQuant ทำผลงานได้ดีที่สุดในทุกการทดสอบ อัลกอริทึมนี้ประกอบด้วยสองอัลกอริทึมย่อย: PolarQuant ซึ่งเปลี่ยนเป็นพิกัดเชิงขั้วเพื่อกำจัดการใช้หน่วยความจำของวิธีการบีบอัดแบบดั้งเดิม และ QJL ซึ่งใช้เพียง 1 บิตในการปรับแก้ความผิดพลาดที่เหลือ การวิจัยนี้นำโดย Amir Zandieh จาก Google Research และ Vahab Mirrokni รองประธานและ Google Fellow ร่วมกับ KAIST เกาหลีใต้และมหาวิทยาลัยนิวยอร์ก จะนำเสนอในงาน ICLR 2026 Google ระบุว่าหนึ่งในแอปพลิเคชันหลักของเทคโนโลยีนี้คือการแก้ปัญหาข้อจำกัดของแคช KV สำหรับโมเดลอย่าง Gemini

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น