Google đã ra mắt TurboQuant, giảm chiếm dụng bộ nhớ mô hình 6 lần, tăng tốc độ suy luận 8 lần, gây ra sự sụt giảm cổ phiếu bộ nhớ và thảo luận về sự chuyển hướng cầu.
Google đã ra mắt thuật toán TurboQuant, giảm chiếm dụng bộ nhớ của các mô hình ngôn ngữ lớn ít nhất 6 lần, đồng thời nâng cao tốc độ tính toán suy luận lên tới 8 lần mà không hy sinh độ chính xác của mô hình. Thị trường nhanh chóng hiểu công nghệ này là “sự phá hủy ở phía cầu”, với logic rất trực tiếp: nếu nhu cầu bộ nhớ của mô hình AI trong giai đoạn suy luận bị nén lại nhiều lần, điều đó có nghĩa là đường cong nhu cầu của trung tâm dữ liệu cho DRAM, HBM hoặc thậm chí NAND có thể bị điều chỉnh giảm cấu trúc trong tương lai.
Sau khi thông tin được công bố, các cổ phiếu liên quan đến bộ nhớ và lưu trữ đã đồng loạt giảm, bao gồm SanDisk (SNDK) giảm 3,5%, Micron Technology (MU) giảm 3,4%, Western Digital (WDC) giảm 1,63%; trong chuỗi cung ứng châu Á, Samsung Electronics giảm 4,71%, SK Hynix giảm tới 6,23%. Cũng có ý kiến cho rằng TurboQuant có khả năng thay đổi “hiệu quả sử dụng tài nguyên”, thay vì chỉ đơn giản là làm suy yếu nhu cầu.
Theo giải thích của nhóm nghiên cứu Google, TurboQuant là một thuật toán định lượng (quantization) được thiết kế cho các mô hình ngôn ngữ lớn và hệ thống tìm kiếm vector, tập trung vào việc nén mạnh mẽ “key-value cache” và cấu trúc dữ liệu vector bậc cao, vốn tiêu tốn nhiều tài nguyên nhất trong mô hình AI. Trong các thử nghiệm, công nghệ này có thể nén chiếm dụng bộ nhớ ít nhất 6 lần, đồng thời nâng cao tốc độ tính toán suy luận lên tới 8 lần mà không làm giảm độ chính xác của mô hình.
Bước đột phá này trực tiếp nhắm vào các nút thắt quan trọng trong cơ sở hạ tầng AI hiện tại. Sự mở rộng của AI sinh sinh dựa vào sức mạnh tính toán, phụ thuộc mạnh mẽ vào bộ nhớ băng thông cao như HBM để chứa trọng số mô hình và KV cache quy mô lớn, tránh tình trạng bộ nhớ bị kẹt trong quá trình suy luận. Tuy nhiên, TurboQuant thông qua việc kết hợp các phương pháp như PolarQuant và Quantized Johnson-Lindenstrauss (QJL), hoàn thành việc nén mà không cần “chi phí bộ nhớ bổ sung”, tương đương với việc hoàn thành cùng một hoặc thậm chí hiệu quả hơn với ít tài nguyên phần cứng hơn.
Thị trường nhanh chóng hiểu công nghệ này là “sự phá hủy ở phía cầu”. Sau khi thông tin được công bố, các cổ phiếu liên quan đến bộ nhớ và lưu trữ đã đồng loạt giảm, bao gồm SanDisk (SNDK) giảm 3,5%, Micron Technology (MU) giảm 3,4%, Western Digital (WDC) giảm 1,63%; trong chuỗi cung ứng châu Á, Samsung Electronics giảm 4,71%, SK Hynix giảm tới 6,23%.
Logic phía sau rất trực tiếp: nếu nhu cầu bộ nhớ của mô hình AI trong giai đoạn suy luận bị nén lại nhiều lần, điều đó có nghĩa là đường cong nhu cầu của trung tâm dữ liệu cho DRAM, HBM hoặc thậm chí NAND có thể bị điều chỉnh giảm cấu trúc trong tương lai. Đặc biệt trong bối cảnh ngành AI đang dần chuyển từ “hướng đào tạo” sang “hướng suy luận”, ảnh hưởng biên của công nghệ tối ưu hóa hiệu suất sẽ được khuếch đại.
Tuy nhiên, cũng có ý kiến cho rằng TurboQuant có khả năng thay đổi “hiệu quả sử dụng tài nguyên”, thay vì chỉ đơn giản là làm suy yếu nhu cầu. Khi chi phí giảm và độ trễ giảm, các trường hợp ứng dụng AI có thể còn mở rộng hơn nữa, dẫn đến nhu cầu tính toán tổng thể tiếp tục tăng trưởng, hình thành cấu trúc “giảm cầu đơn vị, tăng cầu tổng thể”. Các nhà sản xuất bộ nhớ lớn đã bán hết công suất trong năm nay, có lẽ thị trường nên suy nghĩ: trần phát triển của AI thực sự lớn đến mức nào?