Tôi thấy câu chuyện về NVIDIA với Groq rất thú vị. Về cơ bản, những gì Huang Renxun giải thích bây giờ rất hợp lý về chiến lược.



Toàn bộ chuyện bắt đầu khi thị trường suy luận thay đổi. Trước đây, mọi người chỉ tập trung vào một điều: tăng throughput, xử lý nhiều yêu cầu cùng lúc. Nhưng sau đó mọi người nhận ra rằng không phải lúc nào cũng như vậy trong thực tế. Một số người dùng sẵn sàng trả nhiều hơn để có phản hồi nhanh hơn, bất kể tổng khối lượng.

Nó giống như thế này: bạn có hai mô hình giống nhau, nhưng một phản hồi trong 50ms và một trong 500ms. Nếu bạn là một kỹ sư phát triển ứng dụng thời gian thực, bạn sẽ trả thêm bao nhiêu để có mô hình nhanh gấp 10 lần? Đúng vậy, thị trường độ trễ thấp hoàn toàn khác với thị trường throughput cao.

Rồi Groq tham gia vào câu chuyện này. Kiến trúc LPU của họ chính xác là chuyên biệt cho điều đó, về độ trễ xác định thấp. Trong khi các GPU của NVIDIA thống trị về mặt throughput khối lượng lớn, Groq lấp đầy một khoảng trống hoàn toàn khác. Khi nhìn vào Groq 3 LPU ra mắt tháng 3, được làm bằng 4nm của Samsung, khả năng suy luận trên mỗi megawatt của các mô hình nghìn tỷ lớn gấp 35 lần so với Blackwell NVL72. Điều này không phải là nhỏ.

Những gì Huang đang nói về cơ bản là NVIDIA nhận ra rằng không tồn tại một thị trường suy luận duy nhất, mà có hai phân khúc rất khác nhau với các động thái định giá hoàn toàn khác nhau. Bạn có thể có throughput thấp hơn, nhưng nếu giá mỗi token cao hơn nhiều, vẫn có lợi. Đó là mở rộng biên giới Pareto của thị trường.

Đây là một nước đi rất có chiến lược của NVIDIA, thực sự vậy. Họ nhận diện được một khoảng trống và đã theo đuổi nó. Jonathan Ross và đội của Groq vẫn hoạt động độc lập, nhưng giờ đây có toàn bộ sức mạnh của NVIDIA hậu thuẫn. Có vẻ cuối cùng ai đó đang nghĩ về suy luận một cách tinh vi hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim