我覺得這個NVIDIA與Groq的故事非常有趣。基本上,黃仁勳現在解釋的內容在策略上非常有道理。



整個事情的起因是推理市場的變化。以前,大家都專注於一件事:提高吞吐量,同時處理更多請求。但後來大家發現,實際情況並非總是如此。有些用戶願意為更快的回應付出更高的價格,無論總體容量如何。

就像這樣:你有兩個相同的模型,但一個在50毫秒內回應,另一個在500毫秒內回應。如果你是一個開發實時應用的工程師,你會為那個快10倍的模型多付多少錢?沒錯,這個低延遲市場與高吞吐量的市場完全不同。

這時Groq就進入了這個故事。它們的LPU架構正是專門針對這個,低延遲確定性。當NVIDIA的GPU主導大規模吞吐量時,Groq填補了一個完全不同的空白。當你看到3月推出的Groq 3 LPU,採用三星的4nm製程,其在兆級模型中的每毫瓦推理能力比Blackwell NVL72高出35倍。這可不是小數字。

黃仁勳基本上在說,NVIDIA已經明白推理市場並非只有一個,而是有兩個截然不同的細分市場,且定價動態完全不同。你可以有較低的吞吐量,但如果每個Token的單價更高,這也是值得的。這就像擴展了市場的帕累托前沿。

這確實是NVIDIA一個深思熟慮的策略。他們識別出一個空白,然後去追求。Groq的Jonathan Ross和團隊仍然獨立運作,但現在背後有NVIDIA的全力支持。看來終於有人開始用更精細的方式來思考推理市場了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言