剛剛發現一個大多數人仍未注意到的有趣現象。大家多年來一直沉迷於GPU供應,但悄悄地,CPU已成為AI基礎設施中的真正瓶頸。而這一轉變的速度比大多數人想像得更快。



上個月,谷歌和英特爾宣布了一份為期多年的大規模合作協議,專門針對這個CPU瓶頸。英特爾的訊息很明確:AI不僅僅依賴GPU——CPU和系統協調如今已成為限制因素。同時,去年第四季度伺服器CPU價格大約上漲了30%,這在成熟市場中相當驚人。AMD的交付時間從8週延長到超過10週,有些零件甚至面臨6個月的延遲。這不是炒作——是真實的供應壓力。

諷刺的是:AI實驗室有大量GPU閒置,但卻無法獲得足夠的高端CPU來實際運行它們。台積電的3nm產能正被GPU訂單擠壓,導致CPU晶圓分配不斷重新調整。甚至連馬斯克也加入了CPU戰局,委託英特爾設計定制晶片,用於他在德州的Terafab項目。事情變得如此緊張。

為何會突然轉變?原因在於代理工作負載與傳統推理完全不同。聊天機器人主要將計算任務轉交給GPU。但代理?它們需要協調API、管理資料庫、執行程式碼、整合結果——這些都是CPU密集型任務。喬治亞理工的研究人員發現,代理系統中CPU端的工作現在佔總延遲的50-90%。GPU就坐在那裡準備好,而CPU仍在處理工具調用。

模型的上下文窗口爆炸式擴大也沒幫助。現在模型支持超過100萬個tokens,而KV快取本身就達到約200GB——遠超單一H100能容納的範圍。CPU必須負責卸載和管理這些記憶體,現在它們不僅僅是協調者,更是進行嚴格資料管理的角色。

看看廠商的反應。AMD的CEO蘇姿丰(Lisa Su)已經相當直白:代理工作負載正將任務推回傳統CPU,這推動了他們的成長。AMD的資料中心營收在第四季度達到54億美元,同比增長39%,EPYC CPU扮演了重任。AMD在伺服器CPU市場的份額首次突破40%。但AMD仍缺乏NVIDIA用NVLink打造的緊密CPU-GPU互聯能力。

NVIDIA則採取了不同策略。他們的Grace CPU只有72核,而AMD的則是128核,英特爾的配置也較多。NVIDIA沒有追求核數,而是優化協作——NVLink C2C將帶寬提升到1.8TB/s,讓CPU能直接存取GPU記憶體。他們已開始將Grace作為獨立產品販售,Meta也剛完成了一次大規模的“純Grace部署”,未搭配GPU。這是一個明顯的信號。

英特爾則雙管齊下——在超大型雲端合作中推廣Xeon處理器,同時與SambaNova合作開發混合解決方案,讓代理推理在無GPU的情況下運行。18A製程和Xeon 6 Granite Rapids的路線圖將是他們的關鍵。

更大的格局是:亞馬遜的$38B OpenAI合作明確提到部署“數千萬顆CPU”。這與過去“數十萬GPU”的策略形成鮮明對比。美國銀行預測,到2030年,CPU市場可能翻倍,幾乎完全由AI推動。

我們真正看到的是一場完整的基礎設施重建。公司不再只是擴充GPU規模——而是在同時構建一整層專為AI代理設計的CPU協調基礎設施。當計算資源變得豐富,系統層級的效率就成為差異化的關鍵。未來在AI領域的贏家,不再僅僅取決於GPU數量,而是誰能先解決CPU瓶頸。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言