當今 AI 由 5 種硬體架構主導,每一種都在彈性、並行性和記憶體存取之間做出了不同的權衡。


CPU:通用計算設計,只有少量強大核心,擅長複雜邏輯、分支判斷和系統級任務。它有深層快取和片外 DRAM(主記憶體),適合操作系統、資料庫等,但對神經網路所需的重複矩陣乘法不太高效。
GPU:不是少數強大核心,而是成千上萬個較小核心同時執行相同指令(SIMD)。這種高度並行性完美匹配神經網路的數學運算,因此主導了 AI 訓練。
TPU(Google 設計):進一步專業化。核心是乘累加(MAC)單元組成的網格,資料以“波浪”形式流動——權重從一邊進入,激活值從另一邊進入,結果直接傳播,無需每次回寫記憶體。整個執行由編譯器控制(非硬體調度),專門為神經網路工作負載優化。
NPU(Neural Processing Unit):邊緣設備優化版。內建 Neural Compute Engine(大量 MAC 陣列 + 片上 SRAM),但使用低功耗系統記憶體而非高帶寬 HBM。目標是在手機、可穿戴設備、物聯網等場景下以單位瓦數的功耗運行推理(Apple Neural Engine、Intel NPU 都屬於此類)。
LPU(Language Processing Unit,由 Groq 推出):最新成員。完全移除片外記憶體,所有權重都放在片上 SRAM 中。執行完全確定性、由編譯器調度,無快取失效、無運行時調度開銷。代價是單晶片記憶體有限,需要數百個晶片互聯才能服務大型模型,但延遲優勢非常明顯。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言