2025年,机器人領域教給我的3件事 @DrJimFan



1⃣️硬體走在軟體前面,但硬體可靠性嚴重限制了軟體迭代速度我們已經看到了極其精妙的工程傑作:Optimus、e-Atlas、Figure、Neo、G1等等。但問題是,我們最好的AI還遠沒有把這些前沿硬體的潛力榨乾。(機器人)身體的能力,明顯強過大腦目前能發出的指令。然而,要“伺候”這些機器人,往往需要一整個運維團隊。機器人不像人類那樣會自我修復:過熱、馬達損壞、詭異的韌體問題,幾乎是日常噩夢。錯誤一旦發生,就是不可逆、也不寬容的。真正被scaling的,只有我的耐心。

2⃣️機器人領域的基準測試,依然是一場史詩級災難在大模型世界裡,人人都知道MMLU、SWE-Bench是怎麼回事。但在機器人領域沒有任何共識:用什麼硬體平台、任務如何定義、評分標準是什麼、用哪種模擬器,還是直接上真實世界?按定義來說,每個人都是SOTA——因為每次發新聞,都会臨時定義一個新的benchmark。每個人都會從100次失敗裡,挑出那次最好看的demo。到2026年,我們這個領域必須做得更好,不能再把可復現性和科學規範當成二等公民。

3⃣️基於VLM的VLA路線,总感觉不太对VLA指的是Vision-Language-Action(視覺-語言-動作)模型,目前這是機器人大腦的主流範式。配方也很簡單:拿一個預訓練好的VLM checkpoint,在上面“嫁接”一個動作模塊。但仔細想想就會發現問題。VLM 本質上是被高度優化用來爬諸如視覺問答這類benchmark的,這直接帶來兩個後果:VLM的大多數參數,都服務於語言和知識,而不是物理世界;視覺編碼器被主動訓練去丟棄低層細節,因為問答任務只需要高層理解,但對機器人來說,微小細節對靈巧操作至關重要。因此,VLA 的性能沒有理由隨著VLM參數規模的增長而線性提升。問題出在預訓練目標本身就不對齊。 #AI #Robtics
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt