Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
從HC到mHC:DeepSeek如何用流形約束改進大模型訓練
DeepSeek在2025年以超高性價比的大模型震撼全球,如今進入2026年,這家公司繼續展現技術創新的韌性。1月1日,DeepSeek發布新論文,提出了流形約束超連接(mHC)架構,針對現有超連接網絡(HC)技術在大模型訓練中的穩定性問題提出系統性改進方案。這不僅反映了DeepSeek對技術細節的執著追求,也預示著大模型架構設計正在進入更精細化的優化階段。
大模型訓練的隱藏痛點
超連接網絡(HC)技術本身是一個很好的想法,但在實際應用中遇到了關鍵問題。HC架構通過增加網絡連接來提升模型性能,但這個過程破壞了恆等映射特性——這是神經網絡訓練中的重要性質,能幫助梯度更好地流動,保持訓練穩定。
這導致兩個直接後果:
對於追求更大更強模型的企業來說,這是一個無法繞過的瓶頸。
mHC架構的解決思路
DeepSeek的方案很直接:既然HC破壞了恆等映射特性,那就把它恢復回來。
mHC的核心創新在於兩個層面:
理論層面
將HC的殘差連接空間映射至特定流形,在這個特定的幾何空間中恢復恆等映射特性。這聽起來複雜,但本質上是通過數學約束,讓網絡在增加連接的同時保持訓練的穩定性。
工程層面
結合嚴格的基礎設施優化確保效率。不是單純的理論改進,而是確保這個架構在實際訓練中能高效運行。
根據論文團隊的評估,這個改進實現了"顯著的性能改進和優越的可擴展性"——這意味著用mHC的模型不僅訓練更穩定,還能更好地擴展到更大規模。
為什麼這件事值得關注
從表面看,這是一篇技術論文。但背後有幾個值得思考的點:
持續的技術打磨。DeepSeek去年以性價比優勢震撼業界,今年的新論文說明這家公司並沒有停留在商業成功上,而是繼續在基礎技術上投入。這種專注很難。
架構設計的深化。大模型競爭已經從"誰的參數更多"進入"誰的架構更優"的階段。mHC代表的是這種更精細的競爭方向——用更聰明的設計解決訓練難題,而不是單純堆砌資源。
基座模型的演進方向。DeepSeek在論文中明確表示,mHC"將有助於更深入地理解拓撲架構設計,並為基座模型的演進指明有前景的方向"。這說明他們把這個改進看作是未來大模型發展的參考樣本。
總結
mHC架構的發布,展現了DeepSeek在技術創新上的持續投入。通過恢復恆等映射特性並結合工程優化,這個新架構解決了HC技術在大模型訓練中的實際痛點。雖然這類基礎架構的改進不如新模型發布那麼吸引眼球,但對於推動大模型技術向前邁進同樣重要。在全球AI競爭日趨激烈的背景下,這樣的技術積累正在成為企業的核心競爭力。