Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
Genesis II 擴展 QVAC 的合成 AI 教育數據集至 1480 億個標記
Tether Data 的人工智慧研究部門 QVAC 已推出其開源合成數據集的最新版本,標誌著在 AI 模型預訓練能力方面的重大進展。此次新發布增加了 1070 億個額外的標記,使總數據集達到 1480 億個標記,涵蓋 19 個以教育為焦點的領域——使其成為全球最大、公開可用的 AI 發展合成數據集。
在合成分類與推理能力上的突破
Genesis II 數據集引入了一種根本性的轉變,改變了合成數據結構化訓練資訊的方式。與單純的標記累積不同,QVAC 實施了一種「合成分類」方法,將教育內容劃分為專門的領域,每個領域都針對特定的學習目標進行優化。這種方法使模型訓練參數能夠更細緻地控制。
此次發布的一個特色是引入「選項層級推理」,這是一種新穎的訓練方法,指導 AI 模型通過多選題解決框架。與以往專注於模式識別的世代不同,這種方法明確教導模型達成結論所需的中間推理步驟。獨立評估顯示,基於 Genesis II 數據訓練的模型展現出更高的推理準確性,並產生更連貫、結構良好的回應,較早期的合成數據集更為優越。
擴展的領域範圍與可及性
Genesis II 擴展到先前較少涉及的領域,包括計算機科學、統計學和機器學習——這些領域對於開發能解決複雜分析問題的 AI 系統至關重要。這一擴展建立在 Genesis I 的基礎上,Genesis I 首次提出失效分析方法,用於識別並修正模型推理中的弱點。
整個數據集採用 Creative Commons 授權,並在 QVAC 官方部落格與 Hugging Face 上同步發布,民主化企業級訓練數據的存取。這種開放式分發模式消除了研究人員和開發者在本地化 AI 模型開發上的障礙,降低了對專有、集中式 AI 開發平台的依賴。
策略願景與產業影響
Tether 的 CEO Paolo Ardoino 表示,此舉是推動人工智慧發展的重要一步,將其從僅具語言流暢性提升到更為堅實、結構化的理解能力。透過提供高品質的合成訓練數據免費存取,QVAC 使更廣泛的 AI 研究社群能夠開發出更可靠、更透明的模型,超越傳統企業體系。
此發布凸顯一個日益受到重視的趨勢:高品質的預訓練數據——尤其是為教育價值優化的合成數據集——在模型開發中扮演著關鍵的競爭優勢。隨著 AI 系統在商業與研究應用中的核心地位日益提升,Genesis II 這樣的倡議對於推動先進模型訓練能力的普及具有重要意義。