AGIを忘れろ—トップAIモデルは依然として数学に苦戦している

Decrypt

2026-03-18 12:10:12

要点

Sahara AIの注釈付きデータポイント6,000以上を用いて構築されたMATHVISTAは、多モーダルな数学推論においてAIモデルをテストします。
GPT-4Vは49.9%のスコアを記録し、テストされた12モデルの中で最高得点を獲得しましたが、依然として人間のパフォーマンスより10.4ポイント低いです。
研究者は、AGI（人工汎用知能）への進展はモデルの規模よりも、より良い訓練と評価データに依存している可能性が高いと述べています。

人工汎用知能（AGI）は、多くの分野で人間と同じように機能できるシステムとしてしばしば説明されます。今週発表されたMATHVISTAベンチマークテストの結果は、現行のモデルがその目標にまだ到達していないことを示しています。 Microsoft Research、Sahara AI、エモリー大学の研究者たちは、チャートやグラフ、図表などの視覚情報に基づく数学的推論を中心とした汎用知能の能力をテストしました。 ChatGPT、Gemini、Claudeを含む12の基盤モデルを対象にした結果、GPT-4 Visionが49.9%で最も高いスコアを記録しました。人間の参加者の平均は60.3%であり、現在のAIシステムとAGIにしばしば関連付けられる広範な推論能力との間に差があることが浮き彫りになっています。

「私たちは、機械に普通の、平均的な人が日常のタスクでできることをさせたい」とMicrosoft Researchの主任研究者、ハオ・チェンは_decrypt_に語った。「それが基本的に、誰もが追求しているAGIの目標です。」問題を画像や図表、グラフに変換することで、モデルが視覚情報を正確に解釈し、多段階の数学的・論理的問題を解決できるかどうかをテストしています。これは、テキストだけのパターンマッチングを超えるスキルです。しかし、これらのタスクは依然として難しく、その制限を測定することも困難です。

チェンのチームが既存の評価データセットを見直したところ、多くは視覚的推論を必要としない問題を含んでいました。モデルはしばしば、テキストのみに頼って正解に到達していました。「これは理想的ではありません」とチェンは述べました。 MathVistaはGitHubとHugging Faceで公開されており、2023年10月にリリースされました。それ以来、Microsoft Researchによると、275,000回以上ダウンロードされ、そのうち過去1ヶ月だけで13,000回以上ダウンロードされています。データセットの作成には、標準的なデータラベリング以上の作業が必要でした。Microsoft Researchは、算数、代数、幾何学、統計学にわたる問題を解きながら、グラフの解釈や方程式の解法などの深い数学的推論と、物体の数え方や数字の読み取りといった簡単なタスクとを区別できる注釈者を必要としました。パイロット段階の後、MicrosoftはSahara AIを選び、支援を依頼しました。同社は訓練を受けた注釈者、カスタムワークフロー、多段階の品質チェックを提供し、ベンチマークに使用される6,000以上の多モーダル例を作成しました。信頼できるベンチマークがなければ、より広範な機械知能への進展を測ることは難しくなります。Sahara AIのCEOであり、USCの准教授であるショーン・レンはこう述べています。「データ汚染の微妙な問題があり、一度このデータセットを使ってテストを始めると、その結果が次のバージョンに吸収されてしまいます」とレンは_decrypt_に語った。「だから、モデルが単にデータセットを解いているのか、それとも本当に能力があるのかを見極めるのは難しいです。」ベンチマークの答えがモデルの訓練データに含まれている場合、高得点は記憶によるものであり、推論によるものではない可能性があります。これにより、AIシステムが実際に進歩しているかどうかを判断しにくくなります。

研究者たちはまた、訓練データの制限にも言及しています。公開されているインターネットの多くはすでにモデルのデータセットに組み込まれています。「新しい知識をこのプロセスに注入する方法がどうしても必要です」とチェンは述べました。「この種のことは、高品質なデータから来る必要があり、そうすれば知識の境界を突破できると思います。」一つの提案された方法は、モデルがインタラクションし、経験から学び、フィードバックを通じて改善できるシミュレーション環境を作ることです。「モデルが遊びながら多くのことを学び、実生活で人間が行うことを模倣できるように、リアルな世界の双子や鏡のような世界をサンドボックス内に作るのです。そうすれば、インターネットの境界を破ることができる」とチェンは述べました。レンは、人間がAIシステムの改善に重要な役割を果たす可能性があるとも言います。モデルはコンテンツを迅速に生成できますが、人間はそれを評価するのに依然として優れています。「人間とAIの間には、その得意なことや苦手なことのギャップがあり、それを活用してAIを本当に向上させることができる」と彼は述べました。

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし