人工汎用知能(AGI)は、多くの分野で人間と同じように機能できるシステムとしてしばしば説明されます。今週発表されたMATHVISTAベンチマークテストの結果は、現行のモデルがその目標にまだ到達していないことを示しています。 Microsoft Research、Sahara AI、エモリー大学の研究者たちは、チャートやグラフ、図表などの視覚情報に基づく数学的推論を中心とした汎用知能の能力をテストしました。 ChatGPT、Gemini、Claudeを含む12の基盤モデルを対象にした結果、GPT-4 Visionが49.9%で最も高いスコアを記録しました。人間の参加者の平均は60.3%であり、現在のAIシステムとAGIにしばしば関連付けられる広範な推論能力との間に差があることが浮き彫りになっています。
「私たちは、機械に普通の、平均的な人が日常のタスクでできることをさせたい」とMicrosoft Researchの主任研究者、ハオ・チェンは_decrypt_に語った。「それが基本的に、誰もが追求しているAGIの目標です。」 問題を画像や図表、グラフに変換することで、モデルが視覚情報を正確に解釈し、多段階の数学的・論理的問題を解決できるかどうかをテストしています。これは、テキストだけのパターンマッチングを超えるスキルです。 しかし、これらのタスクは依然として難しく、その制限を測定することも困難です。
チェンのチームが既存の評価データセットを見直したところ、多くは視覚的推論を必要としない問題を含んでいました。モデルはしばしば、テキストのみに頼って正解に到達していました。 「これは理想的ではありません」とチェンは述べました。 MathVistaはGitHubとHugging Faceで公開されており、2023年10月にリリースされました。それ以来、Microsoft Researchによると、275,000回以上ダウンロードされ、そのうち過去1ヶ月だけで13,000回以上ダウンロードされています。 データセットの作成には、標準的なデータラベリング以上の作業が必要でした。Microsoft Researchは、算数、代数、幾何学、統計学にわたる問題を解きながら、グラフの解釈や方程式の解法などの深い数学的推論と、物体の数え方や数字の読み取りといった簡単なタスクとを区別できる注釈者を必要としました。 パイロット段階の後、MicrosoftはSahara AIを選び、支援を依頼しました。同社は訓練を受けた注釈者、カスタムワークフロー、多段階の品質チェックを提供し、ベンチマークに使用される6,000以上の多モーダル例を作成しました。 信頼できるベンチマークがなければ、より広範な機械知能への進展を測ることは難しくなります。Sahara AIのCEOであり、USCの准教授であるショーン・レンはこう述べています。 「データ汚染の微妙な問題があり、一度このデータセットを使ってテストを始めると、その結果が次のバージョンに吸収されてしまいます」とレンは_decrypt_に語った。「だから、モデルが単にデータセットを解いているのか、それとも本当に能力があるのかを見極めるのは難しいです。」 ベンチマークの答えがモデルの訓練データに含まれている場合、高得点は記憶によるものであり、推論によるものではない可能性があります。これにより、AIシステムが実際に進歩しているかどうかを判断しにくくなります。
研究者たちはまた、訓練データの制限にも言及しています。公開されているインターネットの多くはすでにモデルのデータセットに組み込まれています。 「新しい知識をこのプロセスに注入する方法がどうしても必要です」とチェンは述べました。「この種のことは、高品質なデータから来る必要があり、そうすれば知識の境界を突破できると思います。」 一つの提案された方法は、モデルがインタラクションし、経験から学び、フィードバックを通じて改善できるシミュレーション環境を作ることです。 「モデルが遊びながら多くのことを学び、実生活で人間が行うことを模倣できるように、リアルな世界の双子や鏡のような世界をサンドボックス内に作るのです。そうすれば、インターネットの境界を破ることができる」とチェンは述べました。 レンは、人間がAIシステムの改善に重要な役割を果たす可能性があるとも言います。モデルはコンテンツを迅速に生成できますが、人間はそれを評価するのに依然として優れています。 「人間とAIの間には、その得意なことや苦手なことのギャップがあり、それを活用してAIを本当に向上させることができる」と彼は述べました。