MicrosoftはGPTとClaudeを連携させ、そしてその結果は市場にあるあらゆるAI研究ツールを上回る

Decrypt

要約

  • Microsoftは、AI研究の品質を高めるためにGPTとClaudeを組み合わせる2つの異なるモードをリリースしました。
  • Critiqueはモデル同士を協働させますが、Councilは3人目の審査員が食い違いを見つける一方で、モデルを並行して動かします。
  • この2モデルのワークフローは、幻覚、弱い引用、そして単一モデルのAI研究に関連するその他の問題を解決します。

ディープリサーチAIは、今年のテック分野で最も熱い“腕競争”の一つでした。今年12月にGoogleがGemini向けの研究エージェントを発表し、2025年2月にOpenAIが独自の研究エージェントをリリース、xAIも追随しました。Perplexityはさらに踏み込み、そしてAnthropicのClaudeは、詳細で引用付きの回答を必要とするプロフェッショナルの間で揺るぎない支持を築き、昨年4月にそのエージェントを導入しました。 どの会社も、あなたに対して「自社の単一AIモデルこそが会議室で最も賢い研究者だ」と納得させようとしています。Microsoftはただこう言いました。「1つを選ぶ必要があるのはなぜ?」 同社は月曜日、CopilotのResearcherツールに2つの新機能を追加すると発表しました。CritiqueとCouncilと呼ばれるこれらの機能は、OpenAIのGPTとAnthropicのClaudeを同じ研究タスクに対して順番に投入するものです。その結果は、業界ベンチマークに対するMicrosoftのテストによると、当該テストに含まれているあらゆるシステム、つまりトップAI企業のモデルも含むすべてより高いスコアを出しています。

M365 Copilotにおける新しいマルチモデル・ディープリサーチシステム「Critique」をご紹介します。

複数のモデルを一緒に使って、最適な応答とレポートを生成できます。pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

“Critiqueは、複雑な研究タスク向けに設計された新しいマルチモデル・ディープリサーチシステムです。生成と評価を分離し、AnthropicとOpenAIを含むFrontierラボの複数のモデルを組み合わせて利用します”とMicrosoftは説明しています。“1つ目のモデルが生成フェーズをリードし、タスクを計画し、リトリーバルを反復しながら初期ドラフトを作成します。一方、2つ目のモデルはレビューと洗練に集中し、最終レポートが作られる前に、ファクトの正確性、引用の品質、そして回答が実際に求められている内容に答えているかどうかを専門家の査読者のように評価します。” Critiqueが解決するよう設計された基本的な問題はこれです。現在のあらゆるAI研究ツールは同じやり方で動いています。あなたが質問すると、1つのモデルが検索を計画し、ソースをくまなく調べ、レポートを書いて、それをあなたに返します。その単一モデルが、誰も自分の仕事を確認しないまま、すべてを行っています。 その結果、いくつかの幻覚が紛れ込んだり、引用に誤りが出たり、捏造または不正確な主張が混じったり、などが起こり得ます。

 Critiqueは、そのワークフローを2つに分割して壊します。GPTは最初のフェーズを担当します。研究の計画を立て、ソースを取り込み、初期ドラフトを書きます。次にClaudeが厳格な編集者として加わり、レポートを事実の正確性、引用の品質、そして回答が実際に求められた内容に対処しているかどうかの観点でレビューします。このレビューの後になって初めて、最終レポートがユーザーに届きます。Microsoftによれば、この役割は逆方向に実行されることも将来的には可能で、Claudeが草案を書きGPTがCritiqueする形にもなり得ますが、現時点ではGPTが先行します。 DRACOベンチマーク――医学、法律、テクノロジーを含む10の領域にまたがって100の複雑な研究タスクをカバーする標準化テスト――で、Critiqueを使ったCopilotは57.4ポイントでした。一方、AnthropicのClaude Opusは単独で42.7ポイントにとどまりました。Microsoftの統合システムは、次に良い結果をほぼ14%上回っています。

画像: Microsoft

最大の伸びは、分析の幅とプレゼンテーションの品質に表れました。さらに、事実の正確性も大きく改善したことが示されています。 2つ目の機能であるCouncilは、同じ問題に対して別のアプローチを取ります。片方のモデルにもう一方の仕事をレビューさせるのではなく、CouncilはGPTとClaudeを_同時に_動かし、それぞれの完全なレポートを並べて表示します。次に3つ目の“審査員”モデルが両方を読み、2つのAIがどこで一致し、どこで食い違い、そしてそれぞれが相手には見落とされていた固有の観点として何を捉えたかを説明する要約を書きます。AI研究ツールを手作業で比較することは、これまでユーザー自身がやらなければならない作業でした。 Critiqueでは、モデルは実質的に_協働_しますが、Councilではモデルが_競い合う_のです。 ResearcherにおけるCritiqueはデフォルトの体験である一方、Councilはサイドバイサイドモードを有効にするために、ピッカーから「Model Council」を選択する必要があります。これら2つの機能は現在、Copilotの最新機能向けの早期アクセスチャネルであるMicrosoftのFrontierプログラムに登録しているユーザーが利用できます。Microsoft 365 Copilotのライセンス($30/user/month)が必要ですが、それらにアクセスするにはユーザーがFrontierにも登録している必要があります。

画像: Microsoft

OpenAIとMicrosoftは数十億ドル規模のパートナーシップを結んでいますが、Microsoftの賭けは「単一のモデルが長期にわたってトップを維持することはない」という点にあります。そして、真の価値は、タスクを最も機能する組み合わせに振り分ける“オーケストレーション層”にあるのだ、と同社は考えています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし