Microsoft заставила GPT и Claude работать вместе — и результат превосходит любые существующие инструменты AI-исследований

Decrypt

2026-03-30 21:25:56

Коротко

Microsoft выпустила два разных режима, которые объединяют GPT и Claude, чтобы повысить качество AI-исследований.
Critique заставляет модели сотрудничать, тогда как Council — работать параллельно, при этом третий судья находит расхождения.
Этот двухмодельный рабочий процесс устраняет галлюцинации, слабые ссылки и другие проблемы, связанные с исследованиями на одном-единственном AI-модели.

AI для глубоких исследований в этом году стал одной из самых горячих гонок в сфере технологий. Google в декабре 2024 года объявила о своем исследовательском агенте для Gemini, OpenAI выпустила собственный исследовательский агент в феврале 2025 года, xAI последовала, Perplexity удвоила ставки, а Claude от Anthropic собрал преданную аудиторию среди профессионалов, которым нужны подробные, ссылающиеся на источники ответы, представив своего агента в апреле прошлого года. Каждая компания пытается убедить вас, что ее единственная AI-модель — самый умный исследователь в комнате. Microsoft только что сказала: «Зачем выбирать одну?» Компания в понедельник объявила две новые функции для инструмента Copilot’s Researcher — Critique и Council — которые ставят GPT от OpenAI и Claude от Anthropic на одну и ту же задачу исследования по очереди. В результате, согласно тестированию Microsoft против отраслевого бенчмарка, результат выше, чем у любой системы, включенной в этот тест, включая модели от ведущих AI-компаний.

Знакомим с Critique — новой мульти-модельной системой глубоких исследований в M365 Copilot.

Вы можете использовать несколько моделей вместе, чтобы генерировать оптимальные ответы и отчеты. pic.twitter.com/m4RlQmCKzs

— Сатья Наделла (@satyanadella) 30 марта 2026

«Critique — это новая мульти-модельная система глубоких исследований, предназначенная для сложных задач. Она отделяет генерацию от оценки и использует комбинацию моделей из лабораторий Frontier, включая Anthropic и OpenAI», — объясняет Microsoft. «Одна модель ведет фазу генерации: планирует задачу, итеративно проходит через извлечение и создает первоначальный черновик, тогда как вторая модель фокусируется на проверке и доработке, выступая в роли эксперта-ревьюера до того, как будет подготовлен финальный отчет». Вот базовая проблема, которую Critique призвана устранить: сегодня каждый инструмент для AI-исследований работает одинаково. Вы задаете вопрос, одна модель планирует поиск, выискивает источники, пишет отчет и возвращает его вам. Эта единственная модель делает все без кого-либо, кто проверит ее работу. В итоге могут проскользнуть некоторые галлюцинации, ошибки в ссылках, фальшивые или неточные утверждения и т.д.

Critique разрывает этот рабочий процесс на две части. GPT отвечает за первую фазу — он планирует исследование, извлекает источники и пишет начальный черновик. Затем Claude подключается как строгий редактор, проверяя отчет на фактическую точность, качество ссылок и то, действительно ли ответ охватывал то, о чем спрашивали. И только после этой проверки финальный отчет доходит до пользователя. Microsoft говорит, что роли со временем могут работать и в обратном направлении — Claude будет готовить черновик, а GPT — выполнять критику, однако пока первым идет GPT. На бенчмарке DRACO — стандартизированном тесте, охватывающем 100 сложных задач исследования в 10 доменах, включая медицину, право и технологии, — Copilot с Critique набрал 57,4 очка, тогда как Claude Opus от Anthropic сам по себе набрал 42,7. Совмещенная система Microsoft обходит следующий лучший результат почти на 14%.

Изображение: Microsoft

Самые большие улучшения проявились в широте анализа и качестве представления, при этом фактическая точность тоже показала заметный прирост. Вторая функция, Council, использует другой подход к той же проблеме. Вместо того чтобы одна модель проверяла работу другой, Council запускает GPT и Claude одновременно и ставит их полные отчеты рядом. Затем третья модель «судья» читает оба и пишет сводку, объясняя, где две AI разошлись, где они совпали, и какие уникальные ракурсы каждая из них ухватила, но другая упустила. Сравнивать вручную инструменты для AI-исследований пользователям приходилось делать это самим — до сих пор. В Critique модели по сути сотрудничают друг с другом, тогда как в Council модели соперничают друг с другом. Critique — это режим по умолчанию в Researcher, а Council требует от вас выбрать «Model Council» в селекторе, чтобы включить режим с параллельным сравнением. Обе функции сейчас доступны пользователям, которые записаны в программу Frontier от Microsoft — канал раннего доступа для самых новых возможностей Copilot. Для доступа требуется лицензия Copilot для Microsoft 365 ($30/пользователь/месяц), но пользователи также должны быть подключены к Frontier.

Изображение: Microsoft

У OpenAI и Microsoft партнерство на миллиардные суммы, но ставка Microsoft в том, что ни одна единственная модель надолго не останется на вершине, и что реальная ценность — в оркестрационном слое, который направляет задачи в ту комбинацию, которая работает лучше всего.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев