AI для глубоких исследований в этом году стал одной из самых горячих гонок в сфере технологий. Google в декабре 2024 года объявила о своем исследовательском агенте для Gemini, OpenAI выпустила собственный исследовательский агент в феврале 2025 года, xAI последовала, Perplexity удвоила ставки, а Claude от Anthropic собрал преданную аудиторию среди профессионалов, которым нужны подробные, ссылающиеся на источники ответы, представив своего агента в апреле прошлого года. Каждая компания пытается убедить вас, что ее единственная AI-модель — самый умный исследователь в комнате. Microsoft только что сказала: «Зачем выбирать одну?» Компания в понедельник объявила две новые функции для инструмента Copilot’s Researcher — Critique и Council — которые ставят GPT от OpenAI и Claude от Anthropic на одну и ту же задачу исследования по очереди. В результате, согласно тестированию Microsoft против отраслевого бенчмарка, результат выше, чем у любой системы, включенной в этот тест, включая модели от ведущих AI-компаний.
Знакомим с Critique — новой мульти-модельной системой глубоких исследований в M365 Copilot.
Вы можете использовать несколько моделей вместе, чтобы генерировать оптимальные ответы и отчеты. pic.twitter.com/m4RlQmCKzs
— Сатья Наделла (@satyanadella) 30 марта 2026
«Critique — это новая мульти-модельная система глубоких исследований, предназначенная для сложных задач. Она отделяет генерацию от оценки и использует комбинацию моделей из лабораторий Frontier, включая Anthropic и OpenAI», — объясняет Microsoft. «Одна модель ведет фазу генерации: планирует задачу, итеративно проходит через извлечение и создает первоначальный черновик, тогда как вторая модель фокусируется на проверке и доработке, выступая в роли эксперта-ревьюера до того, как будет подготовлен финальный отчет». Вот базовая проблема, которую Critique призвана устранить: сегодня каждый инструмент для AI-исследований работает одинаково. Вы задаете вопрос, одна модель планирует поиск, выискивает источники, пишет отчет и возвращает его вам. Эта единственная модель делает все без кого-либо, кто проверит ее работу. В итоге могут проскользнуть некоторые галлюцинации, ошибки в ссылках, фальшивые или неточные утверждения и т.д.
Critique разрывает этот рабочий процесс на две части. GPT отвечает за первую фазу — он планирует исследование, извлекает источники и пишет начальный черновик. Затем Claude подключается как строгий редактор, проверяя отчет на фактическую точность, качество ссылок и то, действительно ли ответ охватывал то, о чем спрашивали. И только после этой проверки финальный отчет доходит до пользователя. Microsoft говорит, что роли со временем могут работать и в обратном направлении — Claude будет готовить черновик, а GPT — выполнять критику, однако пока первым идет GPT.
На бенчмарке DRACO — стандартизированном тесте, охватывающем 100 сложных задач исследования в 10 доменах, включая медицину, право и технологии, — Copilot с Critique набрал 57,4 очка, тогда как Claude Opus от Anthropic сам по себе набрал 42,7. Совмещенная система Microsoft обходит следующий лучший результат почти на 14%.
Изображение: Microsoft
Самые большие улучшения проявились в широте анализа и качестве представления, при этом фактическая точность тоже показала заметный прирост.
Вторая функция, Council, использует другой подход к той же проблеме. Вместо того чтобы одна модель проверяла работу другой, Council запускает GPT и Claude одновременно и ставит их полные отчеты рядом. Затем третья модель «судья» читает оба и пишет сводку, объясняя, где две AI разошлись, где они совпали, и какие уникальные ракурсы каждая из них ухватила, но другая упустила. Сравнивать вручную инструменты для AI-исследований пользователям приходилось делать это самим — до сих пор.
В Critique модели по сути сотрудничают друг с другом, тогда как в Council модели соперничают друг с другом.
Critique — это режим по умолчанию в Researcher, а Council требует от вас выбрать «Model Council» в селекторе, чтобы включить режим с параллельным сравнением. Обе функции сейчас доступны пользователям, которые записаны в программу Frontier от Microsoft — канал раннего доступа для самых новых возможностей Copilot. Для доступа требуется лицензия Copilot для Microsoft 365 ($30/пользователь/месяц), но пользователи также должны быть подключены к Frontier.
Изображение: Microsoft
У OpenAI и Microsoft партнерство на миллиардные суммы, но ставка Microsoft в том, что ни одна единственная модель надолго не останется на вершине, и что реальная ценность — в оркестрационном слое, который направляет задачи в ту комбинацию, которая работает лучше всего.