Microsoft a présenté Critique, un nouveau système de recherche approfondie multi-modèle dans M365 Copilot

En bref

Microsoft a introduit Critique, un nouveau système d’enquête approfondie multi-modèles au sein de Researcher, l’agent d’enquête approfondie de Microsoft 365 Copilot, dans le cadre d’une démarche plus large visant à rendre Copilot plus fiable pour un travail de connaissance sérieux, plutôt que de simplement accélérer la rédaction.

Microsoft Introduced Critique, A New Multi-Model Deep Research System In M365 CopilotMicrosoft a introduit Critique, un nouveau système d’enquête approfondie multi-modèles au sein de Researcher, l’agent d’enquête approfondie de Microsoft 365 Copilot, dans le cadre d’une démarche plus large visant à rendre Copilot plus fiable pour un travail de connaissance sérieux, plutôt que de simplement accélérer la rédaction

Selon Microsoft, Critique est conçu pour des tâches de recherche complexes et fonctionne en découpant le travail en deux parties : un modèle gère la planification, la recherche, la synthèse et la rédaction, tandis qu’un second modèle examine et affine la sortie avant la production du rapport final. Microsoft indique que le système utilise des modèles provenant de laboratoires de pointe, dont OpenAI et Anthropic, et qu’il est disponible dès maintenant via le programme Frontier de l’entreprise

Reuters a rapporté qu’actuellement, dans la configuration de Critique, le GPT d’OpenAI génère la réponse et que Claude d’Anthropic l’examine pour en vérifier l’exactitude et la qualité avant que la réponse n’atteigne l’utilisateur. Microsoft a aussi déclaré qu’il souhaite que ce flux devienne bidirectionnel plus tard, permettant aux modèles de s’évaluer mutuellement dans les deux sens

Ce que Critique fait réellement dans Microsoft 365 Copilot

La propre description de Microsoft montre clairement que Critique n’est pas qu’une fonctionnalité cosmétique, ni un nouveau bouton simplement collé à Copilot. Elle fonctionne au sein de Researcher dans Microsoft 365 Copilot et a été conçue pour des tâches plus profondes, où bien faire compte autant que faire vite. Un modèle fait les recherches et rédige le rapport, tandis que le second intervient comme un éditeur : il vérifie les faits, affine la structure et aide à transformer l’ensemble en une pièce finale plus fiable.

Microsoft affirme que l’idée générale est de séparer la génération de l’évaluation, plutôt que de demander à un seul modèle de brainstormer, d’écrire, de vérifier les faits et de polir son propre travail en une seule fois. Cette distinction compte, car une grande partie des échecs de l’IA provient précisément de ce goulot d’étranglement à un seul modèle. Lorsqu’un système unique est chargé de tout faire, il peut produire quelque chose qui paraît soigné tout en laissant discrètement des lacunes, en allant trop loin dans ses affirmations ou en s’appuyant sur des preuves trop faibles

Microsoft indique que sa couche de relecture de Critique repose sur une évaluation basée sur une grille (rubrique), avec une attention portée à la fiabilité des sources, à l’exhaustivité du rapport et à une ancrage strict dans les preuves. En termes simples, le second modèle sert à vérifier si l’ébauche a réellement répondu à la question, si les sources sont solides, et si le récit final est étayé, au lieu de simplement donner une impression de confiance

Microsoft ne vend pas Critique comme une expérience secondaire

Parmi les détails les plus importants de l’annonce de Microsoft, il y a le fait que Critique sera l’expérience par défaut dans Researcher lorsque Auto est sélectionné dans le sélecteur de modèle. Cela indique que l’entreprise considère cela comme plus qu’une fonctionnalité de laboratoire optionnelle réservée aux utilisateurs avancés. En pratique, elle traite la relecture multi-modèles comme la nouvelle norme en matière de qualité de recherche approfondie au sein de Microsoft 365 Copilot. C’est un choix produit significatif, car cela suggère que Microsoft estime que les clients d’entreprise se soucient moins de la vitesse brute de réponse que de moins d’hallucinations, d’une structure plus solide et de davantage de confiance dans le rapport final

Cela s’inscrit aussi parfaitement dans le message plus large de Microsoft autour de la vague 3 de Microsoft 365 Copilot, où l’entreprise pousse l’idée de Copilot comme un « système pour le travail », fondé sur un avantage multi-modèles plutôt que sur n’importe quel laboratoire d’IA unique. Dans sa présentation, Copilot doit puiser la meilleure intelligence disponible dans l’ensemble de l’industrie, ancrée dans le contexte du travail via ce qu’elle appelle Work IQ et protégée par des contrôles de données d’entreprise. Critique est l’un des exemples les plus clairs de cette stratégie, passant d’un langage marketing à une fonctionnalité produit visible

Les chiffres du benchmark constituent une grande part de l’argumentaire de vente de Microsoft

Microsoft ne dit pas seulement que Critique donne une meilleure impression. L’entreprise affirme aussi que le système a obtenu de meilleurs résultats sur un benchmark formel. Dans sa note technique, elle indique avoir testé Critique sur le benchmark DRACO, abréviation de Deep Research Accuracy, Completeness, and Objectivity (exactitude, exhaustivité et objectivité de la recherche approfondie), qui couvre 100 tâches de recherche complexes réparties sur 10 domaines. Microsoft affirme que les réponses ont été évaluées sur l’exactitude factuelle, l’étendue et la profondeur de l’analyse, la qualité de présentation et la qualité des citations, et que Critique a surpassé la version à modèle unique de Researcher sur les quatre critères

L’entreprise a souligné les plus grands gains en étendue et profondeur d’analyse, suivis par la qualité de présentation et l’exactitude factuelle. Elle indique aussi que les améliorations étaient statistiquement significatives et que Researcher avec Critique a délivré une amélioration agrégée de +7,0 points, soit +13,88% par rapport à Perplexity Deep Research (modèle Claude Opus 4.6), que Microsoft a décrit comme le meilleur système rapporté dans l’article de benchmark

Données | Source : Microsoft

C’est une affirmation accrocheuse, surtout parce que la course à la recherche approfondie est devenue l’un des fronts les plus compétitifs de l’IA d’entreprise. Les outils de recherche ne sont plus jugés uniquement sur leur capacité à rassembler des informations, mais sur leur aptitude à assembler un rapport qui semble prêt pour la prise de décision

L’argument de Microsoft est que la couche de relecture oblige les chercheurs à repérer les angles manquants, à resserrer l’organisation, à contester les affirmations faibles et à utiliser les citations avec davantage de rigueur. Le fait que les clients ressentent ces gains dans de vrais workflows comptera davantage que les graphiques du benchmark, mais Microsoft cherche clairement à signaler une amélioration de qualité mesurable, et non une mise à jour de modèle vague

Council montre que Microsoft pense au-delà d’une seule « meilleure réponse »

Critique n’est pas la seule fonctionnalité introduite par Microsoft en même temps que cette mise à jour. L’entreprise a aussi lancé Council, un mode de comparaison multi-modèles à l’intérieur de Researcher. Microsoft dit que Council fait tourner simultanément des modèles d’Anthropic et d’OpenAI, permettant à chacun de générer un rapport complet autonome. Un modèle de juge distinct produit ensuite un résumé distillé indiquant où les rapports concordent, où ils divergent et ce que chacun apporte de manière unique. Le support Microsoft décrit cela comme Model Council, un mode qui conserve les deux rapports complets et ajoute un résumé de comparaison pour aider les utilisateurs à décider quelle sortie est la plus solide, ou comment les combiner

C’est un signal très intéressant sur la direction que pourrait prendre l’IA d’entreprise. Pendant un moment, l’industrie a agi comme si l’objectif était de trouver un seul modèle capable de remplacer tous les autres. Le mouvement le plus récent de Microsoft suggère que l’avenir le plus réaliste pourrait être un monde où les entreprises ne font pas assez confiance à un seul modèle pour en faire la seule voix dans la pièce

Le calendrier de Critique n’est pas un hasard. Microsoft a été soumis à une pression pour montrer que Microsoft 365 Copilot devient plus utile, plus différencié et plus précieux à mesure que la concurrence s’intensifie

Reuters relie le déploiement de Critique et Council à la volonté de Microsoft d’améliorer l’adoption de Copilot sur un marché où des rivaux, dont les produits Gemini de Google et Claude d’Anthropic, poussent fortement l’IA destinée au lieu de travail. Axios a aussi noté que la stratégie multi-modèles de Microsoft présente un autre avantage : elle montre que l’entreprise n’est pas enfermée dans une dépendance excessive à OpenAI, à un moment où le leadership des modèles de pointe peut changer rapidement

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler