La startup américaine d’IA Arcee publie un modèle d’inférence open source, Trinity-Large-Thinking, qui obtient un score de 91,9 sur le benchmark de capacités d’agent PinchBench, juste derrière les 93,3 d’Opus 4.6, et qui, sur le benchmark de tâche pour l’agent Tau2-Airline, décroche même le meilleur score de tous les modèles de comparaison avec 88,0. Le modèle utilise une architecture d’experts mixtes clairsemés de 400B, et sa tarification API est de 0,90 $ pour 1 million de tokens en sortie, soit environ 96% moins cher que Opus 4.6. Les poids sont téléchargeables en accès ouvert sous licence Apache 2.0. Compilation et reportage par Dongqu Dongqiu.
(Contexte : Analyse OpenRouter de 100 兆 Token research report : à quoi sert réellement l’IA pour les humains, l’essor des modèles chinois et le secret de la rétention des utilisateurs)
(Complément de contexte : Claude Opus 4.6 est là : il écrit lui-même un compilateur, fait des PPT, et a déniché 500 vulnérabilités zéro-day en passant—vos tâches, il veut aussi les essayer)。
La startup américaine d’IA Arcee, dont l’effectif est inférieur à 100 personnes, a obtenu dans l’évaluation des capacités d’agent un score qui talonne le modèle phare d’Anthropic, et elle ne coûte que 4% de ce que celui-ci facture.
Cette entreprise n’était pas vraiment au centre des regards principaux par le passé, mais son Trinity-Large-Thinking publié récemment s’est déjà hissé dans le peloton de tête sur plusieurs benchmarks de scénarios d’agent.
PinchBench, développé par Kilo, est actuellement un indicateur important et largement utilisé dans l’industrie pour mesurer la capacité d’exécution réelle des modèles dans des workflows d’agent. Sur ce test, Trinity-Large-Thinking a obtenu 91,9, tandis que le champion actuel, Opus 4.6, est à 93,3, soit un écart de seulement 1,4%.
Sur un autre benchmark Tau2-Airline simulant un scénario réel de service client, il obtient aussi 88,0, un score supérieur à tous les modèles en comparaison. Cela signifie que, dans les missions d’agent réelles qui nécessitent des conversations multi-tours et des requêtes répétées d’outils, ce modèle open source affiche effectivement un niveau très élevé.
Quant au prix de l’API d’Arcee, il est de 0,90 $/million de tokens en sortie ; la société indique que c’est environ 96% moins cher que Opus 4.6. Pour les cas d’usage qui doivent laisser l’agent exécuter automatiquement sur de longues périodes et consommer en continu des tokens, l’écart de coûts pourrait être plus significatif que l’écart de score entre les modèles.
Selon le blog officiel d’Arcee AI, la clé pour obtenir un tel rapport performances/prix réside dans le choix de l’architecture. Trinity-Large-Thinking utilise une conception MoE clairsemée (mixture d’experts) : elle contient 256 modules d’experts, mais à chaque fois qu’elle traite des tokens, seuls 4 d’entre eux sont activés. En conversion, malgré la taille gigantesque du modèle à 400B, lors de l’inférence réelle, il ne nécessite qu’une charge de calcul équivalente à 13B. L’efficacité d’exécution est d’environ 2 à 3 fois celle des modèles denses du même ordre de grandeur.
Par rapport au Preview précédent publié fin janvier de cette année, la plus grande mise à niveau est l’ajout d’une chaîne de pensée d’inférence.
Preview faisait uniquement du fine-tuning d’instructions ; cette version Thinking « réfléchit » avant de répondre, avec des améliorations évidentes en stabilité lors d’appels d’outils multi-tours et en cohérence du contexte long. Arcee le dit très clairement : ce modèle a été conçu pour ne pas s’effondrer lors de boucles d’agents sur de longues périodes.
L’ensemble du modèle de base a nécessité 20 millions de dollars et 33 jours pour l’entraînement, et la post-formation de la version Thinking a ensuite pris 9 mois de polissage.
Dans son message de publication, le CEO d’Arcee, Lucas Atkins, écrit : « Getting here took difficult technical work, hard calls…Nobody did that. They kept pushing. »
Bien sûr, être spécialisé dans l’agent implique des compromis. Sur les benchmarks d’inférence généraliste, les performances de Trinity-Large-Thinking sont moins éclatantes. GPQA-D obtient 76,3, alors que Kimi K2.5 est à 86,9, Opus 4.6 à 89,2 : l’écart atteint respectivement 10 et 13 points de pourcentage. MMLU-Pro à 83,4 se retrouve aussi en bas du classement parmi les modèles comparés.
Mais il semble qu’Arcee n’ait pas l’intention de se battre de front dans cette direction : selon l’entreprise, « Trinity-Large-Thinking est le modèle open source le plus fort en dehors de la Chine dans de nombreux domaines » ; ils indiquent déjà que leurs adversaires ne sont pas Opus ou GPT, mais des acteurs open source chinois comme DeepSeek et Kimi.
Trinity-Large-Thinking est également disponible sur OpenRouter ; pendant les 5 premiers jours, il est utilisable gratuitement dans OpenClaw. Le Preview précédent restera lui aussi fourni gratuitement.
En parlant du Preview de la version précédente : depuis sa mise en ligne fin janvier, sur la plateforme OpenRouter, il a cumulé plus de 3,37 billions de tokens traités. D’après les statistiques d’OpenClaw, c’est le modèle open source classé numéro un en consommation aux États-Unis, et numéro quatre dans le monde. Pour une startup de petite taille, ce taux d’adoption prouve déjà qu’il est à la fois bon marché et facile à utiliser : il existe bien une demande du marché.
Les poids du modèle sont publiés sur Hugging Face sous licence Apache 2.0, et tout le monde peut les télécharger, les modifier et les déployer à des fins commerciales.