Harness, Lin Junyang, la voie d'un trillion de dollars et la paume d'Anthropic

L’infra de l’ère des agents (Agent 时代) est bien plus grande en termes d’opportunités et d’imagination que le “homard”.

En mars 2026, dans l’industrie de l’IA, le mot le plus en vogue n’est pas le nom d’un quelconque modèle, mais un mot anglais qui sonne totalement sans rapport avec l’IA : Harness.

Son sens premier est celui d’un harnais. Les brides, le licol, l’équipement : toute cette panoplie qui se place sur le cheval.

S’il était employé comme verbe, son sens serait probablement “dompter” / “maîtriser”.

On ne dirait pas harness a calculator (dompter une calculatrice), mais on dirait harness the wind (dompter le vent), harness a horse (dompter un cheval). Celui qui utilise ce mot—qu’il le fasse consciemment ou non—admet une chose : ce qu’il a devant lui n’est pas un outil passif, mais une entité dotée de puissance et d’autonomie. Il ne “l’utilise” pas, il “le dompte” / “le maîtrise”.

Ce mot est en train de devenir la notion industrielle centrale de l’ère des agents IA.

Autour de lui, une couche d’infrastructure de taille atteignant le billion (mille milliards) de dollars est en train de naître. Et ceux qui édictent les règles de cette couche d’infrastructure sont sur le point d’apparaître.

Harness is the New Infra

Harness, dans le contexte de l’IA, présente deux lignes d’évolution.

La première est rhétorique. “Harness AI”, comme expression générique, circule depuis longtemps dans l’industrie tech, et ne signifie rien d’autre que “la capacité à dompter/maîtriser l’IA”.

La seconde, plus importante, est technique. Fin 2025, Anthropic a commencé à utiliser “harness” pour désigner toute la couche d’infrastructure construite autour des agents IA—gestion du contexte, appels d’outils, mémoire, garde-fous, orchestration. La définition officielle du Claude Agent SDK est “a general-purpose agent harness”.

Début 2026, le cofondateur de HashiCorp, Mitchell Hashimoto, a proposé “AI Harness” comme notion formelle, et “Harness Engineering” comme un nouveau domaine de pratique d’ingénierie, qui s’est rapidement propagé.

Mais ce qui rend vraiment ce mot digne d’être pris au sérieux, ce n’est pas sa popularité : c’est sa capacité à décrire avec précision une nouvelle relation en train de se former entre l’humain et l’IA : une coopération asymétrique et symbiotique.

L’humain fournit l’intention, le jugement et la direction. L’IA fournit la capacité, la vitesse et l’échelle.

Harness reconnaît à la fois l’asymétrie des capacités et l’asymétrie de l’autorité, et ces deux asymétries sont inverses : la capacité de l’IA peut être bien supérieure à celle du maître/dompteur, mais le dompteur conserve le pouvoir de décision final sur la direction.

Un cheval peut courir bien plus vite et porter bien plus de force qu’un humain, mais c’est l’humain qui décide où aller.

L’humain a besoin de dompter/maîtriser une IA plus forte que lui. C’est probablement la couche d’expression la plus juste—qu’il l’ait voulu ou non—qu’Anthropic cherchait à capturer en choisissant ce mot.

Et “Harness”, ce terme, porte aussi assez “Anthropic” (humain), avec un côté centré sur l’humain.

On dit : Harness is the New Datasets.

Cette phrase est intuitive, mais la conclusion est inexacte. Lorsque les modèles de base tendent à converger, la qualité de Harness devient bien une variable clé pour déterminer si un agent est bon ou mauvais, un peu comme la qualité des données peut déterminer la vie ou la mort d’un modèle de base.

Mais la manière d’exister de Datasets (jeux de données) et de Harness est fondamentalement différente : les Datasets occupent une position unique dans l’architecture technique, en tant qu’entrée de l’étape d’entraînement ; mais Harness n’est pas une couche précise : c’est une pile (stack), une combinaison de couches.

L’ingénierie du contexte et la mémoire sont des couches de stockage ; l’accès aux outils est une couche réseau ; l’orchestration est une couche conteneur ; les garde-fous sont une couche de sécurité ; l’évaluation est une couche d’observabilité ; l’encapsulation des compétences est un middleware. Chaque couche peut donner naissance à des entreprises, des standards et des modèles commerciaux indépendants. Cela correspond exactement à la structure en pile de l’infra de cloud computing.

En ce sens, Harness is the New Infra : ce n’est pas l’infra de l’entraînement préalable des modèles, c’est l’infra pour construire des agents—une infra qui donne à l’agent de l’autonomie tout en respectant strictement les instructions humaines, assurant la sécurité et le respect des règles.

Harness lui-même n’est pas un nouveau Datasets, mais le bon fonctionnement de Harness génère de bons datasets pour l’agent et met en place une boucle de données. Quand un harness accumule suffisamment de données d’actions des utilisateurs et des connaissances du domaine, il ne s’agit plus seulement d’une conception de système en “plug-in/external” : il commence à acquérir une propriété de données—plus on l’utilise, mieux c’est ; plus on l’utilise, plus il devient difficile à remplacer.

On peut alors en déduire une équation presque utilisable comme définition :

Modèle de base + Harness = Agent.

Le modèle de base fournit la capacité brute—raisonner, générer, comprendre. Mais il est statique, passif, sans direction. Il peut tout faire, donc il n’est vraiment rien en particulier. Harness fournit la structure, la direction et les contraintes : il réduit un ensemble de possibilités infinies à des actions finies et orientées vers un but. À l’instant où les deux se combinent, l’IA passe d’un objet qu’on interroge à un sujet qui agit.

Un même cheval, équipé avec des harnais/équipements différents, peut tirer une charrette, transporter des personnes, travailler la terre, ou participer à des courses. La conception de Harness détermine la forme de l’agent et son usage.

Pitch Deck de Lin Junyang

Le 26 mars 2026, l’ancien directeur technique de l’équipe Qwen, Lin Junyang (Junyang Lin), a publié un long article sur X, intitulé “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking”. En deux jours : 700 000 lectures, 2 800 likes, 677 reposts.

Trois semaines plus tôt, le 4 mars, il venait de quitter Alibaba. Trois semaines après, il a écrit un article systématique de jugement de l’industrie.

L’argument central de l’article est le suivant : l’IA passe de “penser plus longtemps” à “penser pour agir”.

Reasoning Thinking (raisonnement) est, dans l’essence, un monologue statique : le modèle produit des chaînes de raisonnement de plus en plus longues dans un espace fermé, en essayant de compenser le manque d’interaction avec l’environnement par davantage de texte. L’Agentic Thinking, lui, avance continuellement la tâche au fil des interactions avec l’environnement. L’objet d’entraînement a connu trois “sauts” successifs : de l’entraînement des modèles, à l’entraînement des agents, puis à l’entraînement des systèmes.

Ce n’est pas de la théorie. Il l’appuie avec ses propres leçons de terrain sur Qwen : fusionner les modes thinking (raisonnement) et instruct (instructions) s’avère beaucoup plus difficile que ce qu’on imagine. Les distributions de données et les objectifs d’optimisation de deux comportements tirent fondamentalement dans des directions opposées—instruct cherche la concision, la rapidité et la conformité de format, tandis que thinking cherche à investir davantage de tokens pour explorer des chemins de substitution. Après que Qwen3 ait tenté de les fusionner, il a ensuite redivisé en lignes indépendantes.

Cette leçon pointe une compréhension plus profonde : Instruct est le substitut du Harness de l’avant-ère des agents.

Instruct intègre des normes de comportement dans les poids du modèle via SFT et RLHF—c’est comme coudre le harnais dans les muscles du cheval. Dans une époque de questions-réponses, cela suffit. Mais à l’ère des agents, le modèle doit fonctionner de manière autonome, appeler des outils, et prendre des décisions en continu. L’espace des comportements explose, et il est impossible d’entraîner toutes les contraintes dans les poids. Le centre de gravité du contrôle doit se déplacer de l’intérieur du modèle vers l’extérieur.

Les limites de capacité de Instruct se font pulvériser par le paradigme agent : Harness est une évolution inévitable.

Dans l’article, Lin Junyang mentionne “harness” quatre fois, avec une relation d’enchaînement très claire :

de “l’environnement externe dans lequel l’agent s’exécute”, à “une pratique d’ingénierie indépendante—harness engineering”, puis à “une partie de l’objet d’entraînement—agent and the harness around it”.

Son article prouve, côté entraînement, une chose : Harness n’est pas seulement une infrastructure d’exécution pour l’agent, c’est aussi une infrastructure pour l’entraînement de l’agent.

Dans la boucle fermée du Agentic RL, l’Agent s’exécute dans Harness ; l’environnement produit des signaux de feedback ; le feedback pilote la mise à jour RL de la stratégie ; et la stratégie change le comportement de l’Agent. Retirer Harness ne pose pas seulement un problème de lenteur : cela empêche le fondement même du training de fonctionner.

Et il propose explicitement : la plus grande contrainte du Agentic RL n’est ni l’algorithme, ni l’architecture du modèle, mais la qualité de l’environnement et l’infrastructure de rollout. Les goulots d’étranglement qui freinent l’évolution de l’agent se trouvent dans la couche d’infra.

Merci à Junyang : j’ai complété à ta place l’une des deux moitiés manquantes de l’argument “Harness is the New Infra”.

L’idée selon laquelle Harness est une infrastructure indispensable à l’exécution des agents (infra) était une affirmation plus haut. Et l’article de Junyang nous dit ceci : Harness est aussi l’infra de l’entraînement des agents. Dans la boucle fermée du Agentic RL, l’environnement produit des signaux de feedback, le feedback pilote la mise à jour des stratégies, la stratégie change le comportement de l’Agent, et le comportement de l’Agent déclenche à nouveau de nouveaux retours de l’environnement.

Ce système, indispensable à la fois dans les deux extrémités—l’entraînement et l’inférence—est la véritable infra au sens plein, à savoir Harness.

Dans l’article, Lin Junyang dit une phrase qui mérite d’être relevée : “La construction de l’environnement passe d’un projet secondaire à une véritable catégorie de startup.”

“Construire l’environnement” n’est pas équivalent à Harness, mais en est un sous-ensemble important. “L’environnement” correspond principalement à l’intégration des outils et aux retours d’évaluation dans l’architecture de Harness—plus précisément, le monde avec lequel l’agent interagit pendant l’entraînement : bacs à sable d’exécution de code, simulateurs de navigateur, ensembles de cas de test, couche de simulation d’API. Sa fonction centrale est de produire des signaux de feedback pour que l’Agentic RL ait quelque chose à optimiser. C’est un peu comme le conteneur, les benchmark et Hugging Face utilisés pour l’entraînement et la mise en place des agents.

L’environnement est l’aire de jeu quand on entraîne un agent, Harness est l’ensemble complet d’équipements quand l’agent se met à courir. L’aire de jeu fait partie de l’équipement, mais ce n’est pas tout.

Cependant, le fait qu’un ancien directeur technique d’un modèle open source commence à définir séparément une catégorie de startup pour un sous-module de Harness est, à lui seul, un signal : cela indique que cette pile est déjà suffisamment complexe et suffisamment précieuse, au point de commencer à faire naître des entités commerciales indépendantes couche par couche, comme une vraie pile d’infra.

Et dans un long article au parfum très académique, il définit une piste de course de startup. Si tu penses encore que ce n’est pas un pitch deck de startup de Lin Junyang, alors ne fais pas de VC.

Une piste de startup à mille milliards de dollars

Si Lin Junyang faisait vraiment des infrastructures pour l’environnement d’entraînement des agents—la direction qu’il a lui-même définie comme “une véritable catégorie de startup”—quelle couche de cette “tarte” Harness affronterait-il ? Et cette couche, quelle taille a-t-elle ?

À l’intérieur de Harness, il y a une architecture multi-couches complète, décomposable en sept modules clés : ingénierie du contexte, système de mémoire, accès aux outils, encapsulation des compétences, garde-fous et permissions, évaluation et feedback, orchestration et gestion d’état.

En dehors de la couche d’accès aux outils (MCP), chaque couche voit déjà des startups courir.

La couche contexte et mémoire a Cognee (financement €7,5 millions) et Interloom ($16,5 millions de tour seed, Sequoia investisseur).

La couche d’accès aux outils a été standardisée par le protocole MCP—9700 000 000 téléchargements de SDK mensuels ; Anthropic, OpenAI, Google, Microsoft et Amazon sont tous connectés, avec peu de place pour des startups.

La couche d’accès à la sécurité a vu émerger Runlayer ($11 millions, mené par Khosla), et des solutions de garde-fous et de conformité comme Guardrails AI, Vigilant AI, Runtime, Alter. L’évaluation et l’observabilité sont les plus chaudes : Arize AI a levé $70 millions en série C ; ses clients incluent Uber et PepsiCo ; Langfuse est devenu une norme de communauté open source.

La couche d’orchestration montre une structure de “trois gros” : LangGraph, CrewAI (financement de $18 millions, 60% des Fortune 500 l’utilisent) et le framework d’agents de Microsoft ; parmi ces deux-là, ce sont des startups. Et la couche d’encapsulation des Skills présente surtout des startups sous forme de produits d’agents sur des secteurs verticaux ; le modèle de référence est Harvey—IA pour le droit, avec une valorisation de $11 milliards, $1 milliard de financement cumulée, ARR $190 millions ; ainsi que Abridge, IA pour la santé, avec une valorisation de $5,3 milliards.

La couche d’environnement d’entraînement en est au tout début : environ 20 startups en phase seed ; Wing VC estime qu’elles se consolideront en 3-5 entreprises d’ici 2030.

Mais toutes les couches ne sont pas de bonnes pistes.

Le critère central pour juger si c’est une bonne piste est : ce module résout-il un problème de “capacité du modèle” ou un problème de “conception système” ?

Le premier type sera avalé par les modèles de base : la fenêtre de contexte s’étend de 128K à 1M puis plus grand ; les stratégies de compression soignées d’aujourd’hui peuvent ne plus servir demain.

Quant aux modules de la couche de conception système, ils ont une valeur durable—par exemple l’accès aux outils, c’est un problème d’écosystème ; les garde-fous de sécurité, un problème de conformité ; l’évaluation, un problème d’indépendance : ces enjeux ne peuvent pas être dissous par le seul fait que le modèle devienne plus fort.

Leur chemin de sortie est également très différent. L’accès aux outils et l’encapsulation des compétences sont trop proches du modèle : les entreprises de modèles ont une motivation très forte pour les absorber—Anthropic fait MCP et Skills ; OpenAI fait Plugins et GPTs ; tout cela consiste à engloutir ces deux couches.

Dans ces deux directions, le plafond est une acquisition. Les garde-fous de conformité et l’évaluation/observabilité sont l’inverse : elles ont naturellement besoin d’indépendance tierce. Une banque ne fait pas confiance aux outils d’audit de conformité d’Anthropic lui-même, tout comme tu ne laisserais pas le côté audité publier son propre rapport d’audit. L’indépendance n’est pas une stratégie commerciale : c’est la valeur produit elle-même. Le premier est un bon actif à acquérir ; le second est un bon actif pour un IPO.

Ils appartiennent tous à Harness, l’infra des agents. Alors l’ensemble du “total” du marché de la piste Harness, quelle taille a-t-il ?

Du bas vers le haut, en additionnant les espaces de valorisation des sept sous-pistes : d’ici 2030, la somme des valorisations des startups indépendantes serait environ de $5000-8000 milliards. Parmi elles, l’encapsulation des skills et les connaissances verticales sont les plus grandes ( $2500-3500 milliards ) ; les garde-fous et la conformité ont le plus fort taux de croissance (CAGR 65,8%, de $700 millions en 2024 à $109,9 milliards en prévision 2034, plus l’agent est autonome, plus le prix du harnais augmente), et la couche d’environnement d’entraînement, bien que la plus précoce, est aussi celle qui offre la plus grande certitude.

Le marché global des agents IA prévoit d’ici 2030 des revenus de $50-100 milliards ; Harness, en tant que couche d’infra, représenterait 40-50%. En appliquant des multiples PS de 10-15x pour SaaS/Infra, l’espace de valorisation est cohérent.

Une piste de startup de près de mille milliards de dollars.

Si on inclut aussi les revenus de Harness intégrés à l’intérieur des sociétés de modèles, l’espace de valorisation global de la couche d’infrastructures Harness est de $2,5-3,8 billions. C’est à peu près équivalent au total de la capitalisation boursière actuelle de toute la couche d’infra du cloud computing.

Alors revenons à Lin Junyang : s’il entrait vraiment dans le sous-segment Harness que sont l’environnement d’entraînement et les infrastructures RL, il ferait face à un marché actuellement d’environ seulement 20 sociétés en seed, mais qui atteindrait $20-50 milliards d’espace de valorisation d’ici 2030. Wing VC prédit que cette piste se consolidera finalement en 3-5 entreprises leaders.

En tant qu’ex-responsable technique de Qwen, s’il levait à la seed en Silicon Valley, la valorisation pourrait se situer entre $200 et $500 millions. Le marché ne valorise pas la valeur de l’entreprise : il valorise le prix de la personne. Lin Junyang n’a déjà plus besoin d’écrire un BP (business plan)—ce tweet suffit. Et si c’est en Chine avec un fonds en dollars, une valorisation de départ à $50 millions n’est pas impensable, et $100 millions non plus. En RMB ? On verra.

La main d’Anthropic

Désormais, il faut répondre à une question vraiment importante : pour ce qui est de cette couche d’infrastructure de billion de dollars, qui définit les règles ?

Regardons quelques faits impitoyables :

MCP est le protocole standard lancé par Anthropic. Claude Code est le produit harness fabriqué par Anthropic, avec un revenu annualisé de $2,5 milliards. Agent SDK est l’entrée développeur construite par Anthropic. Le système Skills est conçu par Anthropic. Même la popularité du mot “harness” dans le contexte des agents IA est largement portée par Anthropic.

La raison plus profonde vient du modèle économique.

Le récit central d’OpenAI est “le modèle le plus puissant” ; le revenu vient principalement des abonnements à ChatGPT. Anthropic ne fait plus de multimodalité et de modèles du monde, mais il est de plus en plus considéré comme le modèle le plus puissant. Le point fort de Claude n’est pas “premier au classement des scores”, mais “le modèle le plus adapté aux workflows d’agents”—plus fiable, plus contrôlable, et plus adapté à une exécution autonome sur une longue durée.

Cette position implique que la compétitivité d’Anthropic ne provient pas seulement du modèle, mais aussi—et surtout—de la qualité du Harness autour du modèle. Plus chaque couche de Harness s’améliore, plus sa douve/avantage défensif s’élargit. La prospérité de l’écosystème Harness équivaut directement à l’intérêt commercial d’Anthropic.

Cela explique pourquoi OpenAI a commencé dès 2023 à essayer de construire un écosystème—Plugins, GPTs, GPT Store—mais sans réussir, tandis qu’Anthropic n’a sorti MCP qu’à la fin 2024, avec un retard d’un an et demi, tout en devenant une norme de fait.

La raison fondamentale derrière tout cela est la suivante : OpenAI construit un écosystème d’applications, Anthropic construit un écosystème d’infrastructures.

GPT Store d’OpenAI suit la logique de l’App Store : j’ai la plus grande base d’utilisateurs, donc tu viens ouvrir ton magasin chez moi. Mais quand le modèle lui-même sait faire “tout”, les applications n’ont plus de nécessité. Les GPTs n’ont pas de barrières différenciantes : les capacités de base et ChatGPT lui-même sont la même chose.

Et le MCP d’Anthropic n’est pas une boutique d’applications : c’est une boutique de protocoles. Il n’invite pas les développeurs à ouvrir une boutique sur Claude, il définit un ensemble de standards de connexion, permettant à tous les outils et à tous les modèles d’être utilisés. C’est la logique de HTTP, pas celle de l’App Store.

Plus un protocole est ouvert, plus le contrôle sur l’écosystème est fort. Aujourd’hui, tout le monde utilise MCP. Or MCP est conçu par Anthropic. Il n’a pas besoin de verrouiller les utilisateurs : il verrouille la mentalité des développeurs et leur chaîne d’outils.

Côté capital : Anthropic et l’investisseur early-stage Menlo Ventures ont créé l’Anthology Fund, doté de $100 millions ; en un an, il a investi dans plus de 30 startups orientées harness. La structure est très intelligente : Menlo met l’argent, Anthropic ne participe pas aux intérêts économiques du fonds, mais fournit à chaque société investie $25 000 de crédits de modèle, tout en ouvrant la participation de Mike Krieger, Chief Product Officer, et celle de Daniela Amodei, présidente, à la demo day.

Anthropic ne dépense pas un centime, verrouille plus de 30 startups dans l’écosystème Claude, tout en obtenant les signaux de demande les plus à la pointe. C’est une option sans coût.

Mais avons-nous réfléchi à ceci : pourquoi, à l’ère de l’IA agentique, l’écosystème de protocoles d’Anthropic est-il plus important que l’écosystème d’applications d’OpenAI ?

Parce qu’un agent n’est pas une “application” au sens traditionnel. L’interface d’interaction des applis classiques est fixe et limitée : l’utilisateur commande une voiture, l’appli suit un processus prédéfini, appelle une API, met en relation un chauffeur et calcule un itinéraire. Un agent est différent : il décide lui-même quels outils appeler, dans quel ordre, et à quel moment. L’interface d’interaction est infinie et dynamique. En outre, les agents doivent aussi coopérer entre eux : l’orchestrateur planifie des agents spécialisés, et les agents spécialisés orchestrent des sous-agents—c’est un problème de collaboration dans un système distribué.

Quand l’interface d’interaction est fixe, vous pouvez vous connecter par lots ; quand elle est infinie, vous ne pouvez qu’en définir un standard.

TCP/IP permet à deux machines de communiquer, HTTP permet à n’importe quel client d’accéder à n’importe quel serveur, et MCP permet à n’importe quel agent d’appeler n’importe quel outil. L’unité de base de l’écosystème applicatif est “le produit” ; l’unité de base de l’écosystème de protocoles est “la connexion”. À l’ère agentique, le nombre et la qualité des connexions déterminent tout.

Toutes les startups Harness font des roulades en arrière. Si Lin Junyang fait vraiment de l’infrastructure d’environnement d’entraînement, la direction qu’il a définie lui-même dans l’article comme “une véritable catégorie de startup”, alors son produit devra très probablement aussi intégrer l’écosystème Claude ; ou bien établir un écosystème parallèle en Chine. Parce qu’Anthropic a défini les protocoles, construit le SDK, a déployé un fonds d’écosystème, et a conquis la mentalité des développeurs.

Peut-être seulement les entrepreneurs chinois d’agents ont-ils la possibilité de s’extraire de la main d’Anthropic. C’est un fait d’inéluctabilité.

Pitch Deck de Lin Junyang

Le 26 mars 2026, l’ancien directeur technique de Qwen, Lin Junyang (Junyang Lin), a publié un long article sur X, intitulé “From ‘Reasoning’ Thinking to ‘Agentic’ Thinking”. En deux jours : 700 000 lectures, 2 800 likes, 677 reposts.

Trois semaines plus tôt, le 4 mars, il venait de quitter Alibaba. Trois semaines après, il a écrit un article systématique de jugement de l’industrie.

L’argument central de l’article est le suivant : l’IA passe de “penser plus longtemps” à “penser pour agir”.

Reasoning Thinking (raisonnement) est, dans l’essence, un monologue statique : le modèle produit des chaînes de raisonnement de plus en plus longues dans un espace fermé, en essayant de compenser le manque d’interaction avec l’environnement par davantage de texte. L’Agentic Thinking, lui, avance continuellement la tâche au fil des interactions avec l’environnement. L’objet d’entraînement a connu trois “sauts” successifs : de l’entraînement des modèles, à l’entraînement des agents, puis à l’entraînement des systèmes.

Ce n’est pas de la théorie. Il l’appuie avec ses propres leçons de terrain sur Qwen : fusionner les modes thinking (raisonnement) et instruct (instructions) s’avère beaucoup plus difficile que ce qu’on imagine. Les distributions de données et les objectifs d’optimisation de deux comportements tirent fondamentalement dans des directions opposées—instruct cherche la concision, la rapidité et la conformité de format, tandis que thinking cherche à investir davantage de tokens pour explorer des chemins de substitution. Après que Qwen3 ait tenté de les fusionner, il a ensuite redivisé en lignes indépendantes.

Cette leçon pointe une compréhension plus profonde : Instruct est le substitut du Harness de l’avant-ère des agents.

Instruct intègre des normes de comportement dans les poids du modèle via SFT et RLHF—c’est comme coudre le harnais dans les muscles du cheval. Dans une époque de questions-réponses, cela suffit. Mais à l’ère des agents, le modèle doit fonctionner de manière autonome, appeler des outils, et prendre des décisions en continu. L’espace des comportements explose, et il est impossible d’entraîner toutes les contraintes dans les poids. Le centre de gravité du contrôle doit se déplacer de l’intérieur du modèle vers l’extérieur.

Les limites de capacité de Instruct se font pulvériser par le paradigme agent : Harness est une évolution inévitable.

Dans l’article, Lin Junyang mentionne “harness” quatre fois, avec une relation d’enchaînement très claire :

de “l’environnement externe dans lequel l’agent s’exécute”, à “une pratique d’ingénierie indépendante—harness engineering”, puis à “une partie de l’objet d’entraînement—agent and the harness around it”.

Son article prouve, côté entraînement, une chose : Harness n’est pas seulement une infrastructure d’exécution pour l’agent, c’est aussi une infrastructure pour l’entraînement de l’agent.

Dans la boucle fermée du Agentic RL, l’Agent s’exécute dans Harness ; l’environnement produit des signaux de feedback ; le feedback pilote la mise à jour RL de la stratégie ; et la stratégie change le comportement de l’Agent. Retirer Harness ne pose pas seulement un problème de lenteur : cela empêche le fondement même du training de fonctionner.

Et il propose explicitement : la plus grande contrainte du Agentic RL n’est ni l’algorithme, ni l’architecture du modèle, mais la qualité de l’environnement et l’infrastructure de rollout. Les goulots d’étranglement qui freinent l’évolution de l’agent se trouvent dans la couche d’infra.

Merci à Junyang : j’ai complété à ta place l’une des deux moitiés manquantes de l’argument “Harness is the New Infra”.

L’idée selon laquelle Harness est une infrastructure indispensable à l’exécution des agents (infra) était une affirmation plus haut. Et l’article de Junyang nous dit ceci : Harness est aussi l’infra de l’entraînement des agents. Dans la boucle fermée du Agentic RL, l’environnement produit des signaux de feedback, le feedback pilote la mise à jour des stratégies, la stratégie change le comportement de l’Agent, et le comportement de l’Agent déclenche à nouveau de nouveaux retours de l’environnement.

Ce système, indispensable à la fois dans les deux extrémités—l’entraînement et l’inférence—est la véritable infra au sens plein, à savoir Harness.

Dans l’article, Lin Junyang dit une phrase qui mérite d’être relevée : “La construction de l’environnement passe d’un projet secondaire à une véritable catégorie de startup.”

“Construire l’environnement” n’est pas équivalent à Harness, mais en est un sous-ensemble important. “L’environnement” correspond principalement à l’intégration des outils et aux retours d’évaluation dans l’architecture de Harness—plus précisément, le monde avec lequel l’agent interagit pendant l’entraînement : bacs à sable d’exécution de code, simulateurs de navigateur, ensembles de cas de test, couche de simulation d’API. Sa fonction centrale est de produire des signaux de feedback pour que l’Agentic RL ait quelque chose à optimiser. C’est un peu comme le conteneur, les benchmark et Hugging Face utilisés pour l’entraînement et la mise en place des agents.

L’environnement est l’aire de jeu quand on entraîne un agent, Harness est l’ensemble complet d’équipements quand l’agent se met à courir. L’aire de jeu fait partie de l’équipement, mais ce n’est pas tout.

Cependant, le fait qu’un ancien directeur technique d’un modèle open source commence à définir séparément une catégorie de startup pour un sous-module de Harness est, à lui seul, un signal : cela indique que cette pile est déjà suffisamment complexe et suffisamment précieuse, au point de commencer à faire naître des entités commerciales indépendantes couche par couche, comme une vraie pile d’infra.

Et dans un long article au parfum très académique, il définit une piste de course de startup. Si tu penses encore que ce n’est pas un pitch deck de startup de Lin Junyang, alors ne fais pas de VC.

Une piste de startup à mille milliards de dollars

Si Lin Junyang faisait vraiment des infrastructures pour l’environnement d’entraînement des agents—la direction qu’il a lui-même définie comme “une véritable catégorie de startup”—quelle couche de cette “tarte” Harness affronterait-il ? Et cette couche, quelle taille a-t-elle ?

À l’intérieur de Harness, il y a une architecture multi-couches complète, décomposable en sept modules clés : ingénierie du contexte, système de mémoire, accès aux outils, encapsulation des compétences, garde-fous et permissions, évaluation et feedback, orchestration et gestion d’état.

En dehors de la couche d’accès aux outils (MCP), chaque couche voit déjà des startups courir.

La couche contexte et mémoire a Cognee (financement €7,5 millions) et Interloom ($16,5 millions de tour seed, Sequoia investisseur).

La couche d’accès aux outils a été standardisée par le protocole MCP—9700 000 000 téléchargements de SDK mensuels ; Anthropic, OpenAI, Google, Microsoft et Amazon sont tous connectés, avec peu de place pour des startups.

La couche d’accès à la sécurité a vu émerger Runlayer ($11 millions, mené par Khosla), et des solutions de garde-fous et de conformité comme Guardrails AI, Vigilant AI, Runtime, Alter. L’évaluation et l’observabilité sont les plus chaudes : Arize AI a levé $70 millions en série C ; ses clients incluent Uber et PepsiCo ; Langfuse est devenu une norme de communauté open source.

La couche d’orchestration montre une structure de “trois gros” : LangGraph, CrewAI (financement de $18 millions, 60% des Fortune 500 l’utilisent) et le framework d’agents de Microsoft ; parmi ces deux-là, ce sont des startups. Et la couche d’encapsulation des Skills présente surtout des startups sous forme de produits d’agents sur des secteurs verticaux ; le modèle de référence est Harvey—IA pour le droit, avec une valorisation de $11 milliards, $1 milliard de financement cumulée, ARR $190 millions ; ainsi que Abridge, IA pour la santé, avec une valorisation de $5,3 milliards.

La couche d’environnement d’entraînement en est au tout début : environ 20 startups en phase seed ; Wing VC estime qu’elles se consolideront en 3-5 entreprises d’ici 2030.

Mais toutes les couches ne sont pas de bonnes pistes.

Le critère central pour juger si c’est une bonne piste est : ce module résout-il un problème de “capacité du modèle” ou un problème de “conception système” ?

Le premier type sera avalé par les modèles de base : la fenêtre de contexte s’étend de 128K à 1M puis plus grand ; les stratégies de compression soignées d’aujourd’hui peuvent ne plus servir demain.

Quant aux modules de la couche de conception système, ils ont une valeur durable—par exemple l’accès aux outils, c’est un problème d’écosystème ; les garde-fous de sécurité, un problème de conformité ; l’évaluation, un problème d’indépendance : ces enjeux ne peuvent pas être dissous par le seul fait que le modèle devienne plus fort.

Leur chemin de sortie est également très différent. L’accès aux outils et l’encapsulation des compétences sont trop proches du modèle : les entreprises de modèles ont une motivation très forte pour les absorber—Anthropic fait MCP et Skills, OpenAI fait Plugins et GPTs, et c’est pour engloutir ces deux couches.

Dans ces deux directions, le plafond est une acquisition. Les garde-fous de conformité et l’évaluation/observabilité sont l’inverse : elles ont naturellement besoin d’indépendance tierce. Une banque ne fait pas confiance aux outils d’audit de conformité de l’entreprise Anthropic elle-même, tout comme tu ne laisserais pas le côté audité publier son propre rapport d’audit. L’indépendance n’est pas une stratégie commerciale : c’est la valeur produit elle-même. Le premier est un bon actif à acquérir ; le second est un bon actif pour un IPO.

Ils appartiennent tous à Harness, l’infra des agents. Alors l’ensemble du “total” du marché de la piste Harness, quelle taille a-t-il ?

Du bas vers le haut, en additionnant les espaces de valorisation des sept sous-pistes : d’ici 2030, la somme des valorisations des startups indépendantes serait environ de $5000-8000 milliards. Parmi elles, l’encapsulation des skills et les connaissances verticales sont les plus grandes ( $2500-3500 milliards ), les garde-fous et la conformité ont le plus fort taux de croissance (CAGR 65,8%, de $7 milliards en 2024 à $109,9 milliards en prévision 2034, plus l’agent est autonome, plus le prix du harnais augmente), et la couche d’environnement d’entraînement, bien que la plus précoce, est aussi celle qui offre la plus grande certitude.

Le marché global des agents IA prévoit d’ici 2030 des revenus de $50-100 milliards ; Harness, en tant que couche d’infra, représenterait 40-50%. En appliquant des multiples PS de 10-15x pour SaaS/Infra, l’espace de valorisation est cohérent.

Une piste de startup de près de mille milliards de dollars.

Si on inclut aussi les revenus de Harness intégrés à l’intérieur des sociétés de modèles, l’espace de valorisation global de la couche d’infrastructures Harness est de $2,5-3,8 billions. C’est à peu près équivalent au total de la capitalisation boursière actuelle de toute la couche d’infra du cloud computing.

Alors revenons à Lin Junyang : s’il entrait vraiment dans le sous-segment Harness que sont l’environnement d’entraînement et les infrastructures RL, il ferait face à un marché actuellement d’environ seulement 20 sociétés en seed, mais qui atteindrait $200-500 millions d’espace de valorisation d’ici 2030. Wing VC prédit que cette piste se consolidera finalement en 3-5 entreprises leaders.

En tant qu’ex-responsable technique de Qwen, s’il levait à la seed en Silicon Valley, la valorisation pourrait se situer entre $2-5亿. Le marché ne valorise pas la valeur de l’entreprise : il valorise le prix de la personne. Lin Junyang n’a déjà plus besoin d’écrire un BP (business plan)—ce tweet suffit. Et si c’est en Chine avec un fonds en dollars, une valorisation de départ à $50 millions n’est pas impensable, et $100 millions non plus. En RMB ? On verra.

La main d’Anthropic

Désormais, il faut répondre à une question vraiment importante : pour ce qui est de cette couche d’infrastructure de billion de dollars, qui définit les règles ?

Regardons quelques faits impitoyables :

MCP est le protocole standard lancé par Anthropic. Claude Code est le produit harness fabriqué par Anthropic, avec un revenu annualisé de $2,5 milliards. Agent SDK est l’entrée développeur construite par Anthropic. Le système Skills est conçu par Anthropic. Même le fait que le mot “harness” soit devenu populaire dans le contexte des agents IA, le principal moteur en est Anthropic.

La raison plus profonde vient du modèle économique.

Le récit central d’OpenAI est “le modèle le plus puissant” ; les revenus proviennent principalement des abonnements à ChatGPT. Anthropic ne fait plus de multimodalité et de modèles du monde, mais il est de plus en plus considéré comme le modèle le plus puissant. Le point fort de Claude n’est pas “premier au classement des scores”, mais “le modèle le plus adapté aux workflows d’agents”—plus fiable, plus contrôlable, et plus adapté à une exécution autonome sur une longue durée.

Cette position implique que la compétitivité d’Anthropic ne provient pas seulement du modèle, mais aussi—et surtout—de la qualité du Harness autour du modèle. Plus chaque couche de Harness s’améliore, plus sa douve/avantage défensif s’élargit. La prospérité de l’écosystème Harness équivaut directement aux intérêts commerciaux d’Anthropic.

Cela explique pourquoi OpenAI a commencé dès 2023 à essayer de construire un écosystème—Plugins, GPTs, GPT Store—mais sans réussir, tandis qu’Anthropic n’a sorti MCP qu’à la fin 2024, avec un retard d’un an et demi, tout en devenant la norme de fait.

La raison fondamentale derrière tout cela est la suivante : OpenAI construit un écosystème d’applications, Anthropic construit un écosystème d’infrastructures.

Le GPT Store d’OpenAI suit la logique de l’App Store : j’ai la plus grande base d’utilisateurs, donc tu viens ouvrir ton magasin chez moi. Mais quand le modèle lui-même sait tout faire, les applications n’ont plus de raison d’exister. Les GPTs n’ont pas de barrières de différenciation, parce que les capacités de base et ChatGPT lui-même sont la même chose.

Et le MCP d’Anthropic n’est pas une boutique d’applications : c’est une boutique de protocoles. Il n’invite pas les développeurs à ouvrir une boutique sur Claude ; il définit un ensemble de standards de connexion, permettant à tous les outils et à tous les modèles d’être utilisés. C’est la logique de HTTP, pas celle de l’App Store.

Et plus le protocole est ouvert, plus le contrôle sur l’écosystème est fort. Aujourd’hui, tout le monde utilise MCP ; et MCP est conçu par Anthropic. Il n’a pas besoin de verrouiller les utilisateurs : il verrouille la mentalité des développeurs et leur chaîne d’outils.

Côté capital : Anthropic et les investisseurs early-stage Menlo Ventures ont créé l’Anthology Fund, doté de $100 millions ; en un an, le fonds a investi dans plus de 30 startups orientées harness. La structure est très intelligente : Menlo met l’argent, Anthropic ne participe pas aux intérêts économiques du fonds, mais donne à chaque société investie $25 000 de crédits de modèle, tout en ouvrant la participation de Mike Krieger, Chief Product Officer, et de Daniela Amodei, présidente, aux démos.

Anthropic ne dépense pas un centime, verrouille plus de 30 startups dans l’écosystème Claude, tout en récupérant les signaux de demande les plus avancés. C’est une option sans coût.

Mais avons-nous réfléchi à ceci : pourquoi, à l’ère de l’IA agentique, l’écosystème de protocoles d’Anthropic est-il plus important que l’écosystème d’applications d’OpenAI ?

Parce qu’un agent n’est pas une “application” au sens traditionnel. Les interfaces d’interaction des applis classiques sont fixes et limitées : l’utilisateur appelle une voiture, l’app suit un processus prédéfini, appelle une API, fait matcher un chauffeur, calcule un itinéraire. Les agents, eux, sont différents : ils décident eux-mêmes quels outils appeler, dans quel ordre, et à quel moment. L’interface d’interaction est infinie et dynamique. Et les agents entre eux doivent aussi coopérer : l’orchestrateur planifie des agents spécialisés ; les agents spécialisés planifient des sous-agents. C’est un problème de coordination de système distribué.

Quand l’interface d’interaction est fixe, vous pouvez brancher un par un ; quand elle est infinie, vous ne pouvez qu’en définir un standard.

TCP/IP permet à deux ordinateurs quelconques de communiquer, HTTP permet à n’importe quel client d’accéder à n’importe quel serveur, et MCP permet à n’importe quel agent d’appeler n’importe quel outil. L’unité de base de l’écosystème des applications est “le produit” ; l’unité de base de l’écosystème des protocoles est “la connexion”. À l’ère agentique, la quantité et la qualité des connexions déterminent tout.

Toutes les startups Harness font des roulades. Si Lin Junyang fait vraiment de l’infrastructure d’environnement d’entraînement, direction qu’il définit lui-même comme “une véritable catégorie de startup”, alors son produit devra très probablement aussi s’intégrer à l’écosystème Claude ; ou bien établir un écosystème parallèle en Chine. Parce qu’Anthropic a défini les protocoles, construit le SDK, déployé le fonds d’écosystème, et conquis l’esprit des développeurs.

Peut-être que seuls les entrepreneurs chinois d’agents peuvent sauter hors de la paume d’Anthropic, et c’est une contrainte inévitable.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler