Google a publiquement séparé l'apprentissage et le raisonnement de l'IA avec le TPU 8t·8i… Peut-il bouleverser le marché centré sur Nvidia ?

Question

Google pour accueillir l'ère des « agents intelligents », a modifié sa stratégie en matière de semi-conducteurs pour l'intelligence artificielle. Elle a abandonné l'approche précédente utilisant une seule puce universelle pour traiter à la fois l'apprentissage et le raisonnement, en lançant séparément le « TPU 8t » pour l'apprentissage à grande échelle et le « TPU 8i » pour le raisonnement à haute concurrence.Le 23 (heure locale), lors du « Google Cloud Next 2026 » à Las Vegas, aux États-Unis, Google a dévoilé deux semi-conducteurs IA personnalisés. La société a indiqué que le marché de l'IA se divise rapidement en deux phases : « la phase de construction de modèles » et « la phase de déploiement en service réel », expliquant que ces nouveaux TPU ont été conçus pour s’adapter à cette évolution des besoins.Si le « Ironwood TPU » précédent était une plateforme phare unique orientée vers le raisonnement, cette nouvelle génération se caractérise par une structure bimodale. Cela a été interprété comme une décision de Google, qui estime qu’avec la généralisation des agents IA, les infrastructures nécessaires pour entraîner des modèles plus grands, ainsi que celles pour exécuter rapidement ces modèles dans le cloud, connaissent une croissance simultanée.TPU 8t : Renforcer la performance et l’efficacité des coûts pour l’entraînement IA à grande échelleLe TPU 8t est une puce dédiée à l’entraînement massif et aux charges de travail centrées sur l’intégration. Google indique que ce produit utilise une topologie de réseau « en anneau 3D », améliorant la scalabilité des grands clusters. Un seul Pod peut connecter jusqu’à 9600 puces, contre 9216 pour Ironwood.Son point fort réside dans la prise en charge de « SparseCore » et des opérations en virgule flottante 4 bits. SparseCore est un accélérateur dédié pour gérer les accès mémoire irréguliers fréquents lors de la recherche dans de grands modèles linguistiques. Google affirme qu’en combinant des calculs à faible bit, la charge sur la bande passante mémoire est réduite, permettant de maintenir la précision même avec une mémoire plus petite, tout en doublant le débit.Cela s’inscrit dans la tendance technologique appelée « quantification ». Réduire le nombre de bits par paramètre permet d’exécuter des modèles plus grands sur des systèmes avec des spécifications relativement faibles, tout en diminuant la consommation d’énergie et l’espace occupé. Google indique qu’en environnement d’entraînement à grande échelle, le TPU 8t offre jusqu’à 2,7 fois plus de performance par dollar par rapport à Ironwood.TPU 8i : Se concentrer sur la vitesse de raisonnement et la gestion concurrenteLe TPU 8i est conçu spécifiquement pour la phase de raisonnement, où le modèle entraîné est déployé en service réel. Il excelle dans le traitement post-entraînement de grands modèles ainsi que dans la gestion de nombreuses requêtes simultanées des utilisateurs.Selon Google, le TPU 8i dispose de trois fois plus de mémoire SRAM statique que Ironwood. Cela lui permet d’accueillir un cache clé-valeur plus grand nécessaire pour le raisonnement avec de grands modèles linguistiques, améliorant ainsi la vitesse de génération de texte. De plus, Google a intégré un système de raisonnement appelé « Collectives Acceleration Engine », qui accélère les opérations de synchronisation et de réduction nécessaires lors du décodage autoregressif et du raisonnement en « chaîne de pensée ».La structure de connexion entre les puces a également été repensée. Google a introduit une topologie de réseau personnalisée appelée « Boardfly ICI », pouvant interconnecter jusqu’à 1152 puces. Son objectif est de permettre à toutes les puces de communiquer plus efficacement, réduisant la distance et le nombre de sauts pour le transfert de données. Google indique qu’avec des modèles linguistiques et de raisonnement basés sur des modèles experts hybrides, le nombre total de sauts dans la communication « All-to-All » peut être réduit de 50 %.L’efficacité des coûts est également un point clé. Google explique que le design du TPU 8i vise à offrir environ 80 % d’amélioration de la performance par dollar par rapport à Ironwood dans des environnements à faible latence, ce qui est particulièrement avantageux pour servir des modèles experts hybrides de grande taille.La stratégie de Google : peut-elle bouleverser un marché dominé par NVIDIA ?Google ajoute que la performance par watt du TPU 8t et du TPU 8i a doublé par rapport à la génération précédente. L’efficacité énergétique étant un facteur clé pour la rentabilité des grands centres de données IA, cette amélioration revêt une importance cruciale.Ce lancement ne se limite pas à la sortie d’un nouveau semi-conducteur, mais constitue aussi un signal que Google distingue désormais officiellement sa stratégie d’infrastructure IA en séparant « entraînement » et « raisonnement ». Alors que la compétition dans les services IA se déplace de la performance des modèles vers les coûts opérationnels, la vitesse de réponse et la gestion concurrente, Google cherche à renforcer sa position dans le cloud via ces TPU.Le marché pense que la clé du succès ou de l’échec résidera dans la rapidité d’adoption par les clients et dans la compatibilité logicielle face à un écosystème centré sur NVIDIA. Cependant, avec la généralisation des agents IA, la demande pour les semi-conducteurs d’entraînement et de raisonnement croît simultanément. La stratégie bimodale de Google pour les TPU pourrait devenir un tournant majeur dans la compétition pour l’infrastructure IA future.Remarques sur le TPU : Cet article est un résumé basé sur le modèle linguistique de TokenPost.ai. Le contenu principal peut comporter des omissions ou des inexactitudes.

Google a publiquement séparé l'apprentissage et le raisonnement de l'IA avec le TPU 8t·8i… Peut-il bouleverser le marché centré sur Nvidia ?

Sujets populaires

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Épingler