Huang Renxun annonce 8 nouveaux produits en 1,5 heure, Nvidia mise à fond sur l'inférence IA et l'IA physique

Auteur | ZeR0 Junda, Zhi Dongxi

Éditeur | Mo Ying

Xin Dongxi Las Vegas 5 janvier, selon le rapport, vient de se tenir le premier discours thématique de 2026 du fondateur et CEO de Nvidia, Huang Renxun, lors du CES 2026. Huang Renxun, comme d’habitude en cuir, a annoncé en 1,5 heure 8 importantes nouveautés, allant des puces, racks à la conception réseau, avec une présentation approfondie de toute la nouvelle plateforme de génération.

Dans le domaine du calcul accéléré et de l’infrastructure AI, Nvidia a lancé le supercalculateur NVIDIA Vera Rubin POD AI, le module Ethernet optique intégré NVIDIA Spectrum-X, la plateforme de stockage mémoire pour inférence, et le NVIDIA DGX SuperPOD basé sur DGX Vera Rubin NVL72.

Le NVIDIA Vera Rubin POD utilise 6 puces développées en interne par Nvidia, couvrant CPU, GPU, Scale-up, Scale-out, stockage et capacité de traitement, tous conçus en collaboration pour répondre aux besoins des modèles avancés tout en réduisant les coûts de calcul.

Parmi eux, le Vera CPU adopte une architecture de cœur Olympus sur mesure, le Rubin GPU introduit le moteur Transformer, avec une performance d’inférence NBFP4 atteignant 50PFLOPS, chaque GPU NVLink ayant une bande passante allant jusqu’à 3,6TB/s, supportant la troisième génération de calcul confidentiel universel (premier TEE de rack), réalisant un environnement d’exécution fiable complet entre CPU et GPU.

Tous ces puces ont déjà été retournées pour validation, Nvidia a validé l’ensemble du système NVIDIA Vera Rubin NVL72, ses partenaires ont commencé à faire fonctionner leurs modèles et algorithmes AI intégrés, tout l’écosystème se prépare pour le déploiement de Vera Rubin.

Parmi les autres annonces, Spectrum-X, le dispositif optique Ethernet intégré, optimise significativement l’efficacité énergétique et le temps de fonctionnement normal ; la plateforme de stockage mémoire pour inférence redéfinit la pile de stockage pour réduire la recomputation et améliorer l’efficacité de l’inférence ; le NVIDIA DGX SuperPOD basé sur DGX Vera Rubin NVL72 réduit le coût en tokens des grands modèles MoE à 1/10.

Concernant les modèles ouverts, Nvidia annonce l’expansion de la famille de modèles open source, avec de nouveaux modèles, datasets et bibliothèques, notamment la série open source NVIDIA Nemotron avec le nouveau modèle Agentic RAG, des modèles de sécurité, des modèles vocaux, et une toute nouvelle gamme de modèles ouverts pour tous types de robots. Cependant, Huang Renxun n’a pas détaillé lors de son discours.

En ce qui concerne l’IA physique, l’ère du ChatGPT physique est arrivée. La technologie full-stack de Nvidia permet à l’écosystème mondial de transformer l’industrie via la robotique pilotée par l’IA ; la vaste bibliothèque d’outils AI de Nvidia, y compris la nouvelle collection open source Alpamayo, permet à l’industrie du transport mondiale d’atteindre rapidement une conduite L4 sûre ; la plateforme de conduite autonome NVIDIA DRIVE est désormais en production, installée sur toutes les nouvelles Mercedes-Benz CLA, pour une conduite AI de niveau L2++.

01. Nouvelle supercalculatrice AI : 6 puces auto-développées, puissance d’un seul rack atteignant 3,6EFLOPS

Huang Renxun pense qu’une refonte totale de l’industrie informatique se produit tous les 10 à 15 ans, mais cette fois, deux révolutions de plateforme se produisent simultanément, du CPU au GPU, du “logiciel de programmation” au “logiciel d’entraînement”, le calcul accéléré et l’IA restructurent toute la pile de calcul. L’industrie du calcul, valant 10 000 milliards de dollars au cours des dix dernières années, subit une modernisation.

Parallèlement, la demande en puissance de calcul explose. La taille des modèles augmente de 10 fois par an, le nombre de tokens utilisés pour la réflexion augmente de 5 fois par an, et le prix par token diminue de 10 fois par an.

Pour répondre à cette demande, Nvidia a décidé de lancer chaque année de nouveaux matériels de calcul. Huang Renxun a révélé que Vera Rubin a déjà commencé la production à grande échelle.

La nouvelle supercalculatrice AI NVIDIA Vera Rubin POD utilise 6 puces auto-développées : Vera CPU, Rubin GPU, Switch NVLink 6, carte réseau intelligente ConnectX-9 (CX9), DPU BlueField-4, Spectrum-X 102,4T CPO.

Vera CPU : conçue pour le transfert de données et le traitement des agents, avec 88 cœurs Olympus personnalisés de Nvidia, 176 threads de multithreading spatial Nvidia, NVLink-C2C à 1,8TB/s supportant la mémoire unifiée CPU:GPU, mémoire système de 1,5TB (3 fois celle de Grace CPU), la mémoire LPDDR5X SOCAMM avec bande passante de 1,2TB/s, supportant le calcul confidentiel de rack, doublant la performance de traitement des données.

Rubin GPU : introduit le moteur Transformer, avec une performance d’inférence NVFP4 atteignant 50PFLOPS, 5 fois celle du GPU Blackwell, compatible en rétrocompatibilité, améliorant la performance BF16/FP4 tout en maintenant la précision d’inférence ; la performance d’entraînement NVFP4 atteint 35PFLOPS, 3,5 fois celle de Blackwell.

Rubin est aussi la première plateforme supportant HBM4, avec une bande passante de 22TB/s, 2,8 fois celle de la génération précédente, capable de fournir la performance nécessaire pour les modèles MoE exigeants et les charges de travail AI.

Switch NVLink 6 : vitesse de la lane unique portée à 400Gbps, utilisant la technologie SerDes pour une transmission à haute vitesse ; chaque GPU peut atteindre une bande passante d’interconnexion totale de 3,6TB/s, soit le double de la génération précédente, avec une bande passante totale de 28,8TB/s, performance en calcul in-network à 14,4TFLOPS en FP8, supporte la refroidissement liquide à 100%.

NVIDIA ConnectX-9 SuperNIC : chaque GPU offre une bande passante de 1,6Tb/s, optimisée pour la grande échelle AI, entièrement définie par logiciel, programmable, avec un chemin de données accéléré.

NVIDIA BlueField-4 : DPU 800Gbps, pour carte réseau intelligente et processeurs de stockage, équipé d’un CPU Grace 64 cœurs, combiné avec ConnectX-9 SuperNIC, pour décharger les tâches de calcul liées au réseau et au stockage, tout en renforçant la sécurité réseau, la performance de calcul étant 6 fois celle de la génération précédente, la bande passante mémoire triplée, la vitesse d’accès aux données de GPU doublée.

NVIDIA Vera Rubin NVL72 : intègre tous ces composants dans un système de traitement rack unique, avec 2 trillions de transistors, performance d’inférence NVFP4 de 3,6EFLOPS, performance d’entraînement NVFP4 de 2,5EFLOPS.

Ce système dispose d’une mémoire LPDDR5X de 54TB, 2,5 fois celle de la génération précédente ; la mémoire HBM4 totale atteint 20,7TB, 1,5 fois ; la bande passante HBM4 est de 1,6PB/s, 2,8 fois ; la bande passante d’extension verticale totale atteint 260TB/s, dépassant la capacité totale de bande passante de l’Internet mondial.

Ce système basé sur la conception du rack de troisième génération MGX, avec un plateau de calcul modulaire, sans hôte, sans câbles, sans ventilateur, permet une vitesse d’assemblage et de maintenance 18 fois plus rapide que le GB200. Ce qui prenait 2 heures pour assembler, ne prend plus qu’environ 5 minutes, et alors que 80% du refroidissement était liquide, il est maintenant 100% liquide. Un seul système pèse déjà 2 tonnes, avec le liquide de refroidissement, il atteint 2,5 tonnes.

Le plateau NVLink Switch permet une maintenance sans arrêt et une tolérance aux fautes, le rack restant opérationnel même si le plateau est retiré ou partiellement déployé. Le moteur RAS de deuxième génération permet une vérification de l’état sans arrêt.

Ces caractéristiques améliorent la disponibilité et le débit du système, réduisent encore les coûts d’entraînement et d’inférence, et répondent aux exigences de haute fiabilité et de facilité de maintenance des centres de données.

Plus de 80 partenaires MGX sont prêts à soutenir le déploiement de Rubin NVL72 dans des réseaux à très grande échelle.

02. Trois grandes nouveautés pour révolutionner l’efficacité de l’inférence AI : nouveaux dispositifs CPO, nouvelle couche de stockage contextuel, nouveau DGX SuperPOD

Par ailleurs, Nvidia a lancé 3 nouveautés importantes : le dispositif optique Ethernet intégré Spectrum-X, la plateforme de stockage mémoire pour inférence, et le NVIDIA DGX SuperPOD basé sur DGX Vera Rubin NVL72.

1. NVIDIA Spectrum-X dispositif optique Ethernet intégré

Le Spectrum-X Ethernet intégré repose sur l’architecture Spectrum-X, utilisant 2 puces, avec SerDes 200Gbps, chaque ASIC pouvant fournir 102,4Tb/s de bande passante.

Cette plateforme de commutation comprend un système haute densité de 512 ports, et un système compact de 128 ports, chaque port à 800Gb/s.

Le système de commutation CPO (optique intégrée) permet une amélioration de 5 fois de l’efficacité énergétique, 10 fois de la fiabilité, et 5 fois du temps de fonctionnement normal des applications.

Cela permet de traiter plus de tokens chaque jour, réduisant ainsi le coût total de possession (TCO) des centres de données.

2. Plateforme de stockage mémoire pour inférence NVIDIA

La plateforme de stockage mémoire pour inférence NVIDIA est une infrastructure de stockage AI native de niveau POD, pour stocker le cache KV, basée sur BlueField-4 et Spectrum-X Ethernet, étroitement couplée à NVIDIA Dynamo et NVLink, permettant une orchestration conjointe du contexte entre mémoire, stockage et réseau.

Elle traite le contexte comme un type de donnée de premier ordre, permettant une performance d’inférence 5 fois supérieure et une efficacité énergétique 5 fois meilleure.

Cela est crucial pour améliorer les applications de dialogue multi-tours, RAG, inférence multi-étapes Agentic, qui dépendent fortement de la capacité à stocker, réutiliser et partager efficacement le contexte dans tout le système.

L’IA évolue du chatbot vers une IA Agentic (agent intelligent), capable de raisonner, d’appeler des outils et de maintenir un état à long terme, avec une fenêtre de contexte étendue à plusieurs millions de tokens. Ces contextes sont stockés dans le KV Cache, mais le recalcul à chaque étape gaspille du temps GPU et introduit de la latence, d’où le besoin de stockage.

Mais la mémoire GPU, bien que rapide, est rare, et le stockage réseau traditionnel est inefficace pour le contexte à court terme. Le goulot d’étranglement de l’inférence AI se déplace du calcul vers le stockage du contexte. Il faut donc une nouvelle couche de mémoire, entre GPU et stockage, optimisée pour l’inférence.

Cette couche n’est pas une simple solution de contournement, mais doit être conçue en collaboration avec le stockage réseau pour déplacer le contexte avec un minimum de surcharge.

En tant que nouvelle hiérarchie de stockage, la plateforme de stockage mémoire pour inférence NVIDIA ne réside pas directement dans le système hôte, mais est connectée via BlueField-4 à l’extérieur du dispositif de calcul. Son avantage clé est une extension plus efficace du pool de stockage, évitant la recomputation du cache KV.

Nvidia collabore étroitement avec ses partenaires de stockage pour intégrer cette plateforme dans le système Rubin, permettant aux clients de la déployer comme partie intégrante d’une infrastructure AI complète.

3. NVIDIA DGX SuperPOD basé sur Vera Rubin

Au niveau système, le NVIDIA DGX SuperPOD, comme plan de déploiement d’usine AI à grande échelle, utilise 8 systèmes DGX Vera Rubin NVL72, avec un réseau vertical NVLink 6, un réseau horizontal Spectrum-X Ethernet, la plateforme de stockage mémoire pour inférence, et une validation d’ingénierie.

L’ensemble est géré par le logiciel NVIDIA Mission Control, pour une efficacité maximale. Les clients peuvent le déployer comme une plateforme clé en main, avec moins de GPU pour entraîner et inférer.

Grâce à une conception optimale à tous les niveaux — 6 puces, plateau, rack, pod, centre de données, logiciel — la plateforme Rubin réduit considérablement les coûts d’entraînement et d’inférence. Par rapport à Blackwell, pour entraîner un même modèle MoE, il faut 1/4 des GPU ; pour la même latence, le coût en tokens d’un grand modèle MoE est réduit à 1/10.

Le NVIDIA DGX SuperPOD utilisant le système DGX Rubin NVL8 a également été lancé.

Avec l’architecture Vera Rubin, Nvidia construit avec ses partenaires et clients le plus grand, le plus avancé et le moins coûteux système AI au monde, accélérant la généralisation de l’IA.

L’infrastructure Rubin sera disponible à partir du second semestre de cette année via CSP et intégrateurs de systèmes, avec Microsoft parmi les premiers déployeurs.

03. Expansion de l’univers des modèles ouverts : nouvelles contributions en modèles, données et écosystème open source

Au niveau logiciel et modèle, Nvidia continue d’accroître ses investissements open source.

Les plateformes de développement comme OpenRouter montrent qu’en un an, l’utilisation de modèles AI a augmenté de 20 fois, avec environ 1/4 des tokens provenant de modèles open source.

En 2025, Nvidia est le principal contributeur sur Hugging Face en modèles, données et recettes open source, avec 650 modèles et 250 datasets open source publiés.

Les modèles open source de Nvidia figurent en tête de plusieurs classements. Les développeurs peuvent non seulement utiliser ces modèles, mais aussi apprendre, continuer à entraîner, étendre les datasets, et construire des systèmes AI avec des outils open source et une documentation complète.

Inspiré par Perplexity, Huang Renxun a observé que les Agents devraient être multi-modèles, multi-cloud et hybrides, ce qui constitue l’architecture fondamentale des systèmes Agentic AI, adoptée par presque toutes les startups.

Grâce aux modèles et outils open source fournis par Nvidia, les développeurs peuvent désormais personnaliser leurs systèmes AI, en utilisant les capacités de pointe des modèles. Nvidia a déjà intégré ces cadres dans une “feuille de route” et dans une plateforme SaaS. Les utilisateurs peuvent déployer rapidement en utilisant cette feuille de route.

Dans une démonstration en direct, ce système peut, selon l’intention de l’utilisateur, décider automatiquement si la tâche doit être traitée par un modèle privé local ou par un modèle avancé cloud, peut faire appel à des outils externes (API email, interfaces de contrôle robotique, services de calendrier, etc.), et réaliser une fusion multimodale pour traiter texte, voix, images, signaux de capteurs robotisés, etc.

Ces capacités complexes étaient inimaginables il y a peu, mais sont aujourd’hui devenues banales. Sur des plateformes d’entreprise comme ServiceNow, Snowflake, on peut déjà utiliser des capacités similaires.

04. Ouverture du modèle Alpha-Mayo : faire “penser” la voiture autonome

Nvidia croit que l’IA physique et la robotique finiront par devenir le plus grand segment de l’électronique grand public mondial. Tout ce qui peut bouger finira par être totalement autonome, piloté par une IA physique.

L’IA a déjà connu les phases de perception, génération, et Agentic AI, et entre dans l’ère de l’IA physique, où l’intelligence entre dans le monde réel, capable de comprendre les lois physiques et d’agir directement à partir des perceptions physiques.

Pour atteindre cet objectif, l’IA physique doit apprendre les connaissances fondamentales du monde — la constance des objets, la gravité, la friction. L’acquisition de ces capacités dépendra de trois ordinateurs : un ordinateur d’entraînement (DGX) pour créer les modèles IA, un ordinateur d’inférence (robot/puce embarquée) pour l’exécution en temps réel, et un ordinateur de simulation (Omniverse) pour générer des données synthétiques et vérifier la logique physique.

Le modèle central est Cosmos, le modèle de base du monde, alignant langage, images, 3D et lois physiques, supportant toute la chaîne de génération de données de simulation à l’entraînement.

L’IA physique apparaîtra dans trois types d’entités : bâtiments (usines, entrepôts), robots, voitures autonomes.

Huang Renxun pense que la conduite autonome sera le premier grand cas d’usage de l’IA physique. Ces systèmes doivent comprendre le monde réel, prendre des décisions et agir, avec des exigences très élevées en sécurité, simulation et données.

Pour cela, Nvidia a lancé Alpha-Mayo, un système complet composé de modèles open source, d’outils de simulation et de datasets pour accélérer le développement d’IA physique sûre et basée sur l’inférence.

Ce portefeuille fournit aux constructeurs automobiles, fournisseurs, startups et chercheurs du monde entier des modules de base pour construire des systèmes de conduite autonome L4.

Alpha-Mayo est le tout premier modèle dans l’industrie permettant à une voiture autonome de “penser”. Ce modèle est open source. Il décompose le problème en étapes, raisonne sur toutes les possibilités, et choisit le chemin le plus sûr.

Ce modèle de raisonnement-action permet à la conduite autonome de gérer des scénarios complexes jusque-là inexplorés, comme un feu de circulation défectueux à une intersection très fréquentée.

Alpha-Mayo possède 100 milliards de paramètres, assez pour traiter les tâches de conduite autonome, tout en étant suffisamment léger pour fonctionner sur des stations de travail conçues pour la recherche en conduite autonome.

Il peut recevoir du texte, des caméras à 360°, l’état historique du véhicule, et des entrées de navigation, et produire des trajectoires et des raisonnements, permettant aux passagers de comprendre pourquoi le véhicule a pris telle ou telle décision.

Dans la vidéo de démonstration, sous l’impulsion d’Alpha-Mayo, la voiture autonome peut éviter les piétons, prédire un véhicule tournant à gauche, et changer de voie sans intervention humaine.

Huang Renxun indique que la Mercedes-Benz CLA équipée d’Alpha-Mayo est déjà en production, et a été récemment classée comme la voiture la plus sûre au monde par NCAP. Chaque ligne de code, puce, système a été certifié pour la sécurité. Le système sera lancé sur le marché américain, avec des capacités de conduite plus avancées prévues plus tard cette année, y compris la conduite autonome sans intervention sur autoroute, et la conduite entièrement automatique en milieu urbain.

Nvidia a également publié certains datasets pour entraîner Alpha-Mayo, ainsi qu’un cadre open source d’évaluation et de simulation pour l’inférence, Alpha-Sim. Les développeurs peuvent affiner Alpha-Mayo avec leurs propres données, ou utiliser Cosmos pour générer des données synthétiques, puis entraîner et tester leurs applications de conduite autonome avec un mélange de données réelles et synthétiques. Nvidia a aussi annoncé que la plateforme NVIDIA DRIVE est désormais en production.

Nvidia indique que des entreprises leaders mondiales comme Boston Dynamics, Franka Robotics, Surgical robots, LG Electronics, NEURA, XRLabs, et Zhiyuan Robotics construisent leurs systèmes basés sur NVIDIA Isaac et GR00T.

Huang Renxun a également annoncé une nouvelle collaboration avec Siemens. Siemens intègre CUDA-X, des modèles AI et Omniverse dans ses outils et plateformes EDA, CAE et jumeaux numériques. L’IA physique sera largement utilisée dans tout le processus, de la conception, la simulation, à la fabrication et l’exploitation.

05. Conclusion : embrasser l’open source d’un côté, rendre le matériel irremplaçable de l’autre

Alors que l’infrastructure AI se concentre de plus en plus sur l’inférence à grande échelle, la compétition des plateformes évolue d’une simple puissance de calcul à une ingénierie systémique couvrant puces, racks, réseaux et logiciels, avec pour objectif de maximiser le débit d’inférence au coût total le plus bas, l’IA entrant dans une nouvelle phase de “production en usine”.

Nvidia attache une grande importance à la conception système, Vera Rubin améliorant à la fois la performance et l’économie en entraînement et inférence, pouvant servir de solution plug-and-play pour Blackwell, permettant une transition fluide.

Concernant le positionnement de la plateforme, Nvidia considère que l’entraînement reste crucial, car seul un entraînement rapide des modèles de pointe permet à la plateforme d’inférence d’en bénéficier réellement. C’est pourquoi le NVFP4 a été intégré dans Rubin GPU pour améliorer encore la performance et réduire le TCO.

Par ailleurs, ce géant du calcul AI continue de renforcer massivement ses capacités de communication réseau, tant en architecture verticale qu’horizontale, en considérant le contexte comme un goulot d’étranglement clé, et en concevant la mémoire, le réseau et le calcul de façon cohérente.

D’un côté, Nvidia ouvre massivement ses sources, de l’autre, elle rend ses matériels, interconnexions et systèmes de plus en plus “irremplaçables”. La boucle de stratégie consistant à élargir la demande, stimuler la consommation de tokens, faire évoluer la taille des inférences, et fournir une infrastructure à haut rapport coût/efficacité, construit une barrière infranchissable pour Nvidia.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)