Google a officiellement publié Gemma 4 le 2 avril 2026. Présenté comme l’un des modèles open source les plus puissants à ce jour, Gemma 4 réalise de grandes avancées en appel natif de fonctions, en workflows d’agents et en perception multi-modale, tout en adoptant une licence Apache 2.0 favorable aux entreprises, offrant aux développeurs et aux sociétés du monde entier un degré de liberté et de flexibilité sans précédent.
Gemma 4, c’est quoi ? Les caractéristiques clés en un coup d’œil
Gemma 4 est une série de modèles de langage de grande taille open source développée par Google DeepMind, partageant des technologies avec la série Gemini. Les points forts essentiels incluent :
Capacités de raisonnement avancées : prise en charge de la planification en plusieurs étapes et du raisonnement logique approfondi, avec des performances nettement supérieures à celles des autres modèles open source de la même catégorie dans des tests de référence en mathématiques et en respect des consignes.
Workflow d’agents natif : intégration des appels de fonctions, de la sortie JSON structurée et du support des consignes système, permettant de piloter directement des agents IA autonomes et d’exécuter des tâches en plusieurs étapes.
Déploiement sur site : les versions E2B et E4B sont optimisées pour les téléphones et autres appareils ; elles peuvent fonctionner entièrement hors ligne.
Support multi-modale complet : toutes les versions prennent nativement en charge l’entrée d’images et de vidéos ; E2B et E4B prennent en plus en charge nativement l’entrée audio.
Fenêtre de contexte ultra-longue : pour les modèles de périphérie, prise en charge de 128K tokens ; pour les modèles plus grands, jusqu’à 256K tokens. Cela permet d’inclure l’intégralité d’un dépôt de code ou de longs documents dans une seule invite.
Génération de code de haute qualité : prise en charge de l’écriture de code hors ligne, permettant de transformer son poste de travail en un assistant IA de conception de code orienté local.
Entraînement natif sur 140+ langues : prise en charge de plus de 140 langues dans le monde, aidant les développeurs à créer des applications multilingues pour servir des utilisateurs internationaux.
Quatre modèles, maximisant la prise en charge de tous les cas d’usage
Gemma 4 propose au total quatre versions, optimisées pour différents environnements matériels et scénarios d’application :
Effective 2B (E2B) : conçu pour les appareils mobiles et l’IoT, supporte une fenêtre de contexte de 128K et une entrée audio native, et peut fonctionner entièrement hors ligne sur des appareils de périphérie tels qu’un téléphone Android, Raspberry Pi, etc.
Effective 4B (E4B) : également optimisé pour la périphérie, doté de capacités multi-modales, avec un excellent équilibre entre performance de raisonnement et empreinte mémoire.
26B Mixture of Experts (MoE) : lors du raisonnement, seuls 3,8 milliards de paramètres sont activés, permettant un raisonnement rapide avec une latence très faible. Convient aux déploiements sur poste local en privilégiant le débit.
31B Dense : version phare. En 3e position du classement textuel Arena AI, elle fournit la sortie de la plus haute qualité et peut fonctionner intégralement sur un seul GPU NVIDIA H100 de 80GB.
Les versions quantifiées de 26B MoE et 31B Dense peuvent s’exécuter nativement sur des cartes graphiques grand public, permettant aux capacités puissantes d’inférence IA de se démocratiser réellement auprès des