AI mémoire besoin réduit de six fois ! La nouvelle technologie de Google choque le marché, les actions connexes plongent simultanément.

CryptoCity

Google lance TurboQuant, compressant l’utilisation de la mémoire des modèles de 6 fois et accélérant l’inférence de 8 fois, suscitant des discussions sur la baisse des actions liées à la mémoire et le changement de la structure de la demande.

Google a lancé l’algorithme TurboQuant, qui compresse l’utilisation de la mémoire des grands modèles de langage d’au moins 6 fois, tout en augmentant la vitesse de calcul de l’inférence jusqu’à 8 fois sans sacrifier la précision du modèle. Le marché interprète rapidement cette technologie comme une “destruction du côté de la demande”, la logique derrière étant assez directe : si la demande de mémoire des modèles d’IA pendant la phase d’inférence est compressée plusieurs fois, cela signifie que la courbe de croissance de la demande future des centres de données pour la DRAM, la HBM et même le stockage NAND pourrait subir une révision structurelle à la baisse.

Après l’annonce, les actions liées à la mémoire et au stockage ont connu une baisse synchronisée, avec SanDisk (SNDK) en baisse de 3,5 %, Micron Technology (MU) en baisse de 3,4 %, et Western Digital (WDC) en baisse de 1,63 % ; dans la chaîne d’approvisionnement asiatique, Samsung Electronics a chuté de 4,71 %, tandis que SK Hynix a enregistré une baisse de 6,23 %. Certains points de vue estiment également que TurboQuant pourrait changer davantage l’“efficacité de l’utilisation des ressources” plutôt que de simplement affaiblir la demande.

Dernier algorithme de Google : utilisation de la mémoire réduite de six fois, vitesse d’inférence augmentée de huit fois

Selon les explications de l’équipe de recherche de Google, TurboQuant est un algorithme de quantification conçu pour les grands modèles de langage et les systèmes de recherche vectorielle, centré sur la compression significative du “cache clé-valeur” et des structures de données de vecteurs à haute dimension, qui consomment le plus de ressources dans les modèles d’IA. Lors des tests, cette technologie a pu réduire l’utilisation de la mémoire d’au moins 6 fois, tout en augmentant la vitesse de calcul de l’inférence jusqu’à 8 fois sans sacrifier la précision du modèle.

Cette avancée touche directement le goulot d’étranglement clé des infrastructures d’IA actuelles. L’expansion de l’IA générative au niveau de la puissance de calcul dépend fortement de mémoires à large bande passante comme la HBM, afin d’héberger les poids du modèle et le cache KV à grande échelle, évitant ainsi que la mémoire ne se bloque pendant le processus d’inférence. Cependant, TurboQuant combine des méthodes telles que PolarQuant et Johnson-Lindenstrauss quantifié (QJL) pour réaliser cette compression avec presque “aucun coût supplémentaire en mémoire”, équivalant à réaliser les mêmes calculs, voire plus efficacement, avec moins de ressources matérielles.

L’algorithme de Google impacte la mémoire ! Les fabricants de mémoire américains et sud-coréens chutent

Le marché interprète rapidement cette technologie comme une “destruction du côté de la demande”. Après l’annonce, les actions liées à la mémoire et au stockage ont connu une baisse synchronisée, avec SanDisk (SNDK) en baisse de 3,5 %, Micron Technology (MU) en baisse de 3,4 %, et Western Digital (WDC) en baisse de 1,63 % ; dans la chaîne d’approvisionnement asiatique, Samsung Electronics a chuté de 4,71 %, tandis que SK Hynix a enregistré une baisse de 6,23 %.

La logique derrière est assez directe : si la demande de mémoire des modèles d’IA pendant la phase d’inférence est compressée plusieurs fois, cela signifie que la courbe de croissance de la demande future des centres de données pour la DRAM, la HBM et même le stockage NAND pourrait subir une révision structurelle à la baisse. En particulier, dans le contexte où l’industrie de l’IA passe progressivement d’une orientation “formation” à une orientation “inférence”, l’impact marginal des technologies d’optimisation de l’efficacité sera amplifié.

Cependant, d’autres points de vue estiment que TurboQuant pourrait changer davantage l’“efficacité de l’utilisation des ressources” plutôt que de simplement affaiblir la demande. Avec la baisse des coûts et la réduction des latences, les scénarios d’application de l’IA pourraient en fait s’élargir, entraînant ainsi une croissance continue de la demande globale de puissance de calcul, formant une structure de “baisse de la demande unitaire, augmentation de la demande totale”. Les grandes usines de mémoire ont déjà vendu toute leur capacité cette année, peut-être que le marché doit se demander : quelle est vraiment la limite de croissance de l’IA ?

  • Cet article est reproduit avec l’autorisation de : 《Chain News》
  • Titre original : 《La nouvelle technologie de Google inquiète le marché, la demande de mémoire pour l’IA réduit de six fois ! SK Hynix et Micron chutent simultanément》
  • Auteur original : Neo
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire