¡La demanda de memoria de IA se reduce seis veces! La nueva tecnología de Google sorprende al mercado, y las acciones relacionadas caen en sincronía.

CryptoCity

Google lanza TurboQuant, que reduce el uso de memoria del modelo en 6 veces y acelera la inferencia en 8 veces, lo que provoca la caída de las acciones de memoria y un debate sobre el cambio en la estructura de la demanda.

Google ha lanzado el algoritmo TurboQuant, que reduce el uso de memoria de modelos de lenguaje grande al menos 6 veces, al mismo tiempo que aumenta la velocidad de cálculo de inferencia hasta en 8 veces sin sacrificar la precisión del modelo. El mercado rápidamente interpreta esta tecnología como una “destrucción del lado de la demanda”, con una lógica bastante directa: si la demanda de memoria durante la fase de inferencia de un modelo de IA se comprime varias veces, significa que la curva de crecimiento de la demanda de los centros de datos para DRAM, HBM e incluso almacenamiento NAND podría experimentar una revisión estructural a la baja.

Después del anuncio, las acciones relacionadas con la memoria y el almacenamiento cayeron simultáneamente, con SanDisk (SNDK) cayendo un 3.5%, Micron Technology (MU) un 3.4%, y Western Digital (WDC) un 1.63%; en la cadena de suministro asiática, Samsung Electronics cayó un 4.71% y SK Hynix tuvo una caída aún mayor del 6.23%. También hay puntos de vista que sostienen que TurboQuant podría cambiar más la “eficiencia en el uso de recursos” en lugar de simplemente debilitar la demanda.

Último algoritmo de Google: uso de memoria reducido en seis veces, velocidad de inferencia aumentada en ocho veces

Según el equipo de investigación de Google, TurboQuant es un algoritmo de cuantización diseñado para modelos de lenguaje grande y sistemas de búsqueda de vectores, centrado en comprimir drásticamente el “key-value cache” y las estructuras de datos de vectores de alta dimensión que consumen más recursos en los modelos de IA. En pruebas, esta tecnología puede reducir el uso de memoria al menos 6 veces, al mismo tiempo que aumenta la velocidad de cálculo de inferencia hasta en un 8% sin sacrificar la precisión del modelo.

Este avance impacta directamente el cuello de botella crítico en la infraestructura de IA actual. La expansión de la IA generativa en la capa de cálculo depende en gran medida de memorias de alta ancho de banda como HBM para soportar los pesos del modelo y un gran KV cache, evitando que el proceso de inferencia se quede sin memoria. Sin embargo, TurboQuant logra esta compresión con casi “cero costo adicional de memoria” al combinar métodos como PolarQuant y Quantized Johnson-Lindenstrauss (QJL), lo que equivale a realizar cálculos con menos recursos de hardware de manera igual o incluso más eficiente.

¡El algoritmo de Google impacta la memoria! Las fábricas de memoria en EE. UU. y Corea caen en picada

El mercado rápidamente interpreta esta tecnología como una “destrucción del lado de la demanda”. Después del anuncio, las acciones relacionadas con la memoria y el almacenamiento cayeron simultáneamente, con SanDisk (SNDK) cayendo un 3.5%, Micron Technology (MU) un 3.4%, y Western Digital (WDC) un 1.63%; en la cadena de suministro asiática, Samsung Electronics cayó un 4.71% y SK Hynix tuvo una caída aún mayor del 6.23%.

La lógica detrás es bastante directa: si la demanda de memoria de un modelo de IA se comprime varias veces durante la fase de inferencia, significa que la curva de crecimiento de la demanda de los centros de datos para DRAM, HBM e incluso almacenamiento NAND podría experimentar una revisión estructural a la baja. Especialmente en el contexto de que la industria de IA está pasando gradualmente de estar “orientada al entrenamiento” a “orientada a la inferencia”, el impacto marginal de las tecnologías de optimización de la eficiencia se amplificará.

Sin embargo, también hay puntos de vista que sostienen que TurboQuant podría cambiar más la “eficiencia en el uso de recursos” en lugar de simplemente debilitar la demanda. A medida que los costos disminuyan y las latencias se reduzcan, los escenarios de aplicación de IA podrían expandirse aún más, lo que a su vez podría impulsar un crecimiento continuo en la demanda total de capacidad de cálculo, formando una estructura de “disminución de la demanda por unidad, aumento de la demanda total”. Las capacidades de las grandes fábricas de memoria ya se han vendido este año, quizás el mercado debería preguntarse: ¿cuál es realmente el techo de crecimiento de la IA?

  • Este artículo se reproduce con autorización de: 《Chain News》
  • Título original: 《La nueva tecnología de Google asusta al mercado, ¡la demanda de memoria de IA se reduce en seis veces! SK Hynix y Micron caen simultáneamente》
  • Autor original: Neo
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios