Google lançou o TurboQuant, comprimindo a utilização de memória do modelo em 6 vezes e acelerando a inferência em 8 vezes, provocando a queda das ações de memória e discussões sobre a mudança na estrutura da demanda.
Google lançou o algoritmo TurboQuant, que comprime a utilização de memória de grandes modelos de linguagem em pelo menos 6 vezes, ao mesmo tempo que aumenta a velocidade de computação da inferência em até 8 vezes, sem sacrificar a precisão do modelo. O mercado rapidamente interpretou esta tecnologia como uma “destruição do lado da demanda”, com uma lógica bastante direta: se a necessidade de memória de um modelo de IA durante a fase de inferência é comprimida em várias vezes, isso significa que a curva de crescimento da demanda futura dos centros de dados por DRAM, HBM e até mesmo armazenamento NAND pode sofrer uma revisão estrutural.
Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK), que caiu 3,5%, Micron Technology (MU), que caiu 3,4%, e Western Digital (WDC), que caiu 1,63%; na cadeia de suprimentos asiática, a Samsung Electronics caiu 4,71%, e a SK Hynix teve uma queda ainda maior de 6,23%. Há também opiniões que acreditam que o TurboQuant pode mudar mais a “eficiência do uso de recursos” do que meramente enfraquecer a demanda.
De acordo com a explicação da equipe de pesquisa do Google, o TurboQuant é um algoritmo de quantização projetado para grandes modelos de linguagem e sistemas de busca vetorial, cujo núcleo reside na compressão significativa do “cache de chave-valor” e das estruturas de dados vetoriais de alta dimensão que consomem muitos recursos. Nos testes, essa tecnologia pode comprimir a utilização de memória em pelo menos 6 vezes, ao mesmo tempo que, sem sacrificar a precisão do modelo, aumenta a velocidade de computação da inferência em até 8 vezes.
Este avanço atinge diretamente o atual gargalo crítico da infraestrutura de IA. A expansão da IA generativa em termos de poder computacional depende fortemente de memórias de alta largura de banda como HBM, para suportar pesos de modelos e grandes caches KV, evitando que o processo de inferência congele devido à falta de memória. No entanto, o TurboQuant, através da combinação de métodos como PolarQuant e Johnson-Lindenstrauss quantizado (QJL), consegue realizar a compressão com quase “zero custo adicional de memória”, o que equivale a realizar os mesmos cálculos ou até mesmo mais eficientes com menos recursos de hardware.
O mercado rapidamente interpretou esta tecnologia como uma “destruição do lado da demanda”. Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK), que caiu 3,5%, Micron Technology (MU), que caiu 3,4%, e Western Digital (WDC), que caiu 1,63%; na cadeia de suprimentos asiática, a Samsung Electronics caiu 4,71%, e a SK Hynix teve uma queda ainda maior de 6,23%.
A lógica por trás disso é bastante direta: se a necessidade de memória de um modelo de IA durante a fase de inferência é comprimida em várias vezes, isso significa que a curva de crescimento da demanda futura dos centros de dados por DRAM, HBM e até mesmo armazenamento NAND pode sofrer uma revisão estrutural. Especialmente no contexto em que a indústria de IA está gradualmente mudando de “orientada para treinamento” para “orientada para inferência”, o impacto marginal das tecnologias de otimização de eficiência será amplificado.
No entanto, há também opiniões que acreditam que o TurboQuant pode mudar mais a “eficiência do uso de recursos” do que meramente enfraquecer a demanda. À medida que os custos diminuem e a latência diminui, os cenários de aplicação de IA podem, na verdade, se expandir ainda mais, levando a uma contínua crescente demanda total de poder computacional, formando uma estrutura de “queda na demanda unitária, aumento na demanda total”. As capacidades de grandes fabricantes de memória já estão esgotadas este ano, talvez o mercado deva se perguntar: qual é o limite do crescimento da IA?