AI memória demanda reduzida em seis vezes! Nova tecnologia do Google assusta o mercado, ações relacionadas caem simultaneamente.

CryptoCity

Google lançou o TurboQuant, comprimindo a utilização de memória do modelo em 6 vezes e acelerando a inferência em 8 vezes, provocando a queda das ações de memória e discussões sobre a mudança na estrutura da demanda.

Google lançou o algoritmo TurboQuant, que comprime a utilização de memória de grandes modelos de linguagem em pelo menos 6 vezes, ao mesmo tempo que aumenta a velocidade de computação da inferência em até 8 vezes, sem sacrificar a precisão do modelo. O mercado rapidamente interpretou esta tecnologia como uma “destruição do lado da demanda”, com uma lógica bastante direta: se a necessidade de memória de um modelo de IA durante a fase de inferência é comprimida em várias vezes, isso significa que a curva de crescimento da demanda futura dos centros de dados por DRAM, HBM e até mesmo armazenamento NAND pode sofrer uma revisão estrutural.

Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK), que caiu 3,5%, Micron Technology (MU), que caiu 3,4%, e Western Digital (WDC), que caiu 1,63%; na cadeia de suprimentos asiática, a Samsung Electronics caiu 4,71%, e a SK Hynix teve uma queda ainda maior de 6,23%. Há também opiniões que acreditam que o TurboQuant pode mudar mais a “eficiência do uso de recursos” do que meramente enfraquecer a demanda.

O mais recente algoritmo do Google: utilização de memória reduzida em seis vezes e velocidade de inferência aumentada em oito vezes

De acordo com a explicação da equipe de pesquisa do Google, o TurboQuant é um algoritmo de quantização projetado para grandes modelos de linguagem e sistemas de busca vetorial, cujo núcleo reside na compressão significativa do “cache de chave-valor” e das estruturas de dados vetoriais de alta dimensão que consomem muitos recursos. Nos testes, essa tecnologia pode comprimir a utilização de memória em pelo menos 6 vezes, ao mesmo tempo que, sem sacrificar a precisão do modelo, aumenta a velocidade de computação da inferência em até 8 vezes.

Este avanço atinge diretamente o atual gargalo crítico da infraestrutura de IA. A expansão da IA generativa em termos de poder computacional depende fortemente de memórias de alta largura de banda como HBM, para suportar pesos de modelos e grandes caches KV, evitando que o processo de inferência congele devido à falta de memória. No entanto, o TurboQuant, através da combinação de métodos como PolarQuant e Johnson-Lindenstrauss quantizado (QJL), consegue realizar a compressão com quase “zero custo adicional de memória”, o que equivale a realizar os mesmos cálculos ou até mesmo mais eficientes com menos recursos de hardware.

O algoritmo do Google impacta a memória! Queda generalizada nas fabricantes de memória dos EUA e da Coreia

O mercado rapidamente interpretou esta tecnologia como uma “destruição do lado da demanda”. Após o anúncio, as ações relacionadas a memória e armazenamento caíram em sincronia, incluindo SanDisk (SNDK), que caiu 3,5%, Micron Technology (MU), que caiu 3,4%, e Western Digital (WDC), que caiu 1,63%; na cadeia de suprimentos asiática, a Samsung Electronics caiu 4,71%, e a SK Hynix teve uma queda ainda maior de 6,23%.

A lógica por trás disso é bastante direta: se a necessidade de memória de um modelo de IA durante a fase de inferência é comprimida em várias vezes, isso significa que a curva de crescimento da demanda futura dos centros de dados por DRAM, HBM e até mesmo armazenamento NAND pode sofrer uma revisão estrutural. Especialmente no contexto em que a indústria de IA está gradualmente mudando de “orientada para treinamento” para “orientada para inferência”, o impacto marginal das tecnologias de otimização de eficiência será amplificado.

No entanto, há também opiniões que acreditam que o TurboQuant pode mudar mais a “eficiência do uso de recursos” do que meramente enfraquecer a demanda. À medida que os custos diminuem e a latência diminui, os cenários de aplicação de IA podem, na verdade, se expandir ainda mais, levando a uma contínua crescente demanda total de poder computacional, formando uma estrutura de “queda na demanda unitária, aumento na demanda total”. As capacidades de grandes fabricantes de memória já estão esgotadas este ano, talvez o mercado deva se perguntar: qual é o limite do crescimento da IA?

  • Este artigo é reproduzido com autorização de: 《链新闻》
  • Título original: 《A nova tecnologia do Google assusta o mercado, a demanda por memória de IA cai em seis vezes! SK Hynix e Micron caem em sincronia》
  • Autor original: Neo
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário