Após a ascensão dos agentes inteligentes, toda a distribuição da cadeia de valor de IA mudou.

A narrativa principal do investimento em IA está passando por uma mudança estrutural. A pesquisa mais recente do Morgan Stanley aponta que, à medida que a IA evolui de “geração de conteúdo” para “execução automática de tarefas”, a lógica incremental da próxima rodada de infraestrutura de IA se expandirá de uma “corrida de poder de processamento em chip único” para um “engenharia de sistema de pilha completa” — a GPU ainda será o núcleo, mas não mais a única a receber orçamento e prêmio.

De acordo com a Trading台, o analista do departamento de pesquisa do Morgan Stanley, Shawn Kim, escreveu diretamente no relatório: “A IA de agentes inteligentes marca uma mudança estrutural do cálculo para a orquestração.” Nos fluxos de trabalho de agentes inteligentes, o tempo de orquestração na CPU pode representar de 50% a 90% do atraso total, levando a uma estimativa de mercado adicional de 32,5 a 60 bilhões de dólares em CPU até 2030, e elevando o TAM total de servidores CPU para cerca de 82,5 a 110 bilhões de dólares.

Ao mesmo tempo, DRAM, placas ABF, fabricação de wafers, armazenamento, conectores e componentes passivos, todos passarão de “coadjuvantes” para novos gargalos e fontes de lucro. Isso criará uma demanda adicional de 15 a 45 exabytes de DRAM até 2030, equivalente a 26% a 77% da oferta anual de toda a indústria em 2027.

Essa avaliação significa que: os beneficiários dos gastos de capital em IA se expandirão de alguns gigantes de chips para toda a cadeia de suprimentos global, e os próximos ganhos excessivos podem vir mais daqueles que primeiro se tornam gargalos na orquestração de agentes inteligentes e que são mais difíceis de expandir rapidamente. À medida que os gargalos migram entre diferentes etapas, a distribuição de peso na cadeia de valor da IA também mudará.

De “gerar” para “agir”: agentes inteligentes deslocam gargalos do poder de processamento para a orquestração

A estrutura típica do fluxo de trabalho de IA generativa é relativamente simples: após a chegada do pedido do usuário, a CPU realiza uma pré-processamento leve, a GPU é responsável pela geração de tokens, e então o resultado é retornado. Em toda a cadeia, a GPU é a protagonista absoluta, enquanto a CPU desempenha uma função auxiliar.

A lógica operacional dos agentes inteligentes é completamente diferente. Para completar uma tarefa, o sistema precisa passar por etapas de planejamento, recuperação, chamada de ferramentas externas e APIs, execução, reflexão e iteração, além de envolver colaboração entre múltiplos agentes, gerenciamento de permissões, persistência de estado e agendamento, entre muitas outras capacidades de “controle”. A conclusão central do Morgan é: o que os agentes trazem não é uma inferência mais “pesada”, mas mais etapas, mais estados, mais coordenação, e esses trabalhos são naturalmente mais adequados para processamento na CPU.

Isso leva a duas consequências diretas: primeiro, a proporção de CPU para GPU em clusters aumentará sistematicamente; segundo, o DRAM passará de uma “opção de capacidade” para um “componente central de desempenho e throughput”. Os gargalos nos data centers se concentrarão cada vez mais na largura de banda de memória, transferência de dados, latência de interconexão e coordenação de sistema, e não apenas na capacidade de processamento da GPU.

A proporção de CPU está sendo reavaliada: de “1:12” para “1:2” ou até uma reversão

No passado, a descrição típica de arquitetura de servidores de IA era de “uma CPU para cerca de 12 GPUs”. Mas o relatório aponta que, à medida que os fluxos de trabalho de agentes inteligentes se alongam e o uso de ferramentas e gerenciamento de contexto se torna mais complexo, essa proporção está se estreitando rapidamente.

Tomando o roteiro da NVIDIA como exemplo, as estimativas atualizadas mostram que, perto da plataforma Rubin, a proporção de CPU para GPU já está próxima de 1:2; e, se evoluir para formas mais agressivas como Rubin Ultra, pode até ocorrer uma reversão, com 2 CPUs para 1 GPU. Mesmo uma melhora de 1:12 para 1:8, para implantações em grande escala, a demanda absoluta por CPUs também aumentará significativamente.

Se essa direção se confirmar, a elasticidade da demanda por CPUs mudará de “seguir o volume de servidores” para “seguir a complexidade dos agentes”, o que significa que o crescimento na demanda por CPUs será mais estrutural, e não apenas uma continuação do ciclo tradicional de substituição de hardware.

Recontagem do TAM de CPU: 825 bilhões a 1100 bilhões de dólares em 2030, com incremento vindo da orquestração

O Morgan Stanley usa uma abordagem de “camadas de sistema” para separar a oportunidade de CPU na IA do ciclo de atualização de servidores tradicional, estabelecendo três critérios de análise independentes:

  • Head Node CPU
    Corresponde ao controle de rack próximo ao sistema de GPU, assumindo cerca de 5 milhões de aceleradores de IA globalmente em 2030, cada um com 2 CPUs de alta performance, preço médio de US$ 5.000, resultando em um TAM de aproximadamente US$ 50 bilhões.

  • Orchestration CPU
    Abrange as novas demandas de orquestração de agentes, incluindo planejamento e agendamento, cadeia de ferramentas, pipelines RAG, serviços de memória KV e vetores, estratégias e observabilidade. Estima-se um acréscimo de 10 a 15 milhões de CPUs, com ASP de cerca de US$ 3.000, resultando em um TAM de US$ 30 a 45 bilhões.

  • Other CPU
    Inclui nós de armazenamento, alguns nós de rede, etc., estimando-se entre 2,5 bilhões de unidades e US$ 15 bilhões.

Somando tudo, o TAM total de CPU para servidores em 2030 será de aproximadamente US$ 82,5 a US$ 110 bilhões, com um incremento de cerca de US$ 32,5 a US$ 60 bilhões vindo dos agentes inteligentes. A base dessa estimativa é a previsão de vendas de infraestrutura de data centers de IA ao redor do mundo, que deve atingir cerca de US$ 1,2 trilhão em 2030 (contra aproximadamente US$ 242 bilhões em 2025).

O relatório também apresenta um “gatilho de revisão para cima”: se, por exemplo, a infraestrutura de IA atingir US$ 30 a US$ 50 trilhões em vendas até 2030, o intervalo de TAM de CPU será ampliado para US$ 18 a US$ 27,5 bilhões, chegando até US$ 34,4 a US$ 45,8 bilhões. Essa não é uma previsão base, mas revela o efeito amplificador do crescimento da escala da “fábrica de IA” na demanda por CPUs.

Memória passa de coadjuvante a protagonista: demanda adicional de DRAM de 15 a 45EB até 2030

A verdadeira diferenciação da IA de agentes inteligentes não está apenas na capacidade de inferência, mas na “sustentabilidade do contexto e memória”. Contexto contínuo, cache KV, chamadas intermediárias de ferramentas, estados de trabalho de agentes concorrentes — o DRAM na CPU se torna, na prática, uma extensão funcional do HBM.

O modelo de cálculo é direto: a demanda adicional de DRAM é igual ao número adicional de CPUs de orquestração multiplicado pela configuração média de DRAM por CPU. As duas hipóteses são: 10 milhões de CPUs adicionais, com cerca de 1,5TB por CPU; ou um cenário mais otimista de 15 milhões de CPUs, com cerca de 3TB por CPU. Assim, a demanda adicional de DRAM até 2030 será de 15 a 45EB, equivalente a 26% a 77% da oferta anual de DRAM em 2027.

No ciclo de mercado, o relatório também observa uma variável importante: a maioria dos fornecedores de memória está negociando acordos de longo prazo de 3 a 5 anos com grandes clientes, o que pode desacelerar a queda de preços e aumentar a visibilidade de lucros antes de 2027. “A hierarquia de memória está se tornando a principal via de monetização do sistema de IA” — incluindo DRAM de host, chips de interface de memória, expansão CXL e armazenamento em camadas como SSD/HDD, que se tornarão pontos de valor mais sustentáveis.

Segmentos com oferta mais apertada terão maior poder de precificação: placas ABF, foundries e componentes de habilitação

E, de fato, os segmentos com potencial de retorno excessivo são aqueles com “capacidade de produção lenta e ciclos de validação longos”. O relatório destaca as seguintes cadeias:

Placas ABF: O ciclo de alta na demanda por placas ABF impulsionado pela IA pode se estender até o final desta década, com risco de escassez de oferta em 2026-2027. Apenas o aumento do TAM de CPU pode elevar a demanda por ABF em 5% a 10% até 2030; o mercado de placas ABF para servidores deve atingir cerca de US$ 4,7 bilhões em 2030, com um incremento de aproximadamente US$ 1,2 bilhão devido ao aumento do uso de CPU.

Fabricação de wafers (especialmente processos avançados): O mercado de foundries para CPU deve atingir cerca de US$ 33 bilhões em 2026 e US$ 37 bilhões em 2028. A participação da TSMC na fabricação de CPU deve subir de aproximadamente 70% em 2026 para cerca de 75% em 2028; e a Intel pode começar a terceirizar servidores de CPU para a TSMC já no segundo semestre de 2027.

BMC e interface de memória: A Aspeed é destacada como principal beneficiária do BMC de servidores CPU, com cerca de 70% de participação de mercado nesse segmento, e a nova plataforma AST2700 pode elevar o ASP em 40% a 50%; a Montage é colocada na cadeia de valor de “interconexão de memória”, com receita global de aproximadamente 36,8%.

Socket de CPU e componentes passivos: O relatório usa Lotes e FIT como mapeamentos diretos do socket de CPU, estimando que cada aumento de 1 milhão de CPUs aumentará a receita de Lotes em cerca de 0,6% e de FIT em 0,2% (apenas considerando o socket). Quanto aos componentes passivos, uma suposição simplificada é de US$ 30 por servidor geral em MLCC, levando a uma demanda adicional de US$ 500 milhões em MLCC até 2030, representando cerca de 2% a 3% do mercado global de MLCC na época.

A CPU é o incremento mais claro, mas os “componentes de habilitação” são mais preferidos

O relatório reconhece que o crescimento da carga de trabalho de agentes inteligentes beneficiará estruturalmente a participação da AMD na nuvem, mas mantém uma classificação de “Equal-weight” para AMD e Intel, preferindo acompanhar temas de agentes inteligentes por meio de ações como NVIDIA, Broadcom, que têm uma relação mais direta entre gastos de capital, crescimento de tokens e lucros, e também considerando a avaliação como um fator importante.

De uma perspectiva mais macro, o valor central deste relatório está em elevar o paradigma de investimento em IA de uma “corrida armamentista de poder de processamento pontual” para uma “economia de eficiência sistêmica e gargalos”: GPU é o motor, CPU é a transmissão e o sistema de controle, memória e interconexões são o sistema de óleo e chassis — o extremo de um ponto ainda é importante, mas o que determina o retorno em escala é a coordenação do sistema completo.

Para a cadeia de produção, isso significa que as fontes de retorno excessivo do investimento em IA ficarão mais dispersas e mais de longo prazo: não apenas dos “melhores GPUs”, mas também daqueles que primeiro se tornam gargalos na orquestração de agentes inteligentes e que são mais difíceis de expandir rapidamente. Indicadores de validação de alta frequência que podem ser acompanhados continuamente incluem: aumento na quantidade de CPU e memória nas novas plataformas, ritmo de contratos de longo prazo com provedores de nuvem, e a utilização de capacidade de fabricação de placas ABF e processos avançados.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar