Investigador da Meta revela as cinco escolas de World Model: Qual é a IA em que Yann LeCun e Li Fei-Fei apostam?

ChainNewsAbmedia

Na sequência de uma rodada de financiamento de 1,03 mil milhões de dólares na nova startup Advanced Machine Intelligence (AMI), fundada pelo vencedor do Prémio Turing e ex-Cientista Chefe de IA da Meta, Yann LeCun, o termo “Modelo Mundial” voltou a ser uma palavra-chave popular no campo da inteligência artificial. No entanto, embora a comunidade de IA discuta frequentemente sobre modelos mundiais, os conceitos a que se referem variam bastante.

(Análise aprofundada: Defeitos dos LLM? Por que a AMI de Yang LeCun aposta na rota do Modelo Mundial)

Recentemente, o cientista de pesquisa da Meta AI Zhuokai Zhao publicou um longo texto nas redes sociais, indicando que, atualmente, o que se chama de modelo mundial na área de IA pode ser dividido em pelo menos cinco abordagens técnicas diferentes. Ele acredita que esses métodos não competem diretamente, mas resolvem problemas em diferentes níveis.

JEPA: Compreensão física comprimida

Inteligência Espacial: Reconstrução do mundo 3D

Simulação Aprendida: Treinamento de IA em mundos simulados

NVIDIA Cosmos: Fornecimento de infraestrutura

Inferência Ativa: Proposta de nova teoria inteligente

Ele espera que as fronteiras entre eles se tornem em breve indistintas.

Rota 1: JEPA de LeCun, compreensão do mundo no espaço abstrato

Zhao acredita que a primeira categoria de modelo mundial é a Joint Embedding Predictive Architecture (JEPA), cujo principal representante é Yann LeCun.

O núcleo do JEPA é: a IA não deve tentar prever cada pixel, mas sim prever o futuro no espaço de representação abstrata.

No mundo real, muitos detalhes são imprevisíveis, como mudanças na luz, posições específicas das folhas, texturas de superfície. Se o modelo precisar gerar todos os pixels, será forçado a lidar com uma quantidade enorme de detalhes sem sentido.

A abordagem do JEPA é primeiro usar um codificador para transformar imagens ou vídeos em representações abstratas, e depois prever as partes ocultas nesse espaço de representação. Assim, o modelo pode aprender coisas como: “uma bola cairá da mesa”, sem precisar gerar cada quadro.

O V-JEPA da Meta é um dos resultados experimentais mais representativos atualmente. Esse modelo foi treinado com 1 milhão de horas de vídeos de forma auto-supervisionada, e após apenas 62 horas de dados de robô, consegue gerar um modelo de mundo condicional a ações que suporta planejamento zero-shot. O robô gera sequências de ações candidatas, as insere no modelo de mundo e escolhe a sequência cuja previsão mais se aproxima da imagem alvo. Essa abordagem é aplicável a objetos e ambientes nunca antes vistos durante o treinamento.

Essa alta eficiência de dados é uma das razões pelas quais a AMI aposta na arquitetura JEPA. Se suas representações forem boas o suficiente, não será necessário explorar exaustivamente cada tarefa do zero. A AMI Labs é a tentativa de LeCun de levar essa tecnologia do campo de pesquisa para a aplicação prática. Inicialmente, eles focaram na saúde e na robótica. Mas trata-se de um investimento de longo prazo, e o CEO deles já declarou publicamente que produtos comerciais podem levar vários anos para serem lançados.

Rota 2: “Inteligência Espacial” de Fei-Fei Li

Outra rota bem conhecida vem da World Labs, fundada por Fei-Fei Li.

(Quem é a mentora de IA Fei-Fei Li? Nova startup unicórnio World Labs recebe investimentos de Nvidia, AMD)

Ao contrário do “prever o futuro” do JEPA, o núcleo da abordagem de Fei-Fei Li é: “Como é o mundo em três dimensões?” O conceito que ela propõe é chamado de Spatial Intelligence (Inteligência Espacial). Essa teoria defende que uma compreensão verdadeira requer uma estrutura espacial clara: formas geométricas, profundidade, persistência e a capacidade de observar a cena de novos ângulos — não apenas previsão temporal. Isso difere do conceito do JEPA: você não aprende apenas a dinâmica abstrata, mas a estruturação do ambiente em uma representação 3D que pode ser manipulada diretamente.

O produto Marble da World Labs consegue gerar mundos 3D sustentáveis a partir de imagens, textos e vídeos. Diferente dos modelos tradicionais de geração de vídeos, o Marble produz cenários 3D reais. Pode mover a câmera livremente, modificar objetos e exportar modelos 3D. Isso o aproxima mais de um motor de criação 3D do que de um simples gerador de modelos.

Rota 3: “Mundo simulado aprendido” da DeepMind

A terceira categoria de modelos mundiais é a simulação aprendida (Learned Simulation).

Exemplos de pesquisa incluem:

DeepMind Genie 3

Série Dreamer

Runway GWM-1

Esses modelos tentam criar mundos simulados interativos, nos quais a IA possa aprender.

Rota 4: Infraestrutura de IA física da NVIDIA

A quarta abordagem não constrói um modelo de mundo diretamente, mas cria uma plataforma ecológica completa. A empresa representativa é a NVIDIA, cujo plataforma Cosmos oferece infraestrutura completa:

Processamento de dados de vídeo

Tokenizador visual

Treinamento de modelos

Serviços de implantação

O modelo de base de mundo (World foundation models) do Cosmos foi treinado com 20 milhões de horas de vídeos reais, com um total de 9000 trilhões de tokens.

(Estreia do ecossistema Alpamayo da Nvidia: permitindo que veículos autônomos tenham capacidade de raciocínio e expliquem suas decisões)

A estratégia da NVIDIA é clara: não é obrigatório criar modelos de mundo, mas fornecer ferramentas para que todos possam construir seus próprios.

Rota 5: Inferência Ativa (escola de neurociência)

Por último, uma abordagem baseada na teoria neurocientífica. O principal representante é o neurocientista Karl Friston, que propôs o famoso Free Energy Principle (Princípio da Energia Livre). Diferente do reforço tradicional, a Inferência Ativa considera que a IA é como um organismo que tenta entender o mundo continuamente. Ela age para tornar suas previsões do ambiente mais precisas, reduzindo situações em que “as coisas não acontecem como esperado”.

A empresa VERSES AI, com seu sistema AXIOM, usa um modelo orientado a objetos, onde cada objeto é uma entidade independente. O sistema usa inferência bayesiana para atualizar suas crenças, sem depender de treinamento por gradiente de redes neurais profundas. Essa arquitetura é interpretável, combinável e altamente eficiente em dados. Em abril de 2025, a AXIOM lançou seu produto comercial (Genius), que apresentou desempenho competitivo em tarefas de controle padrão, usando uma quantidade de dados muito menor do que os métodos de RL.

O próximo campo de batalha da IA: compreender o mundo

Zhao conclui que essas cinco rotas de modelos mundiais não se excluem mutuamente, mas resolvem problemas diferentes:

JEPA: compreensão física comprimida

Inteligência Espacial: reconstrução do mundo 3D

Simulação Aprendida: treinamento de IA em mundos simulados

NVIDIA Cosmos: fornecimento de infraestrutura

Inferência Ativa: proposição de nova teoria inteligente

À medida que a IA avança para robôs, condução autônoma e IA física, é provável que essas tecnologias se fundam rapidamente no futuro.

Este artigo, “Pesquisadores da Meta revelam as cinco principais escolas de Modelos Mundiais: o que é a IA de Yang LeCun e Fei-Fei Li?”, foi originalmente publicado na ABMedia.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário