Mira Jojova Vicki usa IA para criar um “projeto perfeito”? Teste dos developers: é mesmo de qualidade ou é uma exagerada manobra de promoção?

O sistema de memórias de IA MemPalace, desenvolvido com a participação da Milla Jovovich, afirma ter obtido nota máxima nos testes e tornou-se viral, mas acabou por ser desmentido pela comunidade: os testes alegadamente envolviam batota e dados enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros. A equipa já reconheceu as falhas e está a trabalhar na respetiva correção.

A Milla Jovovich criou um “palácio de memórias” de IA, gerando atenção no exterior

Ontem (4/7), houve uma grande novidade no sector da IA: a estrela de Hollywood conhecida por 《Resident Evil》 e 《O Quinto Elemento》, Milla Jovovich, (Milla Jovovich), desenvolveu, em conjunto com o programador Ben Sigman, um sistema aberto de memórias de IA chamado “MemPalace”, com o apoio do Claude Code.

Por um momento, espalhou-se a ideia de “uma estrela de Hollywood a cruzar áreas e a produzir um projeto perfeito”. Até ao momento, o MemPalace já conseguiu mais de 20k estrelas no GitHub, mas, rapidamente, a comunidade de programadores levantou dúvidas: tem mesmo qualidade ou é pura encenação?

Primeiro, vamos explicar qual foi a motivação para o surgimento do MemPalace. A documentação oficial diz que a intenção era resolver a limitação atual dos sistemas de IA: o conteúdo da conversa entre utilizadores e a IA, o processo de decisão e as discussões sobre a arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que vários meses de esforço fiquem cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em zonas de ala que representam pessoas ou projetos, bem como numa estrutura em diferentes níveis, como corredores, salas e gavetas, preservando o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace alcançou 100% num critério de avaliação de memórias de longa duração, o LongMemEval, e que, sem chamar quaisquer APIs externas, atingiu 96,6% de precisão. Além disso, pode ser executado completamente localmente, sem precisar de subscrever serviços em nuvem, e inclui o alegado sistema de dialeto AAAK capaz de atingir 30 vezes de compressão sem perda.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich a construir um palácio de memórias de IA, chamando a atenção do exterior

Colegas e comunidade levantam dúvidas em série, problemas na metodologia de testes e falhas na promoção

No entanto, o resultado com “pontuação máxima” no LongMemEval acabou por atrair rapidamente críticas dos colegas.

A PenfieldLabs, que também produz sistemas de memórias de IA, apontou que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é impossível do ponto de vista matemático, porque as respostas-padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e descobriu que o desempenho de 100% do MemPalace resulta de configurar o número de pesquisas para 50 vezes, mas o conjunto de dados de teste tem apenas um nível máximo de 32 etapas de conversa. Isto significa que o sistema contorna diretamente a fase de pesquisa e entrega todos os dados ao modelo de IA para leitura.

Relativamente aos 100% no LongMemEval, descobriu-se que a equipa de desenvolvimento se tinha focado em 3 problemas específicos em que houve erros na fase de desenvolvimento, escrevendo código de correção dedicado. Isto levanta suspeitas de batota direcionada ao conjunto de testes.

Fonte da imagem: Reddit Colega PenfieldLabs indica que a alegação do MemPalace de obter nota máxima no conjunto de dados LoCoMo é impossível do ponto de vista matemático

Testes reais por utilizadores do GitHub: há elementos de indução no teste de referência

O utilizador do GitHub hugooconnor comentou depois de testar na prática: embora o MemPalace afirme ter uma precisão de pesquisa de até 96,6%, na realidade não se utilizou o modelo de “palácio de memórias” promovido pelo MemPalace. hugooconnor afirma que o teste apenas chama as funcionalidades predefinidas da base de dados subjacente, ChromaDB, sem qualquer envolvimento na lógica de classificação de zonas (ala), salas ou gavetas destacada no projeto.

Depois de testar, hugooconnor descobriu que, quando o sistema ativa efetivamente essa lógica de classificação exclusiva do palácio de memórias, o desempenho de pesquisa piora. Por exemplo, no modo sala, a precisão desce para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão ainda cai para 84,2%, ambas abaixo do desempenho da base de dados predefinida.

hugooconnor também criticou a metodologia de teste: o ambiente de teste do MemPalace ajusta propositadamente o intervalo de pesquisa de cada questão, limitando-o a cerca de 50 etapas de conversa, tornando demasiado fácil encontrar respostas num conjunto de amostra extremamente pequeno.

Se alargar o intervalo para mais de 19.000 etapas de conversa em cenários reais, a precisão da pesquisa tradicional por palavras-chave cai para 30%, mostrando que o método de teste atual do MemPalace está a ocultar o verdadeiro problema de dificuldade na pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testou na prática; o teste de referência do MemPalace tem elementos de indução

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto verificada como compressão com perdas, e se tenha comprometido a corrigir a documentação e o desenho do sistema com base nas críticas rigorosas da comunidade. No entanto, a principal documentação do projeto continua a manter várias afirmações exageradas não corrigidas, incluindo a alegação de 30 vezes de compressão sem perda e uma melhoria de 34% na pesquisa, e os gráficos comparativos com outros concorrentes também não apresentam qualquer fonte.

O código-fonte do MemPalace enfrenta vários bugs

À medida que mais e mais programadores transferem testes, no GitHub surgiram inúmeros relatórios de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não funciona e faz o sistema colapsar, erros na lógica de cálculo do número de palavras nos resumos, dados estatísticos imprecisos ao “escavar” salas, e também que o servidor carrega todos os dados interpretados na memória sempre que é chamado, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem também o facto de o sistema gravar à força os nomes dos membros da família do programador no ficheiro de configuração predefinido, e existir um limite máximo obrigatório de apresentação de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a reparar ativamente. O utilizador adv3nt3 enviou várias solicitações de** correção****, incluindo correções aos dados estatísticos de escavação, remoção dos nomes predefinidos de membros da família e adiamento do tempo de inicialização da construção do grafo de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros, estando a resolver gradualmente os problemas de código com a colaboração da comunidade.

A Milla Jovovich a “Vibe Coding” é fixe; a abordagem de marketing não é

Quanto a este projeto, num comentário no Hacker News, o utilizador darkhanakh chegou a uma conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipular artificialmente os resultados do teste de referência (benchmark) para parecer impecável e, em seguida, embalá-lo como uma espécie de grande avanço para fazer marketing.

Ele acredita que a tecnologia de base do MemPalace pode, de facto, ser interessante, mas, dadas essas falhas na metodologia de testes, e ainda por cima promovê-lo com “a pontuação pública mais alta de sempre” como propaganda, não parece muito apropriado. “Mas, quanto ao facto de a Milla Jovovich estar a brincar com Vibe Coding, eu acho que ainda é bastante fixe.”

Leitura adicional:
A IA escreve código e dá cabo disto! A app “cão/caçador de desperdício” de validade curta em supermercados gera problemas de cibersegurança; GPS em casa, sem proteção total

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário