O sistema de memórias com IA “MemPalace”, desenvolvido por Milla Jovovich e Vicky (Vitki) , alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas foi rapidamente desmascarado pela comunidade, que levantou suspeitas de fraude nos testes e de dados potencialmente enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros; a equipa já admitiu falhas e está a trabalhar na sua correção.
Ontem (4/7), houve uma grande notícia no meio da IA: a actriz de Hollywood, conhecida por “Resident Evil” e “O Quinto Elemento”, Milla Jovovich (Milla Jovovich), juntamente com o programador Ben Sigman, usou o Claude Code para desenvolver o sistema de código aberto de memórias com IA “MemPalace”.
A certa altura, espalhou-se amplamente a ideia de “uma estrela de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já recebeu mais de 20 mil estrelas no GitHub; no entanto, muito rapidamente, a comunidade de programadores começou a questionar: será que é mesmo bom ou é só marketing?
Vamos primeiro ao motivo do nascimento do MemPalace. A documentação oficial afirma que a intenção é resolver uma limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e IA, os processos de decisão e as discussões de arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que meses de esforço acabem por cair para zero.
Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em áreas em forma de asas que representam pessoas ou projetos, bem como em estruturas a diferentes níveis, como corredores, salas e gavetas, mantendo o texto original das conversas para pesquisa semântica posterior.
A equipa de desenvolvimento afirma que o MemPalace obteve 100% no referencial de avaliação de memória de longa duração LongMemEval, e alcançou 96,6% de precisão sem chamar nenhuma API externa; além disso, pode funcionar completamente no local, sem necessidade de subscrever serviços na nuvem, e inclui um alegado sistema de dialeto AAAK capaz de atingir compressão sem perda 30 vezes.
Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior
No entanto, a alegada pontuação perfeita do MemPalace no LongMemEval trouxe rapidamente desconfiança por parte dos concorrentes.
A PenfieldLabs, que também produz sistemas de memória com IA, apontou que a alegação do MemPalace de obter pontuação máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão do próprio conjunto de dados já incluem 99 erros.
Ao analisar, a PenfieldLabs descobriu que o desempenho de 100% do MemPalace resulta de definir o número de recuperações para 50, mas o número mais alto de etapas de diálogo nos dados de teste é apenas 32; isto significa que o sistema contorna diretamente a fase de recuperação, entregando todos os dados ao modelo de IA para leitura.
Quanto ao desempenho de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento focou-se em 3 problemas específicos que surgiram ao nível do desenvolvimento e escreveu código de correção dedicado, existindo suspeitas de fraude direcionada ao conjunto de testes.
Fonte da imagem: Reddit Os concorrentes PenfieldLabs apontam que o MemPalace alega obter pontuação máxima no conjunto de dados LoCoMo, o que é matematicamente impossível
O utilizador do GitHub hugooconnor comentou após testes reais: quando o MemPalace alega ter até 96,6% de precisão de recuperação, na prática não utiliza de todo a arquitetura de “memórias-palácio” que a plataforma promove. hugooconnor afirma que os seus testes apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de classificação das “alas”, “salas” ou “gavetas” que o projeto enfatiza.
Após testar, o hugooconnor descobriu que quando o sistema realmente ativa a lógica de classificação exclusiva dessas “memórias-palácio”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, ambos inferiores ao desempenho da base de dados predefinida.
hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz deliberadamente o intervalo de recuperação de cada questão para cerca de 50 etapas de diálogo, tornando demasiado simples encontrar respostas num conjunto de amostras extremamente pequeno.
Se expandir o intervalo para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce para 30%, mostrando que o método de teste atual do MemPalace esconde o verdadeiro problema de pesquisa.
Fonte da imagem: GitHub Utilizadores do GitHub testam na prática; o benchmark do MemPalace tem componentes de desinformação
Ao mesmo tempo, embora a equipa de desenvolvimento tenha publicado uma declaração de retificação, reconhecendo que a tecnologia AAAK foi realmente validada como compressão com perdas, e se tenha comprometido a corrigir as explicações nos documentos e no desenho do sistema com base nas críticas severas da comunidade. Ainda assim, o documento principal de apresentação do projeto mantém várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30 vezes e aumento de recuperação de 34%, e também as tabelas e gráficos de comparação com outros concorrentes não apresentam completamente qualquer fonte.
Com o aumento do número de programadores a descarregar os testes, apareceram no GitHub muitos relatórios de bugs sobre o código-fonte do MemPalace.
O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e causa a queda do sistema, erros na lógica de contagem do número de palavras do resumo, e estatísticas imprecisas ao “escavar” as salas, bem como o facto de o servidor carregar todas as interpretações dos dados para a memória sempre que é chamado, causando um problema sério de consumo de recursos.
Outros problemas apontados incluem também o sistema gravar à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos, e a existência de um limite máximo forçado de exibição de 10k registos ao verificar o estado.
Para estes problemas, a comunidade open source já começou a repará-los ativamente. O utilizador adv3nt3 enviou váriassolicitaçõesde correção, incluindo a correção dos dados estatísticos do “escavar”, a remoção dos nomes predefinidos de familiares e o adiamento do tempo de inicialização do gráfico de conhecimento. A equipa de desenvolvimento também reconheceu posteriormente estes erros, e está a resolver gradualmente os problemas de código com a colaboração da comunidade.
Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, chegou a esta conclusão: o MemPalace dá a sensação de “OpenClaw”, ou seja, manipula artificialmente os resultados do benchmark para parecer impecável, e depois embala tudo como se fosse algum grande avanço para vender o produto.
Ele acredita que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas, com falhas desse tipo no método de teste, ainda assim fazer a promoção com “a pontuação pública mais alta de sempre” é, no mínimo, pouco adequado; “mas, no que toca a a Milla Jovovich estar a brincar a Vibe Coding, eu acho que ainda assim é bastante fixe.”
Leitura adicional:
A IA ao escrever código deu para o torto! A app “Caçador de Salvação” de produtos com validade de supermercado revelou problemas de segurança na informação; o GPS em casa ficou todo a céu aberto