Miraçovа Viki usa IA para criar um «projecto de pontuação máxima»? Teste de developers: é mesmo de qualidade ou é exagero e hype?

CryptoCity

2026-04-09 18:00:05

O sistema de memórias de IA MemPalace, desenvolvido com a participação de Milla Jovovich, alegava ter obtido pontuação máxima nos testes e ficou rapidamente viral, mas foi depois posto em causa pela comunidade, que denunciou alegadas tentativas de fraude nos testes e desinformação dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros. A equipa já reconheceu as falhas e está a trabalhar na correção.

Milla Jovovich constrói um AI “palácio das memórias”, gerando interesse do exterior

Ontem (4/7), no meio da IA, houve uma grande notícia: a actriz de Hollywood Milla Jovovich (conhecida por《Resident Evil》 e《O Quinto Elemento》), que trabalha em Hollywood, em conjunto com o programador Ben Sigman, usando Claude Code para ajudar no desenvolvimento, criou o sistema open source de memórias de IA “MemPalace”.

Num instante, espalhou-se a ideia de que “uma estrela gigantesca de Hollywood fez um projeto de pontuação perfeita num ‘cross-over’”, e o MemPalace já conta até agora com mais de 20k estrelas no GitHub, mas depressa a comunidade de programadores começou a levantar dúvidas: tem realmente mérito ou é pura encenação?

Vamos primeiro explicar a motivação do nascimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e a IA, os processos de decisão e as discussões sobre a arquitetura normalmente desaparecem após terminar a sessão de trabalho, levando a que meses de esforço fiquem em cair para zero.

Para resolver este problema, o MemPalace usa uma arquitetura espacial para armazenar memórias, classificando de forma explícita a informação em áreas de “asas” que representam pessoas ou projetos, bem como em estruturas de diferentes níveis como corredores, salas e gavetas, mantendo o texto original das conversas para futura pesquisa semântica.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% de pontuação perfeita na métrica de avaliação de memória de longo prazo LongMemEval, e alcançou 96,6% de precisão sem chamar qualquer API externa, podendo ainda ser executado totalmente no ambiente local, sem necessidade de subscrição de serviços de nuvem, e com um sistema de dialeto AAAK que se diz atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela de cinema de Hollywood Milla Jovovich a construir um “palácio das memórias” de IA, gerando interesse do exterior

Colegas e a comunidade levantam em conjunto dúvidas, método de teste e falhas na promoção

No entanto, o desempenho de pontuação total alegado pelo MemPalace no LongMemEval suscitou rapidamente críticas por parte de colegas.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, aponta que é matematicamente impossível que o MemPalace alegue obter pontuação perfeita no conjunto de dados LoCoMo, porque as respostas-padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e descobriu que o resultado de 100% do MemPalace vem de definir a contagem de recuperação para 50 vezes, mas no conjunto de dados de teste a fase máxima das conversas tem apenas 32 vezes. Isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

No que diz respeito ao resultado de 100% no LongMemEval, a equipa de desenvolvimento foi encontrada a ter focado 3 problemas específicos que surgiram na parte de desenvolvimento, escrevendo códigos de correção dedicados, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Colegas PenfieldLabs apontam que, alegadamente, o MemPalace obteve pontuação perfeita no conjunto de dados LoCoMo, o que é matematicamente impossível

Testes reais por utilizadores do GitHub: componente de desinformação nos testes de referência

O utilizador do GitHub hugooconnor comentou após testes em condições reais que, embora o MemPalace alegue uma taxa de precisão de recuperação de 96,6%, na prática não utiliza absolutamente nenhuma a arquitetura do “palácio das memórias” promovida pelo MemPalace. hugooconnor afirma que os seus testes consistiram apenas em chamar a funcionalidade predefinida do motor de base de dados subjacente, ChromaDB, sem qualquer envolvimento na lógica de classificação das “asas”, salas ou gavetas destacada no projeto.

Após os testes, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios das memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e, depois de ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, sendo ambos os valores inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz intencionalmente o intervalo de recuperação de cada pergunta para cerca de 50 etapas de conversas, procurando respostas num conjunto de amostras muito pequeno, o que torna a tarefa demasiado fácil.

Se o intervalo for alargado para mais de 19.000 etapas de conversas em cenários reais, a precisão de uma pesquisa tradicional por palavras-chave cai para 30%, mostrando que o método de testes atual do MemPalace está a ocultar o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testou em condições reais; parte do teste de referência do MemPalace tem elementos de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas, e prometendo corrigir a documentação e o desenho do sistema de acordo com as críticas rigorosas da comunidade, a principal documentação do projeto continua a manter várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e os gráficos comparativos com outros concorrentes também não apresentam qualquer fonte.

O código-fonte do MemPalace enfrenta múltiplos bugs

À medida que mais e mais programadores descarregam e testam, aparecem no GitHub muitos relatos de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou vários defeitos graves, incluindo que o comando de compressão não consegue funcionar e faz o sistema falhar, erros na lógica de contagem de palavras do resumo, e dados estatísticos imprecisos ao “escavar” salas, além de que o servidor carrega todos os dados de interpretação para a memória sempre que é chamada uma nova instância, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem ainda que o sistema grava à força os nomes dos familiares dos programadores no ficheiro de configuração predefinido, e que existe um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a reparar ativamente. O utilizador adv3nt3 apresentou vários pedidos de correção**, incluindo corrigir os dados estatísticos do “escavamento”, remover os nomes predefinidos dos familiares e atrasar o tempo de inicialização do conhecimento do grafo de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O coding com vibe da Milla Jovovich é fixe, a forma de marketing não

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, tirou esta conclusão: o MemPalace dá a impressão de OpenClaw, ou seja, manipula artificialmente os resultados dos testes de referência (benchmark) para fazê-los parecer impecáveis, e depois embrulha-os como um certo grande avanço para marketing.

Ele considera que a tecnologia de base do MemPalace pode de facto ser interessante, mas, com este tipo de falhas no método de teste, e ainda promovê-la com “a pontuação pública mais alta de sempre”, não é muito apropriado. “Mas, no entanto, sobre a Milla Jovovich estar a fazer vibe coding, eu acho que é bastante fixe.”

Leitura adicional:
A IA a escrever código dá erro! Problema de segurança em apps de “caçador de sobras” com validade de talão de mercearia, GPS em casa totalmente exposto ao público

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Comentar

0/400

Nenhum comentário