Miraçovа Viki usa IA para criar um «projecto de pontuação máxima»? Teste de developers: é mesmo de qualidade ou é exagero e hype?

O sistema de memórias de IA MemPalace, desenvolvido com a participação de Milla Jovovich, alegava ter obtido pontuação máxima nos testes e ficou rapidamente viral, mas foi depois posto em causa pela comunidade, que denunciou alegadas tentativas de fraude nos testes e desinformação dos dados. Testes em condições reais revelaram que os resultados foram exagerados e que há muitos erros. A equipa já reconheceu as falhas e está a trabalhar na correção.

Milla Jovovich constrói um AI “palácio das memórias”, gerando interesse do exterior

Ontem (4/7), no meio da IA, houve uma grande notícia: a actriz de Hollywood Milla Jovovich (conhecida por《Resident Evil》 e《O Quinto Elemento》), que trabalha em Hollywood, em conjunto com o programador Ben Sigman, usando Claude Code para ajudar no desenvolvimento, criou o sistema open source de memórias de IA “MemPalace”.

Num instante, espalhou-se a ideia de que “uma estrela gigantesca de Hollywood fez um projeto de pontuação perfeita num ‘cross-over’”, e o MemPalace já conta até agora com mais de 20k estrelas no GitHub, mas depressa a comunidade de programadores começou a levantar dúvidas: tem realmente mérito ou é pura encenação?

Vamos primeiro explicar a motivação do nascimento do MemPalace. A documentação oficial afirma que o objetivo é resolver a limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e a IA, os processos de decisão e as discussões sobre a arquitetura normalmente desaparecem após terminar a sessão de trabalho, levando a que meses de esforço fiquem em cair para zero.

Para resolver este problema, o MemPalace usa uma arquitetura espacial para armazenar memórias, classificando de forma explícita a informação em áreas de “asas” que representam pessoas ou projetos, bem como em estruturas de diferentes níveis como corredores, salas e gavetas, mantendo o texto original das conversas para futura pesquisa semântica.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% de pontuação perfeita na métrica de avaliação de memória de longo prazo LongMemEval, e alcançou 96,6% de precisão sem chamar qualquer API externa, podendo ainda ser executado totalmente no ambiente local, sem necessidade de subscrição de serviços de nuvem, e com um sistema de dialeto AAAK que se diz atingir uma compressão sem perdas 30x.

Fonte da imagem: GitHub A estrela de cinema de Hollywood Milla Jovovich a construir um “palácio das memórias” de IA, gerando interesse do exterior

Colegas e a comunidade levantam em conjunto dúvidas, método de teste e falhas na promoção

No entanto, o desempenho de pontuação total alegado pelo MemPalace no LongMemEval suscitou rapidamente críticas por parte de colegas.

A PenfieldLabs, que também desenvolve sistemas de memórias de IA, aponta que é matematicamente impossível que o MemPalace alegue obter pontuação perfeita no conjunto de dados LoCoMo, porque as respostas-padrão desse conjunto de dados já incluem 99 erros.

A PenfieldLabs analisou e descobriu que o resultado de 100% do MemPalace vem de definir a contagem de recuperação para 50 vezes, mas no conjunto de dados de teste a fase máxima das conversas tem apenas 32 vezes. Isto significa que o sistema contorna diretamente a fase de recuperação e entrega todos os dados ao modelo de IA para leitura.

No que diz respeito ao resultado de 100% no LongMemEval, a equipa de desenvolvimento foi encontrada a ter focado 3 problemas específicos que surgiram na parte de desenvolvimento, escrevendo códigos de correção dedicados, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Colegas PenfieldLabs apontam que, alegadamente, o MemPalace obteve pontuação perfeita no conjunto de dados LoCoMo, o que é matematicamente impossível

Testes reais por utilizadores do GitHub: componente de desinformação nos testes de referência

O utilizador do GitHub hugooconnor comentou após testes em condições reais que, embora o MemPalace alegue uma taxa de precisão de recuperação de 96,6%, na prática não utiliza absolutamente nenhuma a arquitetura do “palácio das memórias” promovida pelo MemPalace. hugooconnor afirma que os seus testes consistiram apenas em chamar a funcionalidade predefinida do motor de base de dados subjacente, ChromaDB, sem qualquer envolvimento na lógica de classificação das “asas”, salas ou gavetas destacada no projeto.

Após os testes, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação exclusiva destes “palácios das memórias”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e, depois de ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, sendo ambos os valores inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz intencionalmente o intervalo de recuperação de cada pergunta para cerca de 50 etapas de conversas, procurando respostas num conjunto de amostras muito pequeno, o que torna a tarefa demasiado fácil.

Se o intervalo for alargado para mais de 19.000 etapas de conversas em cenários reais, a precisão de uma pesquisa tradicional por palavras-chave cai para 30%, mostrando que o método de testes atual do MemPalace está a ocultar o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizador do GitHub testou em condições reais; parte do teste de referência do MemPalace tem elementos de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado uma declaração de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas, e prometendo corrigir a documentação e o desenho do sistema de acordo com as críticas rigorosas da comunidade, a principal documentação do projeto continua a manter várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30x e melhoria de 34% na recuperação, e os gráficos comparativos com outros concorrentes também não apresentam qualquer fonte.

O código-fonte do MemPalace enfrenta múltiplos bugs

À medida que mais e mais programadores descarregam e testam, aparecem no GitHub muitos relatos de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou vários defeitos graves, incluindo que o comando de compressão não consegue funcionar e faz o sistema falhar, erros na lógica de contagem de palavras do resumo, e dados estatísticos imprecisos ao “escavar” salas, além de que o servidor carrega todos os dados de interpretação para a memória sempre que é chamada uma nova instância, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem ainda que o sistema grava à força os nomes dos familiares dos programadores no ficheiro de configuração predefinido, e que existe um limite máximo forçado de exibição de 10k registos ao consultar o estado.

Para estes problemas, a comunidade open source já começou a reparar ativamente. O utilizador adv3nt3 apresentou vários pedidos de correção**, incluindo corrigir os dados estatísticos do “escavamento”, remover os nomes predefinidos dos familiares e atrasar o tempo de inicialização do conhecimento do grafo de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O coding com vibe da Milla Jovovich é fixe, a forma de marketing não

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, tirou esta conclusão: o MemPalace dá a impressão de OpenClaw, ou seja, manipula artificialmente os resultados dos testes de referência (benchmark) para fazê-los parecer impecáveis, e depois embrulha-os como um certo grande avanço para marketing.

Ele considera que a tecnologia de base do MemPalace pode de facto ser interessante, mas, com este tipo de falhas no método de teste, e ainda promovê-la com “a pontuação pública mais alta de sempre”, não é muito apropriado. “Mas, no entanto, sobre a Milla Jovovich estar a fazer vibe coding, eu acho que é bastante fixe.”

Leitura adicional:
A IA a escrever código dá erro! Problema de segurança em apps de “caçador de sobras” com validade de talão de mercearia, GPS em casa totalmente exposto ao público

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário