A Mira Jojava Viki usa IA para criar um “projecto de pontuação máxima”? Teste de um programador: é mesmo de qualidade ou é pura exagero e promoção?

O sistema de memórias com IA “MemPalace”, desenvolvido por Milla Jovovich e Vicky (Vitki) , alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas foi rapidamente desmascarado pela comunidade, que levantou suspeitas de fraude nos testes e de dados potencialmente enganadores. Em testes reais, verificou-se que os resultados foram exagerados e que existem muitos erros; a equipa já admitiu falhas e está a trabalhar na sua correção.

Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Ontem (4/7), houve uma grande notícia no meio da IA: a actriz de Hollywood, conhecida por “Resident Evil” e “O Quinto Elemento”, Milla Jovovich (Milla Jovovich), juntamente com o programador Ben Sigman, usou o Claude Code para desenvolver o sistema de código aberto de memórias com IA “MemPalace”.

A certa altura, espalhou-se amplamente a ideia de “uma estrela de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já recebeu mais de 20 mil estrelas no GitHub; no entanto, muito rapidamente, a comunidade de programadores começou a questionar: será que é mesmo bom ou é só marketing?

Vamos primeiro ao motivo do nascimento do MemPalace. A documentação oficial afirma que a intenção é resolver uma limitação atual dos sistemas de IA: o conteúdo das conversas entre utilizadores e IA, os processos de decisão e as discussões de arquitetura normalmente desaparecem depois de terminar a sessão de trabalho, levando a que meses de esforço acabem por cair para zero.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em áreas em forma de asas que representam pessoas ou projetos, bem como em estruturas a diferentes níveis, como corredores, salas e gavetas, mantendo o texto original das conversas para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% no referencial de avaliação de memória de longa duração LongMemEval, e alcançou 96,6% de precisão sem chamar nenhuma API externa; além disso, pode funcionar completamente no local, sem necessidade de subscrever serviços na nuvem, e inclui um alegado sistema de dialeto AAAK capaz de atingir compressão sem perda 30 vezes.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich criou o “AI Memory Palace”, gerando atenção no exterior

Concorrentes e comunidade levantam dúvidas em conjunto; método de teste e falhas na promoção

No entanto, a alegada pontuação perfeita do MemPalace no LongMemEval trouxe rapidamente desconfiança por parte dos concorrentes.

A PenfieldLabs, que também produz sistemas de memória com IA, apontou que a alegação do MemPalace de obter pontuação máxima no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão do próprio conjunto de dados já incluem 99 erros.

Ao analisar, a PenfieldLabs descobriu que o desempenho de 100% do MemPalace resulta de definir o número de recuperações para 50, mas o número mais alto de etapas de diálogo nos dados de teste é apenas 32; isto significa que o sistema contorna diretamente a fase de recuperação, entregando todos os dados ao modelo de IA para leitura.

Quanto ao desempenho de 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento focou-se em 3 problemas específicos que surgiram ao nível do desenvolvimento e escreveu código de correção dedicado, existindo suspeitas de fraude direcionada ao conjunto de testes.

Fonte da imagem: Reddit Os concorrentes PenfieldLabs apontam que o MemPalace alega obter pontuação máxima no conjunto de dados LoCoMo, o que é matematicamente impossível

Teste prático por utilizadores do GitHub; componentes de desinformação no benchmark

O utilizador do GitHub hugooconnor comentou após testes reais: quando o MemPalace alega ter até 96,6% de precisão de recuperação, na prática não utiliza de todo a arquitetura de “memórias-palácio” que a plataforma promove. hugooconnor afirma que os seus testes apenas chamaram a funcionalidade predefinida da base de dados subjacente ChromaDB, sem envolver qualquer lógica de classificação das “alas”, “salas” ou “gavetas” que o projeto enfatiza.

Após testar, o hugooconnor descobriu que quando o sistema realmente ativa a lógica de classificação exclusiva dessas “memórias-palácio”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão cai para 89,4%; e após ativar a tecnologia de compressão AAAK, a precisão desce ainda mais para 84,2%, ambos inferiores ao desempenho da base de dados predefinida.

hugooconnor também criticou o método de teste: o ambiente de teste do MemPalace reduz deliberadamente o intervalo de recuperação de cada questão para cerca de 50 etapas de diálogo, tornando demasiado simples encontrar respostas num conjunto de amostras extremamente pequeno.

Se expandir o intervalo para mais de 19.000 etapas de diálogo em cenários reais, a precisão da pesquisa tradicional por palavras-chave desce para 30%, mostrando que o método de teste atual do MemPalace esconde o verdadeiro problema de pesquisa.

Fonte da imagem: GitHub Utilizadores do GitHub testam na prática; o benchmark do MemPalace tem componentes de desinformação

Ao mesmo tempo, embora a equipa de desenvolvimento tenha publicado uma declaração de retificação, reconhecendo que a tecnologia AAAK foi realmente validada como compressão com perdas, e se tenha comprometido a corrigir as explicações nos documentos e no desenho do sistema com base nas críticas severas da comunidade. Ainda assim, o documento principal de apresentação do projeto mantém várias afirmações exageradas não corrigidas, incluindo alegações de compressão sem perdas 30 vezes e aumento de recuperação de 34%, e também as tabelas e gráficos de comparação com outros concorrentes não apresentam completamente qualquer fonte.

O código-fonte do MemPalace enfrenta vários bugs

Com o aumento do número de programadores a descarregar os testes, apareceram no GitHub muitos relatórios de bugs sobre o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo que o comando de compressão não consegue funcionar e causa a queda do sistema, erros na lógica de contagem do número de palavras do resumo, e estatísticas imprecisas ao “escavar” as salas, bem como o facto de o servidor carregar todas as interpretações dos dados para a memória sempre que é chamado, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem também o sistema gravar à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos, e a existência de um limite máximo forçado de exibição de 10k registos ao verificar o estado.

Para estes problemas, a comunidade open source já começou a repará-los ativamente. O utilizador adv3nt3 enviou váriassolicitaçõesde correção, incluindo a correção dos dados estatísticos do “escavar”, a remoção dos nomes predefinidos de familiares e o adiamento do tempo de inicialização do gráfico de conhecimento. A equipa de desenvolvimento também reconheceu posteriormente estes erros, e está a resolver gradualmente os problemas de código com a colaboração da comunidade.

O “Vibe Coding” da Milla Jovovich é fixe; a forma de marketing não é fixe

Quanto ao projeto MemPalace, um utilizador do Hacker News, darkhanakh, chegou a esta conclusão: o MemPalace dá a sensação de “OpenClaw”, ou seja, manipula artificialmente os resultados do benchmark para parecer impecável, e depois embala tudo como se fosse algum grande avanço para vender o produto.

Ele acredita que a tecnologia subjacente do MemPalace pode de facto ser interessante, mas, com falhas desse tipo no método de teste, ainda assim fazer a promoção com “a pontuação pública mais alta de sempre” é, no mínimo, pouco adequado; “mas, no que toca a a Milla Jovovich estar a brincar a Vibe Coding, eu acho que ainda assim é bastante fixe.”

Leitura adicional:
A IA ao escrever código deu para o torto! A app “Caçador de Salvação” de produtos com validade de supermercado revelou problemas de segurança na informação; o GPS em casa ficou todo a céu aberto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

A Novo Nordisk faz parceria com a OpenAI para acelerar o desenvolvimento de medicamentos usando IA

A Novo Nordisk fez parceria com a OpenAI para aprimorar o desenvolvimento de medicamentos e a integração de IA nas operações. A colaboração tem como objetivo acelerar a análise de candidatos a medicamentos e o treinamento de funcionários, potencialmente transformando a pesquisa sobre obesidade e diabetes e além.

GateNews19m atrás

A OpenAI Sai do Projeto Stargate na Noruega, e a Microsoft Assume o Contrato de Locação do Data Center

A OpenAI retirou-se do projeto de data center Stargate na Noruega, mudando o foco em meio a desafios regulatórios e custos. A startup britânica Ensacle vai arrendar a instalação para a Microsoft, com o objetivo de atender à crescente demanda por IA na Europa.

GateNews39m atrás

O Operador da Rede Elétrica de Texas (Texas Grid Operator) Avisa que a Demanda de Energia Pode Quadruplicar até 2032, à medida que os Centros de Dados de IA Impulsionam um Aumento de Energia

A ERCOT alerta que a demanda de energia do Texas pode quadruplicar até 2032, impulsionada por data centers de IA e pelo crescimento populacional, potencialmente exigindo uma capacidade equivalente a 300 novos reatores nucleares. Grandes empresas de tecnologia estão adotando modelos de autoabastecimento com acordos de energia de longo prazo, enquanto desafios como capacidade da rede e custos permanecem.

GateNews59m atrás

A equipe da OpenAI, Anthropic e Google se une para combater a destilação de modelos de IA por concorrentes chineses

A OpenAI, a Anthropic e o Google estão colaborando para combater os esforços de concorrentes chineses para aprimorar as capacidades de IA, extraindo resultados de modelos dos EUA, compartilhando informações por meio do Frontier Model Forum para lidar com a destilação adversarial de dados.

GateNews1h atrás

Waymo Expande o Serviço de Robotáxis para Miami e Orlando, Lança Testes na Rodovia em Miami

A Waymo expandiu seu serviço Robotaxi para todos os passageiros em Miami e Orlando, fazendo a transição de um modelo apenas por convite. A empresa também começou a fazer testes de rodagem em rodovias de Miami, destacando sua tecnologia de direção autônoma.

GateNews1h atrás

Ações da Allbirds Disparam 582% Após Anunciar Mudança para IA, Rodada de Financiamento $50M

Allbirds anunciou uma transformação para se tornar NewBird AI, garantindo $50 milhões em financiamento conversível para focar em infraestrutura de computação de IA. Essa decisão segue vendas em declínio e uma venda de marca. As ações dispararam 582%, mas preocupações sobre concorrência no mercado e bolhas de avaliação persistem.

GateNews1h atrás
Comentário
0/400
Sem comentários