Mila Kirova Vechi utilise l’IA pour créer un « projet parfait » ? Test des développeurs : est-ce vraiment solide ou de la surenchère marketing ?

CryptoCity

Le système de mémoire d’IA MemPalace, développé avec la participation de Milla Jovovich, affirme avoir obtenu un score parfait lors de tests, puis devient viral… mais la communauté l’a rapidement accusé de tricher aux tests et de tromper les données. Des tests en conditions réelles révèlent que les résultats sont exagérés et qu’il existe de nombreuses erreurs. L’équipe a reconnu les lacunes et travaille à les corriger.

Milla Jovovich a conçu un « palais de la mémoire » d’IA, suscitant l’attention du public

Hier (4/7), un grand événement a secoué la communauté IA : l’actrice hollywoodienne Milla Jovovich (connue pour Resident Evil et Le Cinquième Élément), a collaboré avec le développeur Ben Sigman, avec l’aide de Claude Code, pour créer le système open source de mémoire d’IA « MemPalace ».

Pendant un moment, la rumeur selon laquelle « une star hollywoodienne franchit les frontières et livre un projet parfait » s’est largement répandue. Jusqu’à présent, MemPalace a même dépassé 20k étoiles sur GitHub, mais très vite, la communauté des développeurs a commencé à remettre en question : est-ce vraiment du contenu solide ou une simple opération de marketing ?

Voyons d’abord la motivation derrière la création de MemPalace. D’après la documentation officielle, l’objectif est de résoudre la limitation selon laquelle, dans les systèmes d’IA actuels, le contenu de la conversation avec l’IA, le processus de décision et les discussions d’architecture disparaissent généralement à la fin de la session de travail, faisant retomber à zéro des mois d’efforts.

Pour résoudre ce problème, MemPalace utilise une architecture spatiale pour stocker la mémoire : les informations sont classées clairement dans des ailes représentant des personnes ou des projets, ainsi que dans des structures de différents niveaux, comme les couloirs, les chambres et les tiroirs, tout en conservant le texte original des dialogues pour permettre une recherche sémantique ultérieure.

L’équipe de développement affirme que MemPalace obtient 100 % de performance parfaite dans le critère d’évaluation de mémoire à long terme LongMemEval, et atteint aussi 96,6 % de précision sans appeler aucune API externe. Elle indique en outre que le système peut fonctionner entièrement localement, sans avoir besoin de s’abonner à un service cloud, et qu’il intègre un système de dialecte AAAK censé atteindre une compression sans perte jusqu’à 30 fois.

Source de l’image : GitHub La star de cinéma américaine Milla Jovovich a construit un palais de mémoire d’IA, suscitant l’attention du public

Des pairs et la communauté remettent en cause la performance ; tests et communication entachés

Cependant, le score parfait de MemPalace dans LongMemEval a très vite suscité des doutes de la part de pairs.

Le groupe PenfieldLabs, qui produit également des systèmes de mémoire d’IA, indique que l’affirmation selon laquelle MemPalace obtient un score parfait dans le jeu de données LoCoMo est mathématiquement impossible, car les réponses standard de ce jeu de données contiennent elles-mêmes 99 erreurs.

Après analyse, PenfieldLabs conclut que le score de 100 % de MemPalace provient du fait que le nombre de requêtes de récupération a été fixé à 50 fois, mais que le nombre maximal d’étapes de dialogue dans les données de test n’est que de 32. Cela signifie que le système contourne directement la phase de récupération et confie toutes les données au modèle d’IA pour qu’il les lise.

Concernant le score de 100 % obtenu à LongMemEval, l’équipe de développement a été repérée comme ayant ciblé trois problèmes spécifiques sur lesquels la conception a concentré l’erreur, en écrivant du code de correction dédié, ce qui laisse planer des soupçons de triche sur le jeu de test.

Source de l’image : Reddit Les pairs de PenfieldLabs indiquent que l’affirmation selon laquelle MemPalace obtient un score parfait dans le jeu de données LoCoMo est mathématiquement impossible

Tests en conditions réelles sur GitHub : composante trompeuse dans le benchmark

L’utilisateur GitHub hugooconnor, après avoir mené ses propres tests, commente : MemPalace revendique jusqu’à 96,6 % de précision de récupération, mais en réalité, elle n’utilise absolument pas l’architecture de palais de mémoire mise en avant par MemPalace. hugooconnor affirme que leurs tests consistent simplement à appeler la fonctionnalité par défaut de la base de données sous-jacente ChromaDB, sans aucune logique de classification impliquant des ailes, des chambres ou des tiroirs — autant d’éléments que le projet met l’accent.

Après ses tests, hugooconnor constate que lorsque le système active réellement ces logiques de classification propres au palais de mémoire, les performances de récupération se dégradent. Par exemple, en mode chambre, la précision descend à 89,4 %, et une fois la technique de compression AAAK activée, la précision tombe encore à 84,2 %, les deux étant inférieures aux performances de la base de données par défaut.

hugooconnor critique aussi la méthode de test : l’environnement de test de MemPalace réduit délibérément la plage de récupération de chaque question à environ 50 étapes de dialogue, ce qui rend la recherche de réponses dans une base d’échantillons extrêmement petite trop facile.

Si l’on étend la plage à plus de 19 000 étapes de dialogue dans un contexte réel, la précision de la recherche par mots-clés traditionnelle chute à 30 %, ce qui montre que la manière actuelle de tester de MemPalace masque la difficulté réelle de la recherche.

Source de l’image : GitHub Tests en conditions réelles par les utilisateurs de GitHub ; composante trompeuse du benchmark MemPalace

Par ailleurs, bien que l’équipe de développement ait déjà publié une déclaration de rectification, reconnaissant que la technologie AAAK a bien été validée comme étant une compression avec perte, et s’engageant à ajuster la documentation et la conception du système en fonction des critiques sévères de la communauté, le document principal de présentation du projet conserve toujours plusieurs affirmations exagérées non corrigées, notamment la promesse d’une compression sans perte « 30 fois » et d’une amélioration de la récupération de « 34 % », et les graphiques de comparaison avec d’autres concurrents ne présentent eux non plus aucune source ni origine.

Le code source de MemPalace fait face à de nombreux bugs

À mesure que de plus en plus de développeurs téléchargent les tests, de nombreux rapports de bugs concernant le code source de MemPalace apparaissent sur la plateforme GitHub.

L’utilisateur cktang88 liste plusieurs défauts graves, dont le fait que la commande de compression ne fonctionne pas et fait planter le système, une erreur dans la logique de calcul du nombre de mots des résumés, des statistiques inexactes pour l’extraction des chambres, ainsi qu’un problème selon lequel, à chaque appel, le serveur charge toutes les données d’interprétation en mémoire, causant une consommation de ressources sévère.

Les autres problèmes signalés incluent aussi le fait que le système inscrit de force le nom des membres de la famille du développeur dans le fichier de configuration par défaut, ainsi qu’une limite d’affichage maximale forcée de 10k entrées lors de l’interrogation de l’état.

Face à ces problèmes, la communauté open source a commencé à réparer activement. L’utilisateur adv3nt3 a soumis plusieurs** demandes de correctifs****, incluant la correction des statistiques d’extraction, la suppression du nom par défaut des membres de la famille et le report du temps d’initialisation de la carte de connaissances.** L’équipe de développement a également reconnu ces erreurs par la suite, et travaille à résoudre progressivement les problèmes de code grâce à la collaboration de la communauté.

Vibe Coding de Milla Jovovich, c’est cool ; la manière de marketer, ne l’est pas

Concernant ce projet MemPalace, un internaute de Hacker News, darkhanakh, a tiré une conclusion : MemPalace donne l’impression d’un OpenClaw, c’est-à-dire manipuler artificiellement les résultats des benchmarks pour les rendre parfaitement impeccables, puis les emballer comme une sorte de percée majeure afin de les vendre.

Il estime que la technologie sous-jacente de MemPalace pourrait effectivement être intéressante, mais dans un contexte où la méthode de test présente ce genre de défauts, en plus de promouvoir le tout avec « le plus haut score public de l’histoire », ce n’est pas vraiment approprié. « Mais bon, concernant le fait que Milla Jovovich joue au Vibe Coding, je pense que c’est quand même assez cool. »

Lecture complémentaire :
L’IA code et fait des erreurs ! L’appli « chasseur de l’utile » des articles à date courte en supermarché explose en problèmes de cybersécurité, le GPS à la maison divulgue tout

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire