El sistema de memoria de IA MemPalace, en el que participa y ayuda a desarrollar Milla Jovovich, afirma haber obtenido una puntuación perfecta en las pruebas y se volvió viral; sin embargo, la comunidad la desmintió, acusándola de hacer trampa en las pruebas y de inducir a error con los datos. Las pruebas en la práctica revelaron que los resultados estaban exagerados y que había una gran cantidad de errores. El equipo ya reconoció las deficiencias y está trabajando en la reparación.
Ayer (4/7), en el mundo de la IA hubo una gran noticia: la actriz de Hollywood Milla Jovovich (conocida por “Resident Evil” y “El quinto elemento”), junto con el desarrollador Ben Sigman, usando Claude Code para apoyar el desarrollo, creó el sistema open source de memoria de IA “MemPalace”.
Durante un tiempo, se difundió ampliamente la afirmación de “una superestrella de Hollywood que cruza de ámbito y logra un proyecto con puntuación perfecta”. Hasta ahora, MemPalace también ha conseguido más de 20.000 estrellas en GitHub, pero pronto surgieron dudas por parte de la comunidad de desarrolladores: ¿es realmente algo valioso o puro marketing?
Primero, hablemos de la motivación detrás del nacimiento de MemPalace. Según la documentación oficial, su objetivo es resolver la limitación de que el contenido de la conversación entre los usuarios de los sistemas de IA y la IA, los procesos de toma de decisiones y las discusiones sobre la arquitectura suelen desaparecer al terminar la sesión de trabajo, causando que meses de esfuerzo se conviertan en caida a cero.
Para resolver este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos, clasificando de forma clara la información en “zonas de ala” que representan a las personas o proyectos, así como en estructuras de distintos niveles como pasillos, habitaciones y cajones, conservando el texto original de la conversación para una búsqueda semántica posterior.
El equipo de desarrollo afirma que, en el baremo de evaluación de memoria a largo plazo LongMemEval, MemPalace obtuvo un 100% de rendimiento perfecto, y que, sin llamar a ninguna API externa, alcanzó una precisión del 96,6%; además, puede ejecutarse completamente en local, sin necesidad de suscribirse a servicios en la nube, e incorpora el supuesto sistema de dialectos AAAK capaz de lograr una compresión sin pérdidas 30 veces.
Fuente de la imagen: GitHub La estrella de cine de Hollywood Milla Jovovich crea un palacio de memoria de IA, lo que despierta la atención del público
Pero, el logro de un 100% en LongMemEval que afirma MemPalace, pronto provocó críticas por parte de competidores.
PenfieldLabs, que también crea sistemas de memoria de IA, señaló que la afirmación de MemPalace de haber obtenido una puntuación perfecta en el conjunto de datos LoCoMo es matemáticamente imposible, porque las respuestas estándar de dicho conjunto de datos ya incluyen 99 errores.
El análisis de PenfieldLabs descubrió que el resultado del 100% de MemPalace proviene de configurar la cantidad de recuperaciones en 50 veces, pero el número máximo de etapas de la conversación en los datos de prueba es solo de 32; esto significa que el sistema se salta directamente la fase de recuperación y entrega todos los datos al modelo de IA para que los lea.
Con respecto al 100% de rendimiento en LongMemEval, se descubrió que el equipo de desarrollo se centró en tres problemas específicos en los que se concentraban los errores, y escribió un código de reparación exclusivo; hay sospechas de que se hizo para hacer trampas en el conjunto de pruebas.
Fuente de la imagen: Reddit PenfieldLabs, competidor, señala que es matemáticamente imposible que MemPalace haya obtenido una puntuación perfecta en el conjunto de datos LoCoMo
El usuario de GitHub hugooconnor, tras probarlo en la práctica, comentó que, aunque MemPalace afirma una precisión de recuperación de hasta el 96,6%, en realidad no se usa en absoluto la arquitectura del palacio de memoria que promociona MemPalace. hugooconnor afirma que sus pruebas simplemente llaman a la función predeterminada del motor de base de datos subyacente ChromaDB, sin involucrar ninguna lógica de clasificación como las zonas de ala, salas o cajones que enfatiza el proyecto.
Tras sus pruebas, hugooconnor encontró que cuando el sistema realmente habilita la lógica de clasificación exclusiva de estos “palacios de memoria”, la puntuación de recuperación en cambio empeora. Por ejemplo, en el modo de habitaciones, la precisión baja hasta el 89,4%; y al habilitar la tecnología de compresión AAAK, la precisión cae aún más hasta el 84,2%; en ambos casos, son cifras inferiores al rendimiento de la base de datos predeterminada.
hugooconnor también criticó el método de prueba: el entorno de prueba de MemPalace deliberadamente reduce el rango de recuperación de cada pregunta a unas 50 etapas de conversación, haciendo demasiado sencillo encontrar respuestas en un conjunto de muestra extremadamente pequeño.
Si el rango se amplía a más de 19.000 etapas de conversación en situaciones reales, la precisión de la búsqueda tradicional por palabras clave se desplomaría hasta el 30%, lo que indica que la forma de prueba actual de MemPalace está ocultando el verdadero problema de búsqueda.
Fuente de la imagen: GitHub Usuario de GitHub prueba en la práctica; el benchmark de MemPalace tiene componentes engañosos
Al mismo tiempo, aunque el equipo de desarrollo ya publicó una declaración de corrección, reconociendo que la tecnología AAAK sí se verificó como compresión con pérdidas y prometiendo ajustar la documentación y el diseño del sistema según las duras críticas de la comunidad, el documento principal de explicación del proyecto todavía conserva varias afirmaciones exageradas sin corregir, incluyendo el supuesto de compresión sin pérdidas 30 veces y un aumento del 34% en la recuperación. Además, las comparaciones con otros competidores en gráficas carecen por completo de fuentes.
A medida que cada vez más desarrolladores descargan las pruebas, en la plataforma GitHub aparece una gran cantidad de informes de Bugs sobre el código original de MemPalace.
El usuario cktang88 enumera varias deficiencias graves; incluye que el comando de compresión no puede funcionar y hace que el sistema se bloquee, errores en la lógica del cálculo del número de palabras del resumen, y que los datos estadísticos sobre la excavación de habitaciones no son precisos, además de que el servidor, en cada llamada, carga todos los datos de interpretación en la memoria, provocando graves problemas de consumo de recursos.
Otros problemas que también se señalaron incluyen que el sistema escribe de forma forzada los nombres de familiares de los desarrolladores en el archivo de configuración predeterminado, y que existe un límite máximo obligatorio de visualización de 10.000 registros al consultar el estado.
Para estos problemas, la comunidad open source ya ha empezado a repararlos de manera activa. El usuario adv3nt3 presentó múltiplessolicitudes de reparación, que incluyen corregir los datos estadísticos de la excavación, eliminar los nombres de familiares predeterminados y retrasar el tiempo de inicialización del grafo de conocimiento. El equipo de desarrollo también reconoció posteriormente estos errores y está resolviendo gradualmente los problemas del código mediante la colaboración con la comunidad.
Para el proyecto MemPalace, un usuario de Hacker News, darkhanakh, llegó a esta conclusión: MemPalace da la sensación de OpenClaw, es decir, manipular artificialmente los resultados del benchmark para que parezcan impecables y luego empaquetarlo como algún gran avance para promocionarlo.
Considera que la tecnología subyacente de MemPalace quizá sí sea interesante, pero en el contexto de que el método de pruebas tenga este tipo de fallas, y aun así se anuncie con “la puntuación pública más alta de la historia”, no es del todo adecuado. “Pero, sobre que Milla Jovovich esté jugando Vibe Coding, creo que igual es bastante genial.”
Lectura adicional:
¡AI escribiendo código da problemas! App de comida con fecha de caducidad en tienda “Aprovechador de comida” explota con problemas de seguridad de datos; el GPS en casa queda completamente al descubierto