¿Mila Jojová Viki usa IA para crear un “proyecto de sobresaliente”? Prueba de desarrolladores: ¿es realmente valioso o es una exageración y un bombo mediático?

El sistema de memoria con IA MemPalace, desarrollado con la participación de Milla Jovovich, supuestamente obtuvo una puntuación perfecta en las pruebas y se volvió viral, pero la comunidad lo desmintió, alegando que las pruebas implicaban trampas y que los datos inducían a error. Las pruebas en condiciones reales revelaron que el impacto estaba exagerado y que había muchos errores. El equipo ya ha reconocido las deficiencias y está trabajando en la corrección.

Milla Jovovich crea el palacio de la memoria con IA y atrae la atención del público

Ayer (4/7), en el ámbito de la IA hubo una gran noticia: la actriz de Hollywood Milla Jovovich (conocida por ‘Resident Evil’ y ‘El quinto elemento’), junto con el desarrollador Ben Sigman, usó Claude Code para crear el sistema abierto de memoria con IA ‘MemPalace’.

Durante un tiempo, se difundió ampliamente la idea de que se trataba de un “proyecto de puntuación perfecta hecho por una superestrella de Hollywood en una colaboración cruzada”. Hasta ahora, MemPalace también ha recibido más de 20k estrellas en GitHub, pero pronto provocó dudas en la comunidad de desarrolladores: ¿realmente tiene algo valioso o es solo marketing?

Primero, expliquemos la motivación detrás del nacimiento de MemPalace. La documentación oficial afirma que busca resolver la limitación de que, en la actualidad, el contenido de las conversaciones entre usuarios y la IA, el proceso de toma de decisiones y la discusión de la arquitectura en los sistemas de IA normalmente desaparecen al finalizar la sesión de trabajo, haciendo que varios meses de esfuerzo acaben en caida a cero.

Para resolver este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos, clasificando la información con claridad en alas que representan a las personas o proyectos, y en estructuras de distintos niveles como pasillos, habitaciones y cajones, manteniendo el texto original de las conversaciones para la posterior búsqueda semántica.

El equipo de desarrollo afirma que, en el benchmark de evaluación de memoria a largo plazo LongMemEval, MemPalace logra un 100% perfecto, y que además alcanza un 96,6% de precisión sin llamar a ninguna API externa. También puede ejecutarse completamente en local, sin necesidad de suscribirse a servicios en la nube, y viene con un sistema dialectal AAAK que supuestamente puede alcanzar una compresión sin pérdida de 30 veces.

Fuente de la imagen: GitHub La estrella de cine de Hollywood Milla Jovovich crea el palacio de la memoria con IA y atrae la atención del público

Compañeros y comunidad cuestionan a la vez; pruebas y fallas en la promoción

Pero el supuesto logro perfecto de LongMemEval de MemPalace no tardó en atraer dudas de sus competidores.

PenfieldLabs, que también desarrolla sistemas de memoria con IA, señaló que la afirmación de MemPalace de obtener un 100% en el conjunto de datos LoCoMo es matemáticamente imposible, porque las respuestas estándar de ese conjunto de datos ya incluyen 99 errores.

PenfieldLabs analizó que el 100% de MemPalace proviene de configurar el número de recuperaciones en 50 veces, pero el nivel máximo de etapas de diálogo en los datos de prueba es solo de 32 veces; esto significa que el sistema salta directamente la etapa de recuperación y entrega todos los datos al modelo de IA para que los lea.

Con respecto a la puntuación perfecta del 100% en LongMemEval, se descubrió que el equipo de desarrollo apuntó a tres problemas específicos en los que se concentraba el error, y escribió un código de reparación exclusivo, lo cual despierta sospechas de hacer trampa en el conjunto de prueba.

Fuente de la imagen: Reddit Los competidores PenfieldLabs señalan que la afirmación de MemPalace de obtener un 100% en el conjunto de datos LoCoMo es matemáticamente imposible

Pruebas reales en GitHub: el benchmark tiene componentes que inducen a error

El usuario de GitHub hugooconnor comentó después de hacer pruebas en condiciones reales: MemPalace afirma una precisión de recuperación de hasta 96,6%, pero en realidad no utilizó para nada la arquitectura del palacio de la memoria que promociona. hugooconnor afirma que sus pruebas solo llamaron a la función predeterminada del motor de base de datos subyacente ChromaDB, sin involucrar la lógica de clasificación por “alas” de proyecto, como alas, habitaciones o cajones.

Tras sus pruebas, hugooconnor descubrió que cuando el sistema realmente activa la lógica de clasificación exclusiva del palacio de la memoria, el rendimiento de recuperación en cambio empeora. Por ejemplo, en el modo de habitaciones, la precisión baja a 89,4%; y al activar la tecnología de compresión AAAK, la precisión cae aún más hasta 84,2%, y ambos valores son inferiores al rendimiento de la base de datos predeterminada.

hugooconnor también criticó el método de prueba: el entorno de prueba de MemPalace reduce a propósito el rango de recuperación de cada pregunta a unos 50 turnos de diálogo, y encontrar respuestas en un conjunto de muestras extremadamente pequeño es demasiado sencillo.

Si se amplía el rango a más de 19.000 turnos de diálogo en un escenario real, la precisión de la búsqueda tradicional por palabras clave se desploma hasta 30%, lo que muestra que el método de prueba actual de MemPalace oculta el verdadero problema de búsqueda.

Fuente de la imagen: GitHub Pruebas reales de usuarios en GitHub: el benchmark de MemPalace tiene componentes que inducen a error

Al mismo tiempo, aunque el equipo de desarrollo ya publicó una declaración de corrección, aceptando que la tecnología AAAK efectivamente se valida como compresión con pérdidas, y prometiendo ajustar la documentación y el diseño del sistema según las duras críticas de la comunidad, el documento principal de explicación del proyecto aún conserva varias afirmaciones exageradas sin corregir. Incluyen la promesa de compresión sin pérdida de 30 veces y una mejora de recuperación del 34%, y además las tablas comparativas con otros competidores carecen por completo de fuentes y procedencia.

El código original de MemPalace enfrenta múltiples bugs

A medida que más y más desarrolladores descargan las pruebas, han aparecido en la plataforma de GitHub numerosas reportes de bugs relacionados con el código original de MemPalace.

El usuario cktang88 enumeró múltiples fallas graves, incluyendo que los comandos de compresión no pueden funcionar y provocan que el sistema se caiga; errores en la lógica del conteo de palabras del resumen; estadísticas inexactas al excavar habitaciones; y que el servidor carga en la memoria toda la información interpretada en cada llamada, causando un serio problema de consumo de recursos.

Otros problemas señalados incluyen que el sistema escribe de forma forzada los nombres de miembros de la familia del desarrollador en el archivo de configuración predeterminado, y que existe un límite máximo forzado de visualización de 10k registros al consultar el estado.

Para estos problemas, la comunidad open source ya comenzó a repararlos activamente. El usuario adv3nt3 envió múltiples solicitudes dereparación, incluyendo corregir las estadísticas de excavación, eliminar los nombres predeterminados de miembros de la familia y retrasar el tiempo de inicialización del gráfico de conocimiento. El equipo de desarrollo también reconoció posteriormente estos errores y está resolviendo gradualmente los problemas del código mediante la colaboración de la comunidad.

Vibe Coding de Milla Jovovich es genial; el enfoque de marketing no

Sobre el proyecto MemPalace, un usuario de Hacker News, darkhanakh, sacó esta conclusión: MemPalace da la sensación de OpenClaw, es decir, manipular artificialmente los resultados del benchmark para que se vean impecables, y luego empaquetarlo como si fuera algún gran avance para hacer marketing.

Considera que la tecnología subyacente de MemPalace quizá sí sea interesante, pero dado que el método de prueba tiene este tipo de fallas, y aun así se anuncia con el lema de “la puntuación más alta jamás publicada” para promocionarlo, no parece apropiado del todo. “Pero, sobre que Milla Jovovich esté jugando Vibe Coding, la verdad es que, creo, igual es bastante genial.”

Lectura adicional:
¡La IA para escribir programas falla! La app “cazador de alimentos” de productos de tienda con fecha de caducidad genera problemas de ciberseguridad; el GPS en casa queda totalmente expuesto

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios