¿Mila Jovavika Vicki lo hizo con IA para crear un “proyecto de sobresaliente”? Pruebas de desarrolladores: ¿es realmente de calidad o es una exageración y puro bombo publicitario?

El sistema de memoria con IA MemPalace, desarrollado con participación de Milla Jovovich, afirmó haber obtenido puntuaciones perfectas en las pruebas y se hizo viral, pero la comunidad lo denunció por presunta trampa en las pruebas y desinformación de datos. Las pruebas en condiciones reales revelaron que el impacto estaba exagerado y que había numerosos errores; el equipo ya reconoció las deficiencias y trabaja en la corrección.

Milla Jovovich crea un AI Palace de memoria, atrayendo la atención del público

Ayer (4/7), hubo una gran noticia en el sector de la IA: la actriz de Hollywood Milla Jovovich, famosa por ‘Resident Evil’ y ‘El quinto elemento’, junto con el desarrollador Ben Sigman, usaron Claude Code para crear el sistema de memoria con IA de código abierto “MemPalace”.

Durante un tiempo, se difundió ampliamente la afirmación de “una estrella de Hollywood que cruza de industria y logra un proyecto con puntuación perfecta”. Hasta ahora, MemPalace también ha conseguido más de 20k estrellas en GitHub, pero pronto surgieron dudas por parte de la comunidad de desarrolladores: ¿de verdad hay sustancia o es solo una exageración promocional?

Primero, veamos la motivación detrás del nacimiento de MemPalace. La documentación oficial indica que se busca resolver la limitación de que, actualmente, en los sistemas de IA, el contenido de las conversaciones con la IA, los procesos de toma de decisiones y las discusiones sobre la arquitectura normalmente desaparecen después de finalizar una sesión de trabajo, lo que provoca la pérdida del trabajo de meses, es decir, caida a cero.

Para resolver este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos: organiza la información de manera explícita en alas correspondientes a personal o proyectos, y también en estructuras de distintos niveles como pasillos, habitaciones y cajones, manteniendo el texto original de la conversación para la futura búsqueda semántica.

El equipo de desarrollo afirma que, en el punto de referencia de evaluación de memoria a largo plazo LongMemEval, MemPalace obtuvo un 100% perfecto, y además alcanzó una precisión del 96,6% sin llamar a ninguna API externa. Asimismo, afirma que puede ejecutarse completamente en local, sin necesidad de suscribirse a servicios en la nube, y que incorpora el supuesto sistema dialectal AAAK capaz de lograr una compresión sin pérdida 30 veces mayor.

Fuente de la imagen: GitHub La estrella de cine de Hollywood Milla Jovovich crea un AI Palace de memoria, atrayendo la atención del público

Competidores y comunidad dudan a la vez: métodos de prueba y fallas en la promoción

Sin embargo, el rendimiento de MemPalace con puntuación perfecta en LongMemEval se ganó rápidamente las dudas de competidores.

PenfieldLabs, que también fabrica sistemas de memoria con IA, señaló que el supuesto logro de MemPalace con puntuación perfecta en el conjunto de datos LoCoMo es matemáticamente imposible, porque las respuestas estándar de ese conjunto de datos ya contienen 99 errores.

Tras analizarlo, PenfieldLabs descubrió que el resultado del 100% de MemPalace proviene de configurar la cantidad de recuperaciones en 50 veces, pero el número máximo de turnos en las conversaciones del conjunto de prueba es solo de 32; esto significa que el sistema salta directamente la fase de recuperación y entrega todo el conjunto de datos al modelo de IA para que lo lea.

Con respecto al resultado del 100% en LongMemEval, se descubrió que el equipo de desarrollo había elegido 3 problemas específicos en los que se concentraban los errores durante el desarrollo, escribiendo un código de reparación exclusivo para ellos, lo que despierta sospechas de trampas dirigidas al conjunto de prueba.

Fuente de la imagen: Reddit PenfieldLabs, competidor, señaló que es matemáticamente imposible que MemPalace obtenga puntuación perfecta en el conjunto de datos LoCoMo

Pruebas reales de usuarios de GitHub: el benchmark tiene componentes de desinformación

El usuario de GitHub hugooconnor comentó después de probarlo, afirmando que, aunque MemPalace asegura hasta un 96,6% de precisión de recuperación, en realidad no utiliza la arquitectura de “palacio de memoria” promocionada por MemPalace. hugooconnor dijo que sus pruebas simplemente llamaron la función predeterminada de la base de datos subyacente ChromaDB, sin involucrar ninguna lógica de clasificación como la de alas, habitaciones o cajones que destaca el proyecto.

Después de las pruebas, hugooconnor descubrió que cuando el sistema realmente activa la lógica de clasificación exclusiva de estos palacios de memoria, el rendimiento de recuperación en realidad empeora. Por ejemplo, en el modo de habitaciones, la precisión baja a 89,4%, y al activar la tecnología de compresión AAAK, la precisión cae aún más a 84,2%; ambos resultados son inferiores al rendimiento de la base de datos predeterminada.

hugooconnor también criticó los métodos de prueba: el entorno de pruebas de MemPalace reduce deliberadamente el rango de recuperación de cada pregunta a alrededor de 50 turnos de conversación, haciendo que encontrar respuestas en un conjunto de datos de tamaño tan pequeño sea demasiado sencillo.

Si se amplía el rango a más de 19.000 turnos de conversación en escenarios reales, la precisión de la búsqueda tradicional por palabras clave cae a un 30%, lo que indica que la forma de prueba actual de MemPalace oculta la verdadera dificultad de la búsqueda.

Fuente de la imagen: GitHub Un usuario de GitHub probó en realidad y señaló que el benchmark de MemPalace contiene componentes de desinformación

Al mismo tiempo, aunque el equipo de desarrollo ya publicó una declaración de corrección, admitiendo que la tecnología AAAK efectivamente se valida como compresión con pérdidas y prometiendo ajustar la documentación y el diseño del sistema en función de las críticas severas de la comunidad, el documento principal de descripción del proyecto aún conserva múltiples afirmaciones exageradas sin corregir, incluyendo el supuesto de compresión sin pérdida 30 veces mayor y la mejora del 34% en recuperación, y además las tablas comparativas con otros competidores también carecen por completo de fuentes.

El código fuente de MemPalace enfrenta múltiples Bugs

A medida que más y más desarrolladores descargan las pruebas, en la plataforma GitHub han aparecido numerosas reportes de bugs sobre el código fuente de MemPalace.

El usuario cktang88 enumera varias deficiencias graves, incluyendo que los comandos de compresión no pueden ejecutarse y provocan que el sistema se bloquee, errores en la lógica del cálculo del número de palabras del resumen, y datos estadísticos inexactos al excavar habitaciones, además de que el servidor carga en memoria toda la información interpretada en cada llamada, generando un problema serio de consumo de recursos.

Otros problemas señalados también incluyen que el sistema inserta de forma forzada los nombres de familiares del desarrollador en el archivo de configuración predeterminado, y que existe un límite máximo forzado de visualización de 10k registros al consultar el estado.

Ante estos problemas, la comunidad de código abierto ya ha comenzado a reparar de forma activa. El usuario adv3nt3 presentó múltiples solicitudes de reparación, incluyendo corregir los datos estadísticos de excavación, eliminar los nombres predeterminados de familiares y retrasar el tiempo de inicialización del gráfico de conocimiento. El equipo de desarrollo posteriormente también reconoció estos errores y está resolviendo gradualmente los problemas del código mediante la colaboración con la comunidad.

Milla Jovovich Vibe Coding es genial, la estrategia de marketing no

Para el proyecto MemPalace, un usuario de Hacker News, darkhanakh, llegó a la siguiente conclusión: MemPalace transmite una sensación de déjà vu de OpenClaw, es decir, manipular artificialmente los resultados de los benchmark para que parezcan impecables, y luego empaquetarlo para venderlo como algún tipo de gran avance.

Él considera que la tecnología subyacente de MemPalace tal vez sí sea interesante, pero dado que el método de prueba tiene este tipo de fallas, además de presumir el supuesto “mayor puntaje público de la historia” para promocionarlo, no le parece apropiado. “Pero, bueno, que Milla Jovovich esté jugando a Vibe Coding, creo que igual es bastante guay.”

Lectura adicional:
¡La IA que escribe código sale mal! La app del “Cazador de desperdicios” para productos con fecha en tiendas de conveniencia explota problemas de seguridad de la información; el GPS en casa va al descubierto por completo

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios