Система AI-пам’яті MemPalace, у розробці якої брала участь Мілла Йовович Вікі, заявила, що тести були здані на ідеальний бал і через це стала вірусною в соцмережах, але її швидко вигнали з обговорень за звинуваченнями в шахрайстві під час тестування та введенні в оману даними. Перевірка виявила, що ефективність перебільшена і є багато помилок; команда визнала недоліки та вже працює над їх виправленням.
Учора (4/7) в колі AI була велика новина: голлівудська акторка Мілла Йовович (Milla Jovovich), відома за «Оселя зла» та «П’ятий елемент», разом із розробником Ben Sigman використали Claude Code для допоміжної розробки відкритої AI-системи пам’яті «MemPalace».
Утім, твердження «голлівудська зірка знімає межі й робить проєкт на ідеальний бал» швидко поширилося, і MemPalace станом на сьогодні на GitHub теж має понад 20 тис. зірок, але дуже швидко це викликало сумніви в спільноті розробників: це справді щось вартісне чи просто піар?
Спершу розповімо про мотивацію появи MemPalace. У офіційній документації сказано, що система покликана вирішити проблему, коли вживані AI-системи зникають після робочого сеансу: вміст розмов із AI, процеси ухвалення рішень і обговорення архітектури зазвичай зникають після завершення роботи, через що місяці праці втрачаються.
Щоб вирішити цю проблему, MemPalace використовує просторову архітектуру для зберігання пам’яті: інформація чітко групується у відповідні «крила» для людей або проєктів, а також у різні рівні структури — коридори, кімнати й шухляди — з подальшим збереженням оригіналу діалогів для наступного семантичного пошуку.
Команда розробників стверджує, що MemPalace отримала 100% ідеальний результат у довготривалому оціночному базисі пам’яті LongMemEval, і водночас досягла 96.6% точності без виклику будь-яких зовнішніх API, а також може повністю працювати локально, не потребує підписки на хмарні сервіси, і оснащена діалектною системою AAAK, яка, як заявляється, здатна забезпечити 30-кратне без втрат стиснення.
Джерело зображення: GitHub Голлівудська зірка Мілла Йовович створює AI-палац пам’яті, що привертає увагу ззовні
Втім, результат MemPalace із LongMemEval на ідеальний бал дуже швидко викликав запитання з боку колег.
PenfieldLabs — компанія, яка також займається створенням AI-систем пам’яті — вказала, що заява MemPalace про ідеальний результат у наборі даних LoCoMo математично неможлива, бо в цьому наборі стандартні відповіді вже самі містять 99 помилок.
Провівши аналіз, PenfieldLabs з’ясувала, що 100% результат MemPalace походить від встановлення кількості запитів на рівні 50 разів, тоді як найвищий рівень кількості діалогових етапів у тестовому наборі даних становить лише 32, що означає: система фактично обминає етап пошуку і передає всі дані AI-моделі для читання.
Щодо 100% результату LongMemEval, з’ясувалося, що команда розробників припустилася помилок у трьох конкретних питаннях, зосереджених на розробці, написала для них окремі виправлювальні фрагменти коду, що створює підозри у підгонці під шахрайство на тестовому наборі.
Джерело зображення: Reddit Колега PenfieldLabs вказує, що MemPalace заявляє ідеальний результат у наборі даних LoCoMo, але математично це неможливо
Користувач GitHub hugooconnor після перевірки залишив коментар: MemPalace заявляє точність пошуку аж 96.6%, але насправді в застосунку взагалі не використовується архітектура «палацу пам’яті», яку вона рекламувала. hugooconnor стверджує, що їхній тест просто викликав стандартні можливості нижчого рівня бази даних ChromaDB і не стосувався будь-якої логіки класифікації, на якій наполягав проєкт, зокрема «крила», «кімнати» або «шухляди».
Після тестування hugooconnor виявив, що коли система насправді вмикає власну логіку класифікації цих «палаців пам’яті», результат пошуку навпаки погіршується. Наприклад, у режимі «кімнати» точність падає до 89.4%, а після вмикання технології стиснення AAAK точність ще знижується до 84.2%; в обох випадках це нижче, ніж показує стандартна робота бази даних.
hugooconnor також розкритикував методику тестування: тестове середовище MemPalace навмисно звужує діапазон пошуку для кожної проблеми приблизно до 50 діалогових етапів, тож знаходити відповіді в дуже малій базі даних надто легко.
Якщо розширити діапазон до понад 19,000 діалогових етапів у реальному сценарії, точність традиційного пошуку за ключовими словами падає до 30%, що свідчить: поточний спосіб тестування MemPalace приховує реальну складність пошуку.
Джерело зображення: GitHub Дослідження користувача GitHub показує, що в базовому тестуванні MemPalace є складові введення в оману
Паралельно, хоча команда розробників опублікувала виправне повідомлення та визнала, що технологія AAAK справді верифікується як стиснення з втратами, і пообіцяла скоригувати документацію та дизайн системи відповідно до суворої критики спільноти, головний опис проєкту досі зберігає багато недоопрацьованих перебільшень: зокрема твердження про 30-кратне без втрат стиснення та 34% підвищення точності пошуку, а також порівняльні графіки з іншими конкурентами, які не мають жодного джерела чи посилань.
Через те, що все більше розробників завантажують тести, на платформі GitHub з’явилося багато повідомлень про Bug у вихідному коді MemPalace.
Користувач cktang88 перерахував низку серйозних недоліків, включно з тим, що команда стиснення не працює й спричиняє падіння системи, помилкою в логіці підрахунку кількості слів у підсумку, неточними статистичними даними щодо «витягування кімнат», а також тим, що сервер під час кожного виклику завантажує всі інтерпретаційні дані в пам’ять, створюючи серйозну проблему з ресурсоспоживанням.
Серед інших вказаних проблем — те, що система жорстко записує імена членів сім’ї розробника в налаштування за замовчуванням, а також наявність примусового верхнього обмеження на відображення під час запиту стану для 10k записів даних.
Для вирішення цих проблем відкрита спільнота вже почала активно виправляти. Користувач adv3nt3 подав багатозапитівна виправлення, зокрема виправлення статистичних даних щодо «витягування», видалення наперед заданих назв членів сім’ї, а також відкладення часу ініціалізації knowledge graph. У подальшому команда розробників також визнала ці помилки й разом із спільнотою поступово вирішує проблеми в коді.
Щодо проєкту MemPalace, користувач Hacker News darkhanakh зробив висновок: MemPalace створює враження, ніби це схоже на OpenClaw, тобто штучне маніпулювання результатами базового тестування (benchmark), щоб вони виглядали бездоганно, а потім це пакують як якусь велику проривну новину для просування.
Він вважає, що базова технологія MemPalace, можливо, справді цікава, але за наявності таких недоліків у методиці тестування ще й робити акцент на «найвищому опублікованому результаті в історії» для реклами — це, м’яко кажучи, недоречно. «Але, щодо того, що Мілла Йовович грається в Vibe Coding — я думаю, це все ж доволі круто».
Додаткове читання:
AI пише код і виходить казус! Проблеми з кібербезпекою в застосунку для «惜食獵人» з терміном придатності в магазині, GPS у домі повністю «голяка» біжить