AI-система пам’яті MemPalace, у розробці якої брала участь Міла Джовович Віккі, заявляє, що її тести виконані на 100% і швидко стала вірусною, але спільнота швидко викрила підозри в шахрайстві під час тестування та оманливих даних. Під час практичної перевірки з’ясувалося, що ефект перебільшений і є багато помилок; команда вже визнала недоліки та працює над їх виправленням.
Учора (4/7) у колі AI стався великий інфопривід: голлівудська акторка Міла Джовович (Milla Jovovich), відома за фільмами «Оселя зла» та «П’ятий елемент», разом із розробником Ben Sigman використала Claude Code для створення «MemPalace» — відкритої AI-системи пам’яті.
Одразу ж поширилася теза: «голлівудська зірка знімає хрест-навхрест і робить проєкт на ідеальний бал», і до цього дня MemPalace на GitHub набрала понад 20 000 зірок, але дуже швидко це викликало сумніви в спільноті розробників: це справді щось вартісне чи просто піар?
Спочатку розповімо про мотивацію появи MemPalace: у офіційній документації йдеться, що система має на меті вирішити проблему, коли користувацькі взаємодії з AI, зміст діалогів, процеси ухвалення рішень і обговорення архітектури зазвичай зникають після завершення робочого етапу, через що обмеження «праця за кілька місяців падає до нуля — зникає».
Для вирішення цієї проблеми MemPalace використовує просторову архітектуру для зберігання пам’яті: інформацію чітко групують за зонами крил, що представляють персонал або проєкти, а також за різними рівнями структури — коридорами, кімнатами та шухлядами — зберігаючи оригінальний текст діалогів для подальшого семантичного пошуку.
Команда розробників заявляє, що MemPalace отримала 100% у довготривалому оціночному критерії пам’яті LongMemEval, а також досягла точності 96,6% без виклику будь-яких зовнішніх API; крім того, система може повністю працювати локально, не потребує підписки на хмарні сервіси та містить «AAAK»-діалектну систему, яка нібито здатна забезпечувати 30-кратне безповоротне стиснення.
Джерело зображення: GitHub Голлівудська кінозірка Міла Джовович створила AI-палац пам’яті, що привернув увагу ззовні
Втім, результат MemPalace на LongMemEval на 100% дуже швидко викликав критику в колах колег.
PenfieldLabs, яка теж розробляє AI-системи пам’яті, зазначає, що те, ніби MemPalace отримала повний бал у датасеті LoCoMo, математично неможливо, оскільки стандартні відповіді в цьому датасеті самі містять 99 помилок.
Після аналізу PenfieldLabs з’ясувала, що 100% результат MemPalace походить від встановлення кількості звернень для пошуку на 50 разів, але максимальний рівень кількості етапів діалогу в тестовому датасеті становить лише 32. Це означає, що система напряму обходить етапи пошуку та віддає всі дані AI-моделі для читання.
Щодо 100% результату на LongMemEval, команду розробників викрили в тому, що вона зосередилася на 3 конкретних проблемах, у яких у розробці сталася помилка: вони написали спеціальний виправлювальний код, що створює підозри щодо шахрайства саме в тестовому наборі.
Джерело зображення: Reddit Колега PenfieldLabs зазначає, що MemPalace заявляє повний бал у датасеті LoCoMo, але це математично неможливо
Користувач GitHub hugooconnor після практичної перевірки залишив коментар: MemPalace заявляє аж 96,6% точності пошуку, але насправді вона зовсім не використовує архітектуру палацу пам’яті, яку рекламує. hugooconnor каже, що їхній тест просто викликає стандартні можливості базового сховища даних ChromaDB і зовсім не задіює логіку класифікації, на якій наголошує проєкт — зокрема крил, кімнат або шухляд.
Після тесту hugooconnor виявив, що коли система реально вмикає власну логіку класифікації палацу пам’яті, результат пошуку, навпаки, погіршується. Наприклад, у режимі «кімнати» точність падає до 89,4%, а після вмикання технології стиснення AAAK точність ще нижча — 84,2%; обидва значення нижчі за показники, які демонструє стандартна база даних.
hugooconnor також розкритикував методику тестування: у MemPalace тестове середовище навмисно звужує діапазон пошуку для кожного питання приблизно до 50 етапів діалогу, і на дуже невеликій колекції відповідей знаходити відповіді стає надто легко.
Якщо розширити діапазон до понад 19 000 етапів діалогу в реальному сценарії, точність звичайного пошуку за ключовими словами різко впаде до 30%, що свідчить: поточний спосіб тестування MemPalace приховує справжню складність пошуку.
Джерело зображення: GitHub Практична перевірка користувача GitHub, що виявила: базові тести MemPalace містять елементи, які вводять в оману
Одночасно, хоча команда розробників уже опублікувала заяву про виправлення, визнавши, що технологія AAAK справді перевірена як таке, що здійснює стиснення з втратами, і пообіцяла скоригувати документацію та дизайн системи відповідно до жорсткої критики спільноти, головний опис проєкту все ще зберігає кілька недовиправлених перебільшень. Сюди входять твердження про 30-кратне безповоротне стиснення та 34% приросту точності пошуку, а також порівняльні графіки з іншими конкурентами, які повністю позбавлені джерел.
Поки все більше розробників завантажують матеріали для тестування, на платформі GitHub з’являється багато повідомлень про Bug у вихідному коді MemPalace.
Користувач cktang88 навів низку серйозних недоліків: зокрема, стискувальна команда не працює та спричиняє падіння системи, логіка підрахунку кількості слів у резюме помилкова, статистика для «викопування» кімнати неточна, а також проблема з сервером: під час кожного виклику він завантажує всі дані інтерпретацій у пам’ять, через що виникає серйозна проблема надмірного споживання ресурсів.
Серед інших вказаних проблем — те, що система примусово вписує імена членів сім’ї розробника в налаштування за замовчуванням, а також наявний обов’язковий ліміт відображення, який під час запиту статусу показує лише до 10 000 записів даних.
Для вирішення цих проблем відкрита спільнота вже активно проводить виправлення. Користувач adv3nt3 подав кілька запитів на виправлення, зокрема виправив статистичні дані для «викопування», прибрав імена членів сім’ї, задані за замовчуванням, і відтермінував час ініціалізації знань-діаграми. У подальшому команда розробників також визнала ці помилки й поступово вирішує проблеми в коді в межах співпраці з спільнотою.
Щодо проєкту MemPalace користувач Hacker News darkhanakh зробив висновок: MemPalace створює відчуття, ніби це «OpenClaw», тобто як керовано маніпулюють результатами базових тестів (benchmark), щоб вони виглядали бездоганно, а потім це упаковують як якийсь значущий прорив для маркетингу.
Він вважає, що, хоча базова технологія MemPalace, можливо, справді має цікаві моменти, за умов, коли в методиці тестування є такі недоліки, ще й просувати це під гаслом «найвищий публічний бал в історії» — це не зовсім коректно, «але знаєте, Міла Джовович грає в Vibe Coding — я все одно думаю, що це досить круто».
Додаткове читання:
AI пише програму й виходить з ладу! Мобільний застосунок «Рятівник прострочених товарів» від мережі магазинів із простроченими товарами вибухнув проблемами з кібербезпекою, а GPS вдома пробігає голим наскрізь