AI-система памяти MemPalace, разработанная Мила Джовович Вичкич, заявила о тесте на максимальный балл и быстро стала популярной, но сообщество обвинило её в читерстве на тестах и введении в заблуждение данными. Практическая проверка показала, что эффект преувеличен и присутствует множество ошибок; команда признала недостатки и уже работает над исправлениями.
Вчера (4/7) в AI-сообществе случилось крупное событие: голливудская актриса Мила Джовович (известная по «Обители зла» и «Пятому элементу»), совместно с разработчиком Ben Sigman с помощью Claude Code помогла создать «MemPalace» — open-source систему AI-памяти.
Внезапно широко распространилась версия «голливудская суперзвезда из другой сферы сделала проект на идеальный балл», и к настоящему моменту MemPalace на GitHub также набрала более 20k звезд, но очень быстро разработческое сообщество начало сомневаться: правда ли там есть что-то стоящее или это всего лишь хайп?
Сначала о мотивации появления MemPalace: в официальной документации говорится, что система призвана решить проблему, когда содержимое диалогов пользователей с AI, процессы принятия решений и обсуждения архитектуры обычно исчезают после завершения рабочей сессии, что приводит к «падению до нуля» месячных усилий.
Чтобы решить эту проблему, MemPalace использует пространственную архитектуру для хранения памяти: информация четко классифицируется в крылья, представляющие персоналии или проекты, а также в структуре разных уровней — коридоры, комнаты и ящики — при этом исходный текст диалога сохраняется для последующего семантического поиска.
Разработчики утверждают, что MemPalace получила 100% идеальный результат в эталоне долгосрочной памяти LongMemEval, и при этом достигла точности 96,6% без вызова любых внешних API, а также может полностью работать локально, не требуя подписки на облачные сервисы, и оснащена заявленной AAAK-диалектной системой, которая якобы позволяет добиться 30-кратного без потерь сжатия.
Источник изображения: GitHub Голливудская звезда Мила Джовович Вичкич создала AI-памятный дворец, вызвав интерес извне
Но результаты, якобы полученные MemPalace на LongMemEval на максимум, очень быстро вызвали сомнения у коллег.
PenfieldLabs — компания, также занимающаяся созданием AI-систем памяти, — указала, что MemPalace, якобы получившая идеальный балл на датасете LoCoMo, математически не могла этого достичь, потому что сами стандартные ответы в этом датасете содержат 99 ошибок.
В ходе анализа PenfieldLabs выяснили, что 100% результат MemPalace получен за счет установки числа обращений (retrieval) равным 50, но наивысший уровень этапов диалога в тестовом датасете составляет всего 32 раза, а это означает, что система напрямую обходит стадию retrieval и отдает все данные на чтение AI-модели.
По поводу 100% результата в LongMemEval обнаружили, что разработчики имели дело с тремя конкретными ошибочными вопросами, по которым была написана специальная исправляющая программа; при этом есть подозрение, что выполнено читерство на тестовом наборе.
Источник изображения: Reddit коллеги PenfieldLabs указали, что MemPalace, якобы получившая идеальный балл на датасете LoCoMo, математически не могла этого достичь
Пользователь GitHub hugooconnor после проверки оставил комментарий: MemPalace заявляет точность retrieval до 96,6%, но на деле она вообще не использует архитектуру памятного дворца, которую продвигает. hugooconnor утверждает, что их тест просто вызывает стандартные функции базового хранилища данных ChromaDB и вообще не затрагивает логики классификации, подчеркиваемой в проекте — крылья, комнаты или ящики.
После теста hugooconnor обнаружил, что когда система действительно включает эти «дворцовые» фирменные логики классификации, результаты retrieval, напротив, ухудшаются. Например, в режиме комнаты точность падает до 89,4%, а при включении технологии сжатия AAAK точность еще ниже — до 84,2%; оба значения оказываются ниже, чем у работы с настройками базовой базы данных.
hugooconnor также раскритиковал метод тестирования: среда MemPalace намеренно сужает retrieval-диапазон для каждого вопроса примерно до 50 этапов диалога, и искать ответы в слишком маленькой выборке оказывается слишком просто.
Если расширить диапазон до более чем 19 000 этапов диалога в реальном сценарии, точность традиционного поиска по ключевым словам падает до 30%, что показывает: текущий способ тестирования MemPalace скрывает реальные проблемы поиска.
Источник изображения: GitHub GitHub-пользовательская проверка, MemPalace бенчмарк содержит элементы введения в заблуждение
При этом, хотя разработчики уже опубликовали исправляющее заявление и признали, что технология AAAK действительно прошла верификацию как сжатие с потерями, и пообещали скорректировать документацию и дизайн системы в соответствии с жесткой критикой со стороны сообщества, основной описательный документ проекта по-прежнему сохраняет множество не исправленных преувеличений: в том числе заявления о 30-кратном без потерь сжатии и приросте retrieval на 34%, а также сравнительные графики с другими конкурентами полностью без указания источников.
По мере того как всё больше разработчиков скачивают тесты, на платформе GitHub появляется множество сообщений о Bug в исходном коде MemPalace.
Пользователь cktang88 перечислил несколько серьезных недостатков, включая то, что сжимающая команда не работает и приводит к сбою системы, ошибку в логике подсчета количества слов в аннотациях, а также неточность статистических данных при «копании» комнат, и то, что сервер при каждом вызове загружает все интерпретационные данные в память, создавая серьезную проблему чрезмерного расхода ресурсов.
Другие указанные проблемы включают, например, что система принудительно записывает имена членов семьи разработчика в стандартный конфигурационный файл, а также наличие жесткого ограничения в показе при запросе статуса — на уровне 10k записей.
Для решения этих проблем open-source сообщество уже начало активно заниматься исправлениями. Пользователь adv3nt3 подал несколькозапросовна исправления, включая правку статистических данных «копания», удаление заданных по умолчанию имен членов семьи и перенос (отсрочку) времени инициализации при запуске знаний-графа.** Позднее и разработчики признали эти ошибки и продолжают поэтапно исправлять код в рамках взаимодействия с сообществом.
Что касается проекта MemPalace, пользователь Hacker News darkhanakh сделал такой вывод: у MemPalace возникает ощущение OpenClaw — то есть результаты бенчмарка искусственно подгоняются так, чтобы выглядели безупречно, а затем их упаковывают и продают как какой-то крупный прорыв.
Он считает, что базовая технология MemPalace, возможно, действительно может быть интересной, но при таких изъямах в методологии тестирования и при этом еще и продвигается идея «самого высокого публичного результата за всю историю» — это, по меньшей мере, не совсем уместно: «Но, правда, насчет того, что Мила Джовович играет в Vibe Coding — я думаю, это всё равно довольно круто».
Дополнительное чтение:
AI пишет код и снова косячит! Проблемы кибербезопасности в приложении «惜食獵人» (перекатный товар с истекающим сроком годности), GPS дома — полностью без защиты