Мира Дзёвова Вики использовала ИИ, чтобы создать «проект на 100 баллов»? Проверка от разработчиков: это действительно по делу или раздутый хайп?

AI-система памяти MemPalace, разработанная Мила Джовович Вичкич, заявила о тесте на максимальный балл и быстро стала популярной, но сообщество обвинило её в читерстве на тестах и введении в заблуждение данными. Практическая проверка показала, что эффект преувеличен и присутствует множество ошибок; команда признала недостатки и уже работает над исправлениями.

Мила Джовович Вичкич создала AI-памятьный дворец, вызвав интерес извне

Вчера (4/7) в AI-сообществе случилось крупное событие: голливудская актриса Мила Джовович (известная по «Обители зла» и «Пятому элементу»), совместно с разработчиком Ben Sigman с помощью Claude Code помогла создать «MemPalace» — open-source систему AI-памяти.

Внезапно широко распространилась версия «голливудская суперзвезда из другой сферы сделала проект на идеальный балл», и к настоящему моменту MemPalace на GitHub также набрала более 20k звезд, но очень быстро разработческое сообщество начало сомневаться: правда ли там есть что-то стоящее или это всего лишь хайп?

Сначала о мотивации появления MemPalace: в официальной документации говорится, что система призвана решить проблему, когда содержимое диалогов пользователей с AI, процессы принятия решений и обсуждения архитектуры обычно исчезают после завершения рабочей сессии, что приводит к «падению до нуля» месячных усилий.

Чтобы решить эту проблему, MemPalace использует пространственную архитектуру для хранения памяти: информация четко классифицируется в крылья, представляющие персоналии или проекты, а также в структуре разных уровней — коридоры, комнаты и ящики — при этом исходный текст диалога сохраняется для последующего семантического поиска.

Разработчики утверждают, что MemPalace получила 100% идеальный результат в эталоне долгосрочной памяти LongMemEval, и при этом достигла точности 96,6% без вызова любых внешних API, а также может полностью работать локально, не требуя подписки на облачные сервисы, и оснащена заявленной AAAK-диалектной системой, которая якобы позволяет добиться 30-кратного без потерь сжатия.

Источник изображения: GitHub Голливудская звезда Мила Джовович Вичкич создала AI-памятный дворец, вызвав интерес извне

Коллеги и сообщество одновременно задают вопросы, тестирование и продвижение с изъянами

Но результаты, якобы полученные MemPalace на LongMemEval на максимум, очень быстро вызвали сомнения у коллег.

PenfieldLabs — компания, также занимающаяся созданием AI-систем памяти, — указала, что MemPalace, якобы получившая идеальный балл на датасете LoCoMo, математически не могла этого достичь, потому что сами стандартные ответы в этом датасете содержат 99 ошибок.

В ходе анализа PenfieldLabs выяснили, что 100% результат MemPalace получен за счет установки числа обращений (retrieval) равным 50, но наивысший уровень этапов диалога в тестовом датасете составляет всего 32 раза, а это означает, что система напрямую обходит стадию retrieval и отдает все данные на чтение AI-модели.

По поводу 100% результата в LongMemEval обнаружили, что разработчики имели дело с тремя конкретными ошибочными вопросами, по которым была написана специальная исправляющая программа; при этом есть подозрение, что выполнено читерство на тестовом наборе.

Источник изображения: Reddit коллеги PenfieldLabs указали, что MemPalace, якобы получившая идеальный балл на датасете LoCoMo, математически не могла этого достичь

Проверка пользователями на GitHub: в бенчмарке есть элемент введения в заблуждение

Пользователь GitHub hugooconnor после проверки оставил комментарий: MemPalace заявляет точность retrieval до 96,6%, но на деле она вообще не использует архитектуру памятного дворца, которую продвигает. hugooconnor утверждает, что их тест просто вызывает стандартные функции базового хранилища данных ChromaDB и вообще не затрагивает логики классификации, подчеркиваемой в проекте — крылья, комнаты или ящики.

После теста hugooconnor обнаружил, что когда система действительно включает эти «дворцовые» фирменные логики классификации, результаты retrieval, напротив, ухудшаются. Например, в режиме комнаты точность падает до 89,4%, а при включении технологии сжатия AAAK точность еще ниже — до 84,2%; оба значения оказываются ниже, чем у работы с настройками базовой базы данных.

hugooconnor также раскритиковал метод тестирования: среда MemPalace намеренно сужает retrieval-диапазон для каждого вопроса примерно до 50 этапов диалога, и искать ответы в слишком маленькой выборке оказывается слишком просто.

Если расширить диапазон до более чем 19 000 этапов диалога в реальном сценарии, точность традиционного поиска по ключевым словам падает до 30%, что показывает: текущий способ тестирования MemPalace скрывает реальные проблемы поиска.

Источник изображения: GitHub GitHub-пользовательская проверка, MemPalace бенчмарк содержит элементы введения в заблуждение

При этом, хотя разработчики уже опубликовали исправляющее заявление и признали, что технология AAAK действительно прошла верификацию как сжатие с потерями, и пообещали скорректировать документацию и дизайн системы в соответствии с жесткой критикой со стороны сообщества, основной описательный документ проекта по-прежнему сохраняет множество не исправленных преувеличений: в том числе заявления о 30-кратном без потерь сжатии и приросте retrieval на 34%, а также сравнительные графики с другими конкурентами полностью без указания источников.

Исходный код MemPalace столкнулся с множеством Bug

По мере того как всё больше разработчиков скачивают тесты, на платформе GitHub появляется множество сообщений о Bug в исходном коде MemPalace.

Пользователь cktang88 перечислил несколько серьезных недостатков, включая то, что сжимающая команда не работает и приводит к сбою системы, ошибку в логике подсчета количества слов в аннотациях, а также неточность статистических данных при «копании» комнат, и то, что сервер при каждом вызове загружает все интерпретационные данные в память, создавая серьезную проблему чрезмерного расхода ресурсов.

Другие указанные проблемы включают, например, что система принудительно записывает имена членов семьи разработчика в стандартный конфигурационный файл, а также наличие жесткого ограничения в показе при запросе статуса — на уровне 10k записей.

Для решения этих проблем open-source сообщество уже начало активно заниматься исправлениями. Пользователь adv3nt3 подал несколькозапросовна исправления, включая правку статистических данных «копания», удаление заданных по умолчанию имен членов семьи и перенос (отсрочку) времени инициализации при запуске знаний-графа.** Позднее и разработчики признали эти ошибки и продолжают поэтапно исправлять код в рамках взаимодействия с сообществом.

Вайб-кодинг у Милы Джовович — крут, а маркетинговый подход — не крут

Что касается проекта MemPalace, пользователь Hacker News darkhanakh сделал такой вывод: у MemPalace возникает ощущение OpenClaw — то есть результаты бенчмарка искусственно подгоняются так, чтобы выглядели безупречно, а затем их упаковывают и продают как какой-то крупный прорыв.

Он считает, что базовая технология MemPalace, возможно, действительно может быть интересной, но при таких изъямах в методологии тестирования и при этом еще и продвигается идея «самого высокого публичного результата за всю историю» — это, по меньшей мере, не совсем уместно: «Но, правда, насчет того, что Мила Джовович играет в Vibe Coding — я думаю, это всё равно довольно круто».

Дополнительное чтение:
AI пишет код и снова косячит! Проблемы кибербезопасности в приложении «惜食獵人» (перекатный товар с истекающим сроком годности), GPS дома — полностью без защиты

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев