Мірала Джова Вікі за допомогою AI зробила «проєкт на відмінно»? Розробники протестували: це справді якісно чи перебільшене розкручування?

AI-система пам’яті MemPalace, розроблена за участю Міли Джовович Вікі, заявляє про тест на 100% і швидко стала вірусною, однак спільнота її викрила: тест нібито містить шахрайство та вводить в оману дані. Під час незалежної перевірки з’ясувалося, що ефект завищено, а також є багато помилок. Команда вже визнала недоліки та працює над виправленням.

Міла Джовович Вікі створює AI Палац пам’яті, що привертає увагу ззовні

Учора (4/7) в AI-спільноті сталася велика новина: голлівудська акторка Міла Джовович (Milla Jovovich), відома за «Оселя зла» та «П’ятий елемент», разом із розробником Ben Sigman використала Claude Code для допоміжної розробки «MemPalace» — відкритої AI-системи пам’яті.

Певний час широко поширювалася думка про «голлівудську зірку, яка на межі індустрій зробила проєкт на відмінно», і станом на сьогодні MemPalace на GitHub уже має понад 20 тисяч зірок, але дуже швидко це викликало сумніви в середовищі розробників: це справді щось вартісне чи просто розкрутка?

Спершу варто пояснити, що стало мотивом створення MemPalace. Офіційна документація стверджує, що система мала вирішити проблему: нинішні AI-системи, зокрема контент розмов користувачів з AI, процес прийняття рішень і дискусії щодо архітектури, зазвичай зникають після завершення робочої сесії, через що місяці зусиль падають до нуля.

Щоб розв’язати цю проблему, MemPalace використовує просторову архітектуру для зберігання пам’яті: інформацію чітко групують за «крилами» з роллю персоналу або проєктів, а також за різними рівнями структури — коридорами, кімнатами та шухлядами — зберігаючи тексти діалогів для подальшого семантичного пошуку.

Команда розробників заявляє, що MemPalace отримує 100% у довготривалій оцінці пам’яті LongMemEval, а також досягає точності 96.6% без виклику будь-яких зовнішніх API. Крім того, її повністю можна запустити локально, без потреби підписки на хмарні сервіси, і вона має вбудовану заявлену діалектну систему AAAK, яка нібито забезпечує 30-кратне безпомилкове (без втрат) стискання.

Джерело зображення: GitHub Міла Джовович, голлівудська зірка, створює AI Палац пам’яті, що привертає увагу ззовні

Підключили й колег, і спільноту для спільної критики: сумнівні методи тестування та проблеми в промо

Втім, результат MemPalace із нібито повним балом у LongMemEval дуже швидко викликав сумніви серед колег.

PenfieldLabs — компанія, що теж створює AI-системи пам’яті, — вказала: MemPalace нібито отримала повний бал у наборі даних LoCoMo, що математично неможливо, адже стандартні правильні відповіді цього датасету самі містять 99 помилок.

Після аналізу PenfieldLabs з’ясувала, що 100% результат MemPalace походить від встановлення кількості звернень (retrieval) на 50 разів, тоді як у тестовому наборі кількість найвищих рівнів діалогів становить лише 32. Це означає, що система напряму обходить етап пошуку (retrieval) і передає всі дані AI-моделі для читання.

Щодо 100% результату LongMemEval: розробників викрили у тому, що вони під час розробки допустили помилки в 3 конкретних питаннях, написали під них спеціальні коди виправлення, і це виглядає як натяк на шахрайство на тестовому сеті.

Джерело зображення: Reddit Колеги PenfieldLabs вказують, що MemPalace нібито отримала повний бал у LoCoMo, що математично неможливо

Незалежне тестування на GitHub: базові тести мають складові, що вводять в оману

Користувач GitHub hugooconnor після власної перевірки написав, що MemPalace заявляє про точність пошуку до 96.6%, але на практиці вона взагалі не використовувала архітектуру палацу пам’яті, яку рекламує. hugooconnor стверджує, що їхній тест просто викликав стандартні можливості базового сховища даних ChromaDB і зовсім не стосувався логіки класифікації, яку підкреслює проєкт — з «крилами», «кімнатами» чи «шухлядами».

Після тесту hugooconnor виявив: коли система справді вмикає ці власні логіки класифікації палаців пам’яті, показники пошуку погіршуються. Наприклад, для режиму «кімнати» точність падає до 89.4%, а після ввімкнення технології стиснення AAAK точність ще знижується до 84.2% — обидва значення нижчі за показники стандартної бази даних.

hugooconnor також розкритикував методологію тестування: тестове середовище MemPalace навмисно звужувало «діапазон пошуку» для кожного питання приблизно до 50 етапів діалогу. Шукати відповідь у такій малій базі даних надто просто.

Якщо ж розширити діапазон до більш ніж 19,000 етапів діалогу у реальних сценаріях, точність традиційного пошуку за ключовими словами падає до 30%, що демонструє: нинішній підхід до тестування MemPalace приховує реальну складність пошуку.

Джерело зображення: GitHub Незалежне тестування на GitHub: базові тести MemPalace містять компоненти, що вводять в оману

Крім того, хоча команда розробників уже опублікувала заяву про виправлення та визнала, що технологія AAAK справді є стисканням із втратами, і пообіцяла, що відповідно до суворої критики спільноти внесе корективи в документацію та дизайн системи, головний опис проєкту все одно зберігає багато недофіксованих перебільшень. Серед них — твердження про 30-кратне безпомилкове (без втрат) стискання та 34% приросту пошуку, а також порівняльні графіки з іншими конкурентами, які повністю позбавлені посилань на джерела.

Код MemPalace стикається з багатьма багами

Оскільки дедалі більше розробників завантажують тести, на платформі GitHub з’явилося багато повідомлень про баги в початковому коді MemPalace.

Користувач cktang88 перерахував кілька серйозних недоліків. Серед них: команди стискання не працюють і призводять до падіння системи, в логіці підрахунку кількості слів у резюме є помилки, а статистика щодо «викопування кімнат» є неточною. Також сервер під час кожного виклику завантажує в пам’ять усі інтерпретаційні дані, що створює серйозну проблему витрат ресурсів.

Інші вказані проблеми також включають те, що система примусово записує імена членів сім’ї розробника в налаштування за замовчуванням, а під час перевірки статусу існує примусове обмеження на відображення 10,000 записів даних.

Для вирішення цих питань відкрита спільнота вже почала активно виправляти. Користувач adv3nt3 подав кільказапитівна виправлення, що включають корекцію статистики видобування (викопування), видалення імені члена сім’ї за замовчуванням і відтермінування часу ініціалізації знань графа (knowledge graph). У подальшому команда розробників також визнала ці помилки та працює над поступовим розв’язанням проблем у коді завдяки співпраці з спільнотою.

Vibe Coding від Міли Джовович — круто, а маркетинг — не дуже

Щодо проєкту MemPalace, користувач Hacker News darkhanakh зробив такий висновок: MemPalace створює відчуття OpenClaw, тобто штучно маніпулюють результатами базового тесту (benchmark), щоб він виглядав ідеальним, а потім це упаковують як якийсь великий прорив і просувають у маркетингу.

Він вважає, що базова технологія MemPalace, можливо, справді має цікаві моменти, але за умов, коли в методиці тестування є такі дефекти, і при цьому ще й рекламувати все як «найвищий публічний бал у історії», це виглядає недоречно. «Але, як на мене, те, що Міла Джовович грає у Vibe Coding, — все одно доволі круто.»

Додаткове читання:
AI пише код і наробив біди! Проблема з кібербезпекою у застосунку «Схоплювач харчових відходів» (додаток на прострочені товари в мережі супермаркетів), домашній GPS «влаштував стриптиз»

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів