Мірча Джовабі Вікі за допомогою ШІ створила «проєкт на відмінно»? Розробник протестував: справді є чим похвалитися чи це перебільшене розкручування?

CryptoCity

Система AI-пам’яті MemPalace, у розробці якої брала участь Мілла Йовович Вікі, заявила, що тести були здані на ідеальний бал і через це стала вірусною в соцмережах, але її швидко вигнали з обговорень за звинуваченнями в шахрайстві під час тестування та введенні в оману даними. Перевірка виявила, що ефективність перебільшена і є багато помилок; команда визнала недоліки та вже працює над їх виправленням.

Мілла Йовович Вікі створює AI-палац пам’яті, що привертає увагу ззовні

Учора (4/7) в колі AI була велика новина: голлівудська акторка Мілла Йовович (Milla Jovovich), відома за «Оселя зла» та «П’ятий елемент», разом із розробником Ben Sigman використали Claude Code для допоміжної розробки відкритої AI-системи пам’яті «MemPalace».

Утім, твердження «голлівудська зірка знімає межі й робить проєкт на ідеальний бал» швидко поширилося, і MemPalace станом на сьогодні на GitHub теж має понад 20 тис. зірок, але дуже швидко це викликало сумніви в спільноті розробників: це справді щось вартісне чи просто піар?

Спершу розповімо про мотивацію появи MemPalace. У офіційній документації сказано, що система покликана вирішити проблему, коли вживані AI-системи зникають після робочого сеансу: вміст розмов із AI, процеси ухвалення рішень і обговорення архітектури зазвичай зникають після завершення роботи, через що місяці праці втрачаються.

Щоб вирішити цю проблему, MemPalace використовує просторову архітектуру для зберігання пам’яті: інформація чітко групується у відповідні «крила» для людей або проєктів, а також у різні рівні структури — коридори, кімнати й шухляди — з подальшим збереженням оригіналу діалогів для наступного семантичного пошуку.

Команда розробників стверджує, що MemPalace отримала 100% ідеальний результат у довготривалому оціночному базисі пам’яті LongMemEval, і водночас досягла 96.6% точності без виклику будь-яких зовнішніх API, а також може повністю працювати локально, не потребує підписки на хмарні сервіси, і оснащена діалектною системою AAAK, яка, як заявляється, здатна забезпечити 30-кратне без втрат стиснення.

Джерело зображення: GitHub Голлівудська зірка Мілла Йовович створює AI-палац пам’яті, що привертає увагу ззовні

Колеги й спільнота одночасно критикують: проблеми в методиці тестування та рекламних матеріалах

Втім, результат MemPalace із LongMemEval на ідеальний бал дуже швидко викликав запитання з боку колег.

PenfieldLabs — компанія, яка також займається створенням AI-систем пам’яті — вказала, що заява MemPalace про ідеальний результат у наборі даних LoCoMo математично неможлива, бо в цьому наборі стандартні відповіді вже самі містять 99 помилок.

Провівши аналіз, PenfieldLabs з’ясувала, що 100% результат MemPalace походить від встановлення кількості запитів на рівні 50 разів, тоді як найвищий рівень кількості діалогових етапів у тестовому наборі даних становить лише 32, що означає: система фактично обминає етап пошуку і передає всі дані AI-моделі для читання.

Щодо 100% результату LongMemEval, з’ясувалося, що команда розробників припустилася помилок у трьох конкретних питаннях, зосереджених на розробці, написала для них окремі виправлювальні фрагменти коду, що створює підозри у підгонці під шахрайство на тестовому наборі.

Джерело зображення: Reddit Колега PenfieldLabs вказує, що MemPalace заявляє ідеальний результат у наборі даних LoCoMo, але математично це неможливо

Дослідження користувачів GitHub: в базових тестах є елементи введення в оману

Користувач GitHub hugooconnor після перевірки залишив коментар: MemPalace заявляє точність пошуку аж 96.6%, але насправді в застосунку взагалі не використовується архітектура «палацу пам’яті», яку вона рекламувала. hugooconnor стверджує, що їхній тест просто викликав стандартні можливості нижчого рівня бази даних ChromaDB і не стосувався будь-якої логіки класифікації, на якій наполягав проєкт, зокрема «крила», «кімнати» або «шухляди».

Після тестування hugooconnor виявив, що коли система насправді вмикає власну логіку класифікації цих «палаців пам’яті», результат пошуку навпаки погіршується. Наприклад, у режимі «кімнати» точність падає до 89.4%, а після вмикання технології стиснення AAAK точність ще знижується до 84.2%; в обох випадках це нижче, ніж показує стандартна робота бази даних.

hugooconnor також розкритикував методику тестування: тестове середовище MemPalace навмисно звужує діапазон пошуку для кожної проблеми приблизно до 50 діалогових етапів, тож знаходити відповіді в дуже малій базі даних надто легко.

Якщо розширити діапазон до понад 19,000 діалогових етапів у реальному сценарії, точність традиційного пошуку за ключовими словами падає до 30%, що свідчить: поточний спосіб тестування MemPalace приховує реальну складність пошуку.

Джерело зображення: GitHub Дослідження користувача GitHub показує, що в базовому тестуванні MemPalace є складові введення в оману

Паралельно, хоча команда розробників опублікувала виправне повідомлення та визнала, що технологія AAAK справді верифікується як стиснення з втратами, і пообіцяла скоригувати документацію та дизайн системи відповідно до суворої критики спільноти, головний опис проєкту досі зберігає багато недоопрацьованих перебільшень: зокрема твердження про 30-кратне без втрат стиснення та 34% підвищення точності пошуку, а також порівняльні графіки з іншими конкурентами, які не мають жодного джерела чи посилань.

Оригінальний код MemPalace стикається з багатьма Bug

Через те, що все більше розробників завантажують тести, на платформі GitHub з’явилося багато повідомлень про Bug у вихідному коді MemPalace.

Користувач cktang88 перерахував низку серйозних недоліків, включно з тим, що команда стиснення не працює й спричиняє падіння системи, помилкою в логіці підрахунку кількості слів у підсумку, неточними статистичними даними щодо «витягування кімнат», а також тим, що сервер під час кожного виклику завантажує всі інтерпретаційні дані в пам’ять, створюючи серйозну проблему з ресурсоспоживанням.

Серед інших вказаних проблем — те, що система жорстко записує імена членів сім’ї розробника в налаштування за замовчуванням, а також наявність примусового верхнього обмеження на відображення під час запиту стану для 10k записів даних.

Для вирішення цих проблем відкрита спільнота вже почала активно виправляти. Користувач adv3nt3 подав багатозапитівна виправлення, зокрема виправлення статистичних даних щодо «витягування», видалення наперед заданих назв членів сім’ї, а також відкладення часу ініціалізації knowledge graph. У подальшому команда розробників також визнала ці помилки й разом із спільнотою поступово вирішує проблеми в коді.

Vibe Coding від Мілли Йовович — це круто, а от маркетинг — ні

Щодо проєкту MemPalace, користувач Hacker News darkhanakh зробив висновок: MemPalace створює враження, ніби це схоже на OpenClaw, тобто штучне маніпулювання результатами базового тестування (benchmark), щоб вони виглядали бездоганно, а потім це пакують як якусь велику проривну новину для просування.

Він вважає, що базова технологія MemPalace, можливо, справді цікава, але за наявності таких недоліків у методиці тестування ще й робити акцент на «найвищому опублікованому результаті в історії» для реклами — це, м’яко кажучи, недоречно. «Але, щодо того, що Мілла Йовович грається в Vibe Coding — я думаю, це все ж доволі круто».

Додаткове читання:
AI пише код і виходить казус! Проблеми з кібербезпекою в застосунку для «惜食獵人» з терміном придатності в магазині, GPS у домі повністю «голяка» біжить

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів