ミラジョヴァ・ヴィッキーはAIで「満点プロジェクト」を作ったのか?開発者が実測:本当に中身があるのか、それとも誇大な宣伝・煽りなのか?

ミラ・ジョヴォヴィッチが開発に参加したAIメモリーシステム「MemPalace」は、テストで満点を取って爆発的に話題になったが、コミュニティから「テストが不正で、データを誤認させている」と暴かれた。実際に検証すると効果は過大で、重大な誤りが大量に見つかり、チームは欠陥を認めて現在修正に取り組んでいる。

ミラ・ジョヴォヴィッチがAIメモリー宮殿を手がけ、注目を集める

昨日(4/7)AI界隈で大きなニュースがあった。『バイオハザード』『第5元素』で知られるハリウッド女優ミラ・ジョヴォヴィッチ(Milla Jovovich)が、開発者Ben SigmanとClaude Codeの補助を使って「MemPalace」というオープンソースのAIメモリーシステムを開発したという。

一気に「ハリウッドの大スターが異業種から満点プロジェクトを作り上げた」という説が広まった。MemPalaceはこれまでにGitHub上で2万スター以上を獲得しているが、すぐさま開発者コミュニティから疑問が投げかけられた。本当に実力があるのか、それとも宣伝(売り込み)なのか?

まずMemPalaceが生まれた動機について説明しよう。公式ドキュメントによると、現行のAIシステムでは、ユーザーとAIの会話内容、意思決定のプロセス、そしてアーキテクチャの議論が、作業セッション終了後に消えてしまい、そのせいで数か月の努力が ゼロまで落ちる 制限があるという。

この問題を解決するために、MemPalaceは空間構造を使って記憶を保存し、情報を明確に、担当者やプロジェクトを表す「翼区(ウィングエリア)」と、廊下・部屋・引き出しなどの異なる階層の構造に分類する。そして会話の原文を後続の意味検索のために保持する。

開発チームは、MemPalaceが長期記憶の評価基準LongMemEvalで100%の完璧な成績を獲得し、さらに外部APIを一切呼び出さずに96.6%の正確率を達成したと主張している。また、クラウドサービスのサブスクリプションは不要で、完全にローカルで動作でき、さらに「30倍のロスレス圧縮」まで到達できるとされるAAAKの方言システムも搭載している。

画像ソース:GitHub ハリウッドの映画スター、ミラ・ジョヴォヴィッチがAIメモリー宮殿を手がけ、注目を集める

同業とコミュニティが一斉に疑問視、テスト手法と宣伝に瑕疵

しかし、MemPalaceがLongMemEvalで満点を取ったという成績は、すぐに同業から疑念を招いた。

同じくAIメモリーシステムを制作しているPenfieldLabsは、MemPalaceがLoCoMoデータセットで満点を得たと主張しているが、数学的にありえないと指摘した。なぜなら、このデータセットの標準解答自体に99個の誤りが含まれているからだ。

PenfieldLabsの分析によると、MemPalaceの100%の成績は、検索回数を50回に設定したことによって生まれた一方で、テストデータセットの会話の最大段階数はわずか32回しかない。つまりシステムは検索段階をそのまま素通りして、すべてのデータをAIモデルに読み込ませている。

LongMemEvalでの100%の成績について、開発チームが「開発側で集中して出る」3つの特定の問題に対して修復用コードを作成していたことが発覚し、テストセットの不正(チート)を疑われている。

画像ソース:Reddit 同業PenfieldLabsは、MemPalaceがLoCoMoデータセットで満点を得たと主張したが、数学的にありえないと指摘している

GitHubユーザーが実地検証、ベンチマークにミスリード成分

GitHubユーザーのhugooconnorは、実検証の後にコメントし、MemPalaceが最大96.6%の検索精度を主張しているが、実際にはMemPalaceが掲げるメモリー宮殿のアーキテクチャをまったく使っていないと述べた。hugooconnorによると、彼らのテストは単に基盤となるデータベースChromaDBのデフォルト機能を呼び出しているだけで、プロジェクトが強調する翼区、部屋、引き出しといった分類ロジックは一切関与していないという。

hugooconnorのテストで判明したのは、システムが本当にこれらのメモリー宮殿専用の分類ロジックを有効にすると、逆に検索成績が悪化するということだ。たとえば部屋モードでは正確率が89.4%まで低下し、AAAK圧縮技術を有効にすると正確率はさらに84.2%まで落ち、どちらもデフォルトのデータベースの性能を下回った。

hugooconnorはまたテスト手法も批判した。MemPalaceのテスト環境は、各問題の検索範囲を意図的に約50の会話段階にまで縮小し、極小のサンプルDBの中で答えを探すのはあまりにも簡単すぎる、という。

検索範囲を実際の状況にある19,000以上の会話段階まで広げると、従来のキーワード検索の正確率は30%まで暴落するはずで、MemPalaceの現在のテスト方法は実際の検索の難しさを隠していることが示される。

画像ソース:GitHub GitHubユーザーが実地検証、MemPalaceのベンチマークにミスリード成分がある

同時に、開発チームが訂正声明をすでに出しており、AAAK技術は確かに「有損圧縮」として検証され、厳しいコミュニティの批判を踏まえてドキュメントとシステム設計を修正する約束もしているものの、プロジェクトのメインの説明ドキュメントはいまだに複数の未修正の誇大表現を残している。たとえば「30倍のロスレス圧縮」や「34%の検索向上」をうたっており、さらに他の競合相手との比較図表にも出典がまったく示されていない。

MemPalaceのソースコードは複数のBugに直面

より多くの開発者がテストをダウンロードするにつれ、現在GitHub上にはMemPalaceのソースコードに関する大量のBug報告が出ている。

ユーザーcktang88は、複数の重大な不備を挙げた。圧縮コマンドが動作せず、システムがクラッシュする、要約の文字数計算ロジックが誤っている、部屋を掘り起こす統計データが不正確、そしてサーバーが呼び出しのたびにすべての注釈データをメモリに読み込んでしまうため、深刻なリソース消費問題を引き起こすなど。

ほかにも指摘されている問題として、システムが開発者の家族メンバー名をデフォルト設定ファイルに強制的に書き込むことや、問い合わせステータス時に1万件データの強制表示上限が存在することがある。

こうした問題に対して、オープンソース・コミュニティはすでに積極的に修復を始めている。**ユーザーadv3nt3が複数の修復依頼を提出し、掘り起こしの統計データの修正、デフォルトの家族メンバー名の削除、知識グラフの初期化時間の遅延などを含んでいる。**開発チームもその後、これらの誤りを認めており、コミュニティとの協力で段階的にコードの問題を解決しているところだ。

ミラ・ジョヴォヴィッチのVibe Codingはクールだが、マーケティングはクールじゃない

MemPalaceというプロジェクトについて、Hacker Newsのユーザーdarkhanakhは次のような結論を下した。MemPalaceはOpenClawのような印象を与える。つまり、人為的にベンチマーク結果を操作して完璧に見せ、その後それを何かの大きなブレイクスルーとして包んで宣伝する。

彼は、MemPalaceの基盤技術は確かに面白い可能性があると考えているが、テスト手法にこのような瑕疵がある状態で、しかも「史上公開最高点」を売りにして宣伝するのは、正直あまり適切ではない。「ただし、ミラ・ジョヴォヴィッチがVibe Codingをやってる件については、俺はやっぱりかなりクールだと思う。」

関連記事:
AIがプログラミングでトラブル!コンビニの期限切れ商品アプリ「惜食獵人」で資安問題が爆発、家のGPSが全裸で流出

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし