Hệ thống ghi nhớ AI MemPalace, do Milla Jovovich tham gia phát triển, tuyên bố đạt điểm tuyệt đối khi thử nghiệm và nhanh chóng bùng nổ phổ biến, nhưng lại bị cộng đồng “vạch trần” rằng bài test có dấu hiệu gian lận và gây hiểu lầm về dữ liệu. Thực nghiệm cho thấy hiệu quả được thổi phồng quá mức và có rất nhiều lỗi; nhóm phát triển đã thừa nhận các khiếm khuyết và đang tiến hành sửa chữa.
Hôm qua (4/7), trong cộng đồng AI có một tin lớn: Nữ diễn viên Hollywood nổi tiếng nhờ《Resident Evil》và《The Fifth Element》là Milla Jovovich (Milla Jovovich) đã hợp tác với nhà phát triển Ben Sigman, dùng Claude Code để phát triển “MemPalace”, một hệ thống trí nhớ AI mã nguồn mở.
Trong lúc đó, những lời đồn “Ngôi sao Hollywood làm dự án đạt điểm tuyệt đối ở hạng mục giao thoa” lan truyền rộng rãi; MemPalace cho đến nay trên GitHub cũng đạt hơn 20k lượt sao, nhưng rất nhanh đã khiến cộng đồng phát triển nghi ngờ: Có thật sự “có đồ” hay chỉ là chiêu trò quảng cáo?
Trước hết, hãy nói động cơ mà MemPalace ra đời. Tài liệu chính thức cho biết họ muốn giải quyết vấn đề hiện tại: nội dung hội thoại giữa người dùng và AI, quy trình ra quyết định và các thảo luận về kiến trúc thường sẽ biến mất sau khi kết thúc phiên làm việc, khiến nhiều tháng công sức bị giảm về 0.
Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ, phân loại rõ ràng thông tin thành các “khu cánh” đại diện cho nhân sự hoặc dự án, cũng như các cấu trúc ở nhiều cấp độ khác nhau như hành lang, phòng và ngăn kéo; từ đó giữ nguyên văn bản hội thoại để phục vụ tìm kiếm ngữ nghĩa về sau.
Nhóm phát triển tuyên bố rằng, MemPalace đạt thành tích 100% trong bộ tiêu chí đánh giá trí nhớ dài hạn LongMemEval, và đồng thời đạt tỷ lệ chính xác 96,6% mà không gọi bất kỳ API bên ngoài nào. Hơn nữa, hệ thống có thể chạy hoàn toàn cục bộ, không cần đăng ký dịch vụ đám mây, và được trang bị hệ thống phương ngữ AAAK được cho là có thể đạt nén không tổn hại gấp 30 lần.
Nguồn hình: GitHub Milla Jovovich, ngôi sao điện ảnh Mỹ, xây dựng cung điện trí nhớ AI, thu hút sự chú ý từ bên ngoài
Tuy nhiên, thành tích được rao là 100% trong LongMemEval rất nhanh đã bị các đồng nghiệp nghi ngờ.
PenfieldLabs, cũng là đơn vị sản xuất hệ thống trí nhớ AI, cho biết MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra, vì đáp án chuẩn của bộ dữ liệu đó bản thân đã chứa 99 lỗi.
PenfieldLabs phân tích và phát hiện rằng thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất (retrieval) là 50, nhưng số bước/phân đoạn hội thoại ở cấp cao nhất của bộ dữ liệu thử nghiệm chỉ có 32 lần; điều này có nghĩa là hệ thống đã trực tiếp “bỏ qua” giai đoạn truy xuất, giao toàn bộ dữ liệu cho mô hình AI đọc.
Đối với thành tích 100% trong LongMemEval, nhóm phát triển bị phát hiện nhắm vào 3 vấn đề cụ thể xảy ra ở phần tập trung phát triển và viết mã sửa chữa riêng; điều này làm dấy lên nghi ngờ rằng bài test có gian lận.
Nguồn hình: Reddit Đồng nghiệp PenfieldLabs chỉ ra rằng MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra
Người dùng GitHub hugooconnor sau khi thử nghiệm đã bình luận rằng, MemPalace tuyên bố tỷ lệ chính xác truy xuất lên tới 96,6%, nhưng thực tế hoàn toàn không hề sử dụng kiến trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết, thử nghiệm của họ chỉ đơn giản gọi chức năng mặc định của cơ sở dữ liệu nền tảng ChromaDB, hoàn toàn không hề liên quan đến logic phân loại được nhấn mạnh trong dự án như “khu cánh”, “phòng” hay “ngăn kéo”.
Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thực sự bật logic phân loại riêng của các “cung điện trí nhớ” này thì thành tích truy xuất lại giảm xuống. Ví dụ, ở chế độ phòng, độ chính xác giảm xuống còn 89,4%; và sau khi bật công nghệ nén AAAK thì độ chính xác còn giảm tiếp xuống 84,2%, cả hai đều thấp hơn hiệu suất của cơ sở dữ liệu mặc định.
hugooconnor cũng phê bình phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố tình thu hẹp phạm vi truy xuất của từng câu hỏi xuống khoảng 50 giai đoạn hội thoại, việc tìm câu trả lời trong một kho mẫu cực nhỏ như vậy quá đơn giản.
Nếu mở rộng phạm vi lên hơn 19.000 giai đoạn hội thoại trong bối cảnh thực tế, thì độ chính xác của tìm kiếm theo từ khóa truyền thống sẽ lao xuống chỉ còn 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che giấu “bài toán khó” tìm kiếm thật sự.
Nguồn hình: GitHub Người dùng GitHub tự kiểm chứng, có thành phần gây hiểu lầm trong bài benchmark của MemPalace
Đồng thời, mặc dù nhóm phát triển đã phát hành bản tuyên bố đính chính, thừa nhận rằng công nghệ AAAK确实 đã được xác thực là nén có tổn hại và cam kết sẽ sửa đổi tài liệu và thiết kế hệ thống theo các chỉ trích nghiêm khắc từ cộng đồng. Nhưng tài liệu mô tả chính của dự án vẫn giữ lại nhiều tuyên bố phóng đại chưa được sửa, bao gồm việc nói về nén không tổn hại gấp 30 lần và tăng cường truy xuất 34%, và các biểu đồ so sánh với đối thủ khác cũng hoàn toàn thiếu nguồn gốc xuất xứ.
Khi ngày càng có nhiều nhà phát triển tải về để kiểm thử, hiện tại trên nền tảng GitHub xuất hiện hàng loạt báo cáo lỗi liên quan đến mã nguồn MemPalace.
Người dùng cktang88 liệt kê nhiều sai sót nghiêm trọng, bao gồm lệnh nén không thể hoạt động và khiến hệ thống bị sập, lỗi logic trong việc tính số lượng từ của bản tóm tắt, dữ liệu thống kê đào “phòng” không chính xác, và vấn đề rằng mỗi lần gọi hệ thống sẽ tải toàn bộ dữ liệu diễn giải (interpretation) vào bộ nhớ, gây tiêu tốn tài nguyên nghiêm trọng.
Các vấn đề khác cũng được chỉ ra, chẳng hạn hệ thống tự động “cứng hóa” tên thành viên gia đình của nhà phát triển vào tệp cấu hình mặc định, và có giới hạn hiển thị bắt buộc trên tới 20kản ghi khi truy vấn trạng thái.
Đối với những vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực sửa chữa. Người dùng adv3nt3 đã gửi nhiềuyêu cầu sửa lỗi, bao gồm chỉnh sửa dữ liệu thống kê đào bới, xóa tên thành viên gia đình được đặt mặc định và trì hoãn thời gian khởi tạo phần “biểu đồ tri thức”. Sau đó nhóm phát triển cũng thừa nhận những lỗi này, và đang từng bước giải quyết các vấn đề của mã thông qua phối hợp của cộng đồng.
Đối với dự án MemPalace này, một người dùng Hacker News có tên darkhanakh đưa ra kết luận: MemPalace tạo cảm giác như OpenClaw, tức là thao túng kết quả benchmark một cách nhân tạo để khiến nó trông hoàn hảo vô khuyết, rồi lại đóng gói thành một bước đột phá lớn nào đó để marketing.
Anh ấy cho rằng, công nghệ nền tảng của MemPalace có thể thực sự rất thú vị, nhưng trong tình trạng phương pháp thử nghiệm mang những khiếm khuyết kiểu này, lại còn quảng bá với câu “điểm công khai cao nhất trong lịch sử” để truyền thông thì quả thật không ổn, “Nhưng mà, chuyện Milla Jovovich đang chơi Vibe Coding thì tôi nghĩ vẫn khá ngầu.”
Đọc thêm:
AI viết code bị sự cố! App “惜食獵人” (người săn hàng sắp hết hạn ở cửa hàng tiện lợi) bùng nổ vấn đề an ninh dữ liệu, GPS trong nhà bị phơi trần toàn bộ