Mila Qiao Jowba Vệ Kỳ dùng AI để tạo ra “dự án điểm tối đa”? Nhà phát triển tự kiểm chứng: thật sự có gì đáng giá hay chỉ là thổi phồng quảng bá?

CryptoCity

Hệ thống trí nhớ AI MemPalace do Milla Jovovich và Vicki tham gia phát triển tuyên bố đã đạt điểm tối đa trong giai đoạn thử nghiệm và bỗng bùng nổ thành hiện tượng, nhưng cộng đồng nhanh chóng bóc phốt rằng việc thử nghiệm có dấu hiệu gian lận và dữ liệu bị gây hiểu nhầm. Thực tế kiểm tra cho thấy hiệu quả được thổi phồng quá mức và có rất nhiều lỗi; đội ngũ đã thừa nhận các thiếu sót và đang trong quá trình sửa chữa.

Milla Jovovich xây dựng “cung điện trí nhớ” AI, thu hút sự chú ý từ bên ngoài

Hôm qua (4/7), trong cộng đồng AI có một tin nóng lớn: Nữ minh tinh Hollywood nổi tiếng với loạt phim 《Resident Evil》 và 《The Fifth Element》 là Milla·Jovovich, (Milla Jovovich), cùng với nhà phát triển Ben Sigman sử dụng Claude Code để phát triển hệ thống trí nhớ AI mã nguồn mở “MemPalace”.

Trong lúc đó, những câu chuyện như “ngôi sao Hollywood lấn sân liên ngành và tạo ra một dự án đạt điểm tuyệt đối” nhanh chóng lan truyền rộng rãi. Cho đến nay, MemPalace trên GitHub cũng đã nhận được hơn 20k lượt sao, nhưng ngay sau đó cộng đồng phát triển lại bắt đầu nghi ngờ: Liệu có thật sự có chất lượng hay chỉ là chiêu trò?

Trước tiên, hãy nói về động cơ ra đời của MemPalace. Tài liệu chính thức cho biết họ muốn giải quyết vấn đề hiện tại của các hệ thống AI: nội dung hội thoại giữa người dùng và AI, quá trình ra quyết định và các thảo luận về kiến trúc thường sẽ biến mất sau khi kết thúc phiên làm việc, khiến công sức vài tháng trở thành công cốc.

Để giải quyết vấn đề này, MemPalace sử dụng kiến trúc không gian để lưu trí nhớ: phân loại thông tin rõ ràng vào các cánh đại diện cho nhân sự hoặc dự án, cùng với cấu trúc ở nhiều tầng khác nhau như hành lang, phòng và ngăn kéo; đồng thời giữ nguyên văn bản hội thoại để phục vụ việc truy vấn ngữ nghĩa sau này.

Đội ngũ phát triển tuyên bố rằng, MemPalace đạt điểm 100% tuyệt đối trong bộ tiêu chí đánh giá trí nhớ dài hạn LongMemEval, và đạt tỷ lệ chính xác 96.6% trong trường hợp không hề gọi bất kỳ API bên ngoài nào. Hơn nữa, hệ thống có thể chạy hoàn toàn trên máy cục bộ, không cần đăng ký dịch vụ đám mây, và được trang bị hệ thống phương ngữ AAAK được cho là có thể đạt nén không mất mát gấp 30 lần.

Nguồn ảnh: GitHub Ngôi sao phim Hollywood Milla Jovovich xây dựng cung điện trí nhớ AI, thu hút sự chú ý từ bên ngoài

Các đối thủ và cộng đồng đồng loạt chất vấn, phương pháp thử nghiệm và cách quảng bá có vấn đề

Tuy nhiên, thành tích được cho là đạt điểm tối đa 100% ở LongMemEval của MemPalace đã nhanh chóng vấp phải sự nghi ngờ từ các đối thủ.

PenfieldLabs cũng là công ty tạo ra hệ thống trí nhớ AI, chỉ ra rằng: MemPalace tuyên bố đạt điểm tuyệt đối trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra, vì đáp án chuẩn của bộ dữ liệu đó bản thân đã chứa 99 lỗi.

Phân tích của PenfieldLabs phát hiện rằng thành tích 100% của MemPalace đến từ việc đặt số lần truy xuất (retrieval) thành 50 lần, nhưng ở bộ dữ liệu thử nghiệm, số lượng giai đoạn hội thoại tối đa chỉ có 32 lần, điều này có nghĩa là hệ thống trực tiếp “lách” qua giai đoạn truy xuất, đưa toàn bộ dữ liệu cho mô hình AI đọc.

Đối với thành tích 100% ở LongMemEval, đội ngũ phát triển bị phát hiện nhắm vào 3 vấn đề cụ thể đã xảy ra lỗi tập trung khi phát triển; họ viết các đoạn mã sửa riêng cho các vấn đề đó, khiến tồn tại nghi ngờ rằng họ đã gian lận để qua mặt bộ test.

Nguồn ảnh: Reddit Các đối thủ PenfieldLabs chỉ ra rằng, MemPalace tuyên bố đạt điểm tối đa trong bộ dữ liệu LoCoMo, điều này về mặt toán học là không thể xảy ra

Người dùng GitHub tự kiểm tra thực tế: bài benchmark có thành phần gây hiểu nhầm

Người dùng GitHub hugooconnor sau khi tự kiểm tra đã bình luận rằng: MemPalace tuyên bố tỷ lệ chính xác truy xuất lên tới 96.6%, nhưng thực tế hoàn toàn không hề sử dụng cấu trúc “cung điện trí nhớ” mà MemPalace quảng bá. hugooconnor cho biết, bài thử của họ chỉ đơn giản là gọi chức năng mặc định của cơ sở dữ liệu lớp dưới ChromaDB, hoàn toàn không liên quan đến logic phân loại theo cánh, phòng hay ngăn kéo mà dự án nhấn mạnh.

Sau khi thử nghiệm, hugooconnor phát hiện rằng khi hệ thống thực sự bật logic phân loại độc quyền của các cung điện trí nhớ đó, thì thành tích truy xuất lại suy giảm. Ví dụ, ở chế độ phòng, độ chính xác giảm xuống còn 89.4%; và khi bật kỹ thuật nén AAAK, độ chính xác còn giảm tiếp xuống 84.2% — cả hai đều thấp hơn hiệu suất của cơ sở dữ liệu mặc định.

hugooconnor cũng chỉ trích phương pháp thử nghiệm: môi trường thử nghiệm của MemPalace cố tình thu hẹp phạm vi truy xuất của mỗi câu hỏi xuống khoảng 50 giai đoạn hội thoại, việc tìm đáp án trong một kho mẫu cực nhỏ như vậy sẽ quá dễ dàng.

Nếu mở rộng phạm vi lên hơn 19.000 giai đoạn hội thoại trong tình huống thực tế, thì độ chính xác của tìm kiếm từ khóa truyền thống sẽ rơi thẳng xuống 30%, cho thấy cách thử nghiệm hiện tại của MemPalace đang che giấu “bài toán tìm kiếm” khó khăn ngoài đời.

Nguồn ảnh: GitHub Người dùng GitHub tự kiểm tra thực tế: bài benchmark của MemPalace có thành phần gây hiểu nhầm

Đồng thời, mặc dù đội ngũ phát triển đã công bố tuyên bố đính chính, thừa nhận rằng kỹ thuật AAAK thực sự đã được xác nhận là nén có mất mát, và cam kết sẽ chỉnh sửa mô tả trong tài liệu cũng như thiết kế hệ thống dựa trên các phản biện nghiêm khắc của cộng đồng. Nhưng tài liệu mô tả chính của dự án vẫn giữ lại nhiều tuyên bố thổi phồng chưa được sửa, bao gồm việc quảng cáo nén không mất mát gấp 30 lần và tăng truy xuất 34%, đồng thời các biểu đồ so sánh với đối thủ cạnh tranh khác cũng hoàn toàn thiếu nguồn trích dẫn.

Mã nguồn MemPalace đối mặt nhiều lỗi Bug

Khi ngày càng nhiều nhà phát triển tải về để thử nghiệm, trên nền tảng GitHub đã xuất hiện hàng loạt báo cáo Bug liên quan đến mã nguồn MemPalace.

Người dùng cktang88 liệt kê nhiều khiếm khuyết nghiêm trọng, bao gồm lệnh nén không chạy được và gây sập hệ thống, lỗi trong logic tính toán số lượng từ của bản tóm tắt, dữ liệu thống kê khi đào (vì “挖掘”) phòng không chính xác, và việc mỗi lần gọi đều khiến máy chủ tải toàn bộ dữ liệu chú giải (annotation) vào bộ nhớ, gây ra vấn đề tiêu tốn tài nguyên nghiêm trọng.

Các vấn đề khác cũng được nêu ra, như hệ thống “cứng” ghi tên người thân của nhà phát triển vào tệp cấu hình mặc định, và có giới hạn hiển thị bắt buộc đối với 20kản ghi khi truy vấn trạng thái.

Đối với những vấn đề này, cộng đồng mã nguồn mở đã bắt đầu tích cực khắc phục. Người dùng adv3nt3 đã gửi nhiều yêu cầu sửa lỗi**, bao gồm sửa dữ liệu thống kê khi đào, xóa tên người thân mặc định, và trì hoãn thời gian khởi tạo của phần khởi tạo sơ đồ tri thức (knowledge graph).** Về sau, đội ngũ phát triển cũng thừa nhận các lỗi này và đang cùng cộng tác với cộng đồng để từng bước giải quyết các vấn đề trong mã nguồn.

Milla Jovovich Vibe Coding rất ngầu, cách làm marketing thì không ngầu

Đối với dự án MemPalace, một thành viên Hacker News là darkhanakh đưa ra kết luận: MemPalace tạo cảm giác như OpenClaw, tức là thao túng kết quả benchmark một cách nhân tạo để nó trông như hoàn hảo, rồi đóng gói nó thành một “bước đột phá lớn” để đi marketing.

Anh ấy cho rằng, công nghệ nền tảng của MemPalace có thể thực sự thú vị, nhưng trong bối cảnh phương pháp thử nghiệm mang các kiểu thiếu sót như vậy, lại còn quảng bá với câu “điểm công khai cao nhất trong lịch sử”, thì quả là không ổn. “Tuy nhiên, chuyện Milla Jovovich đang chơi Vibe Coding — tôi vẫn thấy khá ngầu.”

Đọc thêm:
AI viết code lỗi! Ứng dụng “惜食獵人” của hàng tạp hóa bán kỳ hạn ngắn bùng nổ vấn đề an ninh, GPS trong nhà phơi bày toàn trần

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận