Sistem memori AI MemPalace yang dikembangkan bersama oleh Milla Jovovich diklaim berhasil meraih nilai sempurna dalam pengujian hingga viral, namun kemudian komunitas menendangnya dengan tuduhan bahwa pengujiannya diduga melakukan kecurangan dan menyesatkan data. Pengujian langsung menemukan bahwa hasilnya dibesar-besarkan dan terdapat banyak kesalahan; tim telah mengakui kekurangan tersebut serta sedang melakukan perbaikan.
Kemarin (4/7), di komunitas AI ada kabar besar: aktris Hollywood terkenal karena film-film seperti Resident Evil dan The Fifth Element, yaitu Milla Jovovich, bekerja sama dengan pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem memori AI sumber terbuka bernama “MemPalace”.
Sekilas, anggapan “bintang Hollywood lintas bidang membuat proyek bernilai sempurna” menyebar luas; MemPalace hingga saat ini juga sudah memperoleh lebih dari 20k bintang di GitHub, tetapi tidak lama kemudian memicu kecurigaan dari komunitas pengembang: apakah benar-benar punya kualitas atau hanya promosi?
Mari kita bahas dulu motivasi lahirnya MemPalace. Dokumen resmi menyebut tujuannya adalah untuk mengatasi masalah bahwa konten percakapan antara pengguna dan AI, proses pengambilan keputusan, serta diskusi arsitektur dari sistem AI saat ini biasanya lenyap setelah sesi kerja berakhir, sehingga membuat beberapa bulan upaya menjadi turun ke nol.
Untuk memecahkan masalah ini, MemPalace memakai struktur berbasis ruang untuk menyimpan memori: informasi diklasifikasikan dengan jelas ke zona sayap yang mewakili personel atau proyek, serta ke struktur tingkat berbeda seperti lorong, kamar, dan laci, sambil mempertahankan teks asli percakapan untuk penelusuran makna di kemudian hari.
Tim pengembang mengklaim bahwa, MemPalace meraih nilai sempurna 100% pada tolok ukur evaluasi memori jangka panjang LongMemEval, dan mencapai akurasi 96.6% tanpa memanggil API eksternal apa pun, serta bisa berjalan sepenuhnya di sisi lokal tanpa perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim mampu menghasilkan kompresi tanpa kerugian hingga 30 kali.
Sumber gambar: GitHub Bintang film Amerika Milla Jovovich membangun istana memori AI, menarik perhatian publik
Namun, klaim MemPalace yang memperoleh nilai sempurna di LongMemEval ini segera memicu keraguan dari rekan industri.
PenfieldLabs, yang juga membuat sistem memori AI, menunjuk bahwa klaim MemPalace meraih nilai sempurna pada dataset LoCoMo tidak mungkin terjadi secara matematis, karena jawaban standar pada dataset tersebut sendiri sudah memuat 99 kesalahan.
Hasil analisis PenfieldLabs menemukan bahwa pencapaian 100% MemPalace berasal dari menetapkan jumlah pencarian sebanyak 50 kali, tetapi pada set data uji, jumlah tahap percakapan maksimum hanya 32 kali, yang berarti sistem langsung melompati tahap pencarian dan menyerahkan semua data kepada model AI untuk dibaca.
Terkait skor 100% pada LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang salah terjadi saat pengembangan, menuliskan kode perbaikan khusus; ini menimbulkan kecurigaan adanya kecurangan terhadap set pengujian.
Sumber gambar: Reddit Rekan industri PenfieldLabs menunjukkan bahwa MemPalace mengklaim meraih nilai sempurna pada dataset LoCoMo, yang secara matematis tidak mungkin terjadi
Pengguna GitHub hugooconnor mengomentari setelah melakukan pengujian langsung: MemPalace mengklaim akurasi penelusuran hingga 96.6%, namun kenyataannya sama sekali tidak menggunakan arsitektur istana memori yang dipromosikan. hugooconnor menyebut bahwa pengujian mereka hanya memanggil fitur bawaan dari database lapisan bawah ChromaDB, tanpa melibatkan logika klasifikasi seperti zona sayap, kamar, atau laci yang ditekankan dalam proyek.
Setelah pengujian, hugooconnor mendapati bahwa ketika sistem benar-benar mengaktifkan logika klasifikasi khusus untuk istana memori tersebut, justru performa pencariannya menurun. Sebagai contoh mode kamar, akurasi turun menjadi 89.4%; dan setelah mengaktifkan teknologi kompresi AAAK, akurasi makin turun menjadi 84.2%, dan keduanya lebih rendah daripada performa basis dari database default.
hugooconnor juga mengkritik metode pengujiannya. Lingkungan pengujian MemPalace sengaja menyempitkan cakupan penelusuran untuk setiap masalah, hanya sekitar 50 tahap percakapan, sehingga mencari jawaban dalam kumpulan data sampel yang sangat kecil menjadi terlalu mudah.
Jika cakupannya diperluas hingga lebih dari 19,000 tahap percakapan dalam skenario dunia nyata, akurasi pencarian berbasis kata kunci tradisional akan jatuh drastis hingga 30%, yang menunjukkan bahwa cara pengujian MemPalace saat ini menutupi masalah pencarian yang sesungguhnya sulit.
Sumber gambar: GitHub Pengujian langsung pengguna GitHub, MemPalace mengandung unsur menyesatkan dalam benchmark
Selain itu, meskipun tim pengembang sudah merilis pernyataan koreksi yang mengakui bahwa teknologi AAAK memang tervalidasi sebagai kompresi dengan kerugian, dan berjanji akan memperbaiki penjelasan dalam dokumentasi serta desain sistem berdasarkan kritik keras dari komunitas, dokumen penjelasan utama proyek tetap mempertahankan berbagai klaim yang belum dikoreksi, termasuk klaim kompresi tanpa kerugian 30 kali dan peningkatan penelusuran 34%, serta perbandingan bagan dengan kompetitor lain yang sama sekali tidak mencantumkan sumber.
Seiring makin banyak pengembang yang mengunduh pengujian, kini muncul banyak laporan Bug terkait kode sumber MemPalace di platform GitHub.
Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk perintah kompresi yang tidak bisa dijalankan sehingga menyebabkan sistem crash, kesalahan dalam logika penghitungan jumlah kata ringkasan, dan ketidakakuratan data statistik terkait penggalian kamar, serta masalah bahwa server setiap kali dipanggil akan memuat semua data interpretasi ke dalam memori, menimbulkan konsumsi sumber daya yang sangat besar.
Masalah lain yang juga disebutkan mencakup sistem yang memaksa menuliskan nama anggota keluarga pengembang ke dalam berkas konfigurasi default, serta adanya batas tampilan paksa atas 10 ribu entri data saat melakukan kueri status.
Menanggapi masalah-masalah ini, komunitas open-source sudah mulai memperbaiki secara aktif. Pengguna adv3nt3 mengajukan berbagai permintaanperbaikan, termasuk memperbaiki data statistik penggalian, menghapus nama anggota keluarga bawaan, serta menunda waktu inisialisasi knowledge graph. Tim pengembang selanjutnya juga mengakui kesalahan-kesalahan ini, dan sedang menyelesaikan masalah pada kode secara bertahap melalui kolaborasi komunitas.
Untuk proyek MemPalace ini, pengguna Hacker News darkhanakh menarik sebuah kesimpulan: MemPalace memberi kesan seperti OpenClaw, yaitu memanipulasi hasil benchmark secara sengaja agar terlihat sempurna, lalu membungkusnya sebagai semacam terobosan besar untuk pemasaran.
Ia menilai bahwa teknologi dasar MemPalace mungkin memang menarik, tetapi dengan metode pengujian yang memiliki kekurangan seperti itu, lalu tetap mengusung promosi “skor publik tertinggi sepanjang masa” jelas kurang tepat. “Tapi, soal Milla Jovovich sedang bermain Vibe Coding, menurutku itu tetap lumayan keren.”
Bacaan lanjutan:
AI menulis kode dan bermasalah! Aplikasi “Penghobi Keneker” produk kedaluwarsa minimarket meledak masalah keamanan siber, GPS di rumah membobol sepenuhnya