Sistem memori AI MemPalace yang dikembangkan oleh Milla Jovovich mengklaim meraih nilai sempurna saat pengujian hingga viral, namun kemudian komunitas menuduhnya melakukan kecurangan dalam pengujian dan menyesatkan data. Pengujian nyata menemukan bahwa efektivitasnya dibesar-besarkan dan terdapat banyak kesalahan; tim telah mengakui kekurangan tersebut dan tengah melakukan perbaikan.
Kemarin (4/7), di lingkaran AI ada kabar besar: aktris Hollywood terkenal lewat Resident Evil dan The Fifth Element, Milla Jovovich, bersama pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem memori AI sumber terbuka “MemPalace”.
Dalam sekejap, beredar luas anggapan “bintang Hollywood lintas bidang membuat proyek beroleh nilai sempurna”, dan hingga saat ini MemPalace di GitHub juga sudah mendapat lebih dari 20k bintang, tetapi tak lama kemudian memunculkan keraguan dari komunitas pengembang: Apakah benar-benar berisi materi yang hebat atau sekadar promosi?
Mari kita bahas dulu motivasi lahirnya MemPalace. Dokumen resminya menyatakan bahwa tujuannya adalah mengatasi keterbatasan yang ada: konten percakapan antara pengguna dan AI, proses pengambilan keputusan, serta diskusi arsitektur pada sistem AI biasanya lenyap setelah sesi kerja berakhir, sehingga menyebabkan kerja keras selama berbulan-bulan “turun ke nol”.
Untuk menyelesaikan masalah ini, MemPalace memakai arsitektur ruang untuk menyimpan memori, mengelompokkan informasi secara jelas ke wilayah sayap yang mewakili personel atau proyek, serta ke struktur berbeda seperti koridor, kamar, dan laci, sambil mempertahankan teks asli percakapan untuk penelusuran makna di kemudian hari.
Tim pengembang mengklaim bahwa MemPalace meraih skor sempurna 100% pada tolok ukur memori jangka panjang LongMemEval, dan mencapai tingkat akurasi 96,6% tanpa memanggil API eksternal apa pun; selain itu bisa sepenuhnya berjalan di sisi lokal, tidak perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim mampu mencapai kompresi tanpa kehilangan hingga 30 kali.
Sumber gambar: GitHub Bintang film Amerika Milla Jovovich membangun istana memori AI, memicu perhatian publik
Namun, klaim MemPalace yang meraih nilai penuh di LongMemEval dengan cepat memicu pertanyaan dari sesama pelaku industri.
PenfieldLabs, yang juga membuat sistem memori AI, menunjukkan bahwa MemPalace mengklaim meraih nilai sempurna pada kumpulan data LoCoMo, yang secara matematis tidak mungkin terjadi, karena jawaban standar pada kumpulan data tersebut sendiri sudah memuat 99 kesalahan.
Dari analisis, PenfieldLabs menemukan bahwa skor 100% MemPalace berasal dari mengatur jumlah pencarian menjadi 50 kali, tetapi jumlah tahap percakapan maksimum dalam data uji hanya 32 kali, yang berarti sistem langsung melewati tahap pencarian dan menyerahkan semua data kepada model AI untuk dibaca.
Terkait skor 100% pada LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang membuat kesalahan terjadi pada fase pengembangan, lalu menulis kode perbaikan khusus; ada kecurigaan bahwa itu dilakukan untuk menipu kumpulan data uji.
Sumber gambar: Reddit Rekan seindustri PenfieldLabs menunjukkan bahwa MemPalace mengklaim meraih nilai penuh pada kumpulan data LoCoMo, yang secara matematis tidak mungkin terjadi
Pengguna GitHub hugooconnor, setelah menguji langsung, berkomentar bahwa MemPalace mengklaim tingkat akurasi penelusuran hingga 96,6%, namun pada kenyataannya sama sekali tidak menggunakan arsitektur “istana memori” yang dipromosikan MemPalace. hugooconnor menyebut bahwa pengujian mereka hanya memanggil fitur bawaan basis data tingkat bawah ChromaDB, tanpa melibatkan logika klasifikasi seperti wilayah sayap, kamar, atau laci yang ditekankan dalam proyek.
Setelah pengujian, hugooconnor menemukan bahwa ketika logika klasifikasi khusus dari istana memori tersebut benar-benar diaktifkan, justru terjadi penurunan kinerja penelusuran. Sebagai contoh, dalam mode kamar, akurasi turun menjadi 89,4%, dan setelah mengaktifkan teknologi kompresi AAAK, akurasi turun lagi menjadi 84,2%; keduanya lebih rendah daripada performa basis data default.
hugooconnor juga mengkritik metode pengujian: lingkungan uji MemPalace secara sengaja mengecilkan rentang penelusuran untuk setiap pertanyaan, hanya sekitar 50 tahap percakapan, sehingga terlalu mudah menemukan jawaban di kumpulan sampel yang sangat kecil.
Jika rentang diperbesar hingga lebih dari 19.000 tahap percakapan dalam situasi nyata, akurasi pencarian kata kunci tradisional justru jatuh ke 30%, yang menunjukkan bahwa cara pengujian MemPalace saat ini menutupi masalah pencarian yang sesungguhnya sulit.
Sumber gambar: GitHub Pengujian nyata pengguna GitHub, MemPalace memiliki komponen tolok ukur yang menyesatkan
Sementara itu, meski tim pengembang telah menerbitkan pernyataan koreksi—mengakui bahwa teknologi AAAK memang telah diuji sebagai kompresi dengan kehilangan (lossy), serta berjanji akan memperbaiki dokumen penjelasan dan desain sistem berdasarkan kritik keras dari komunitas—dokumen penjelasan utama proyek tetap mempertahankan banyak klaim yang belum dikoreksi, termasuk pernyataan kompresi tanpa kehilangan 30 kali dan peningkatan penelusuran 34%, serta perbandingan bagan dengan kompetitor lain yang juga benar-benar tidak menyertakan sumber.
Seiring semakin banyak pengembang mengunduh pengujian, kini bermunculan banyak laporan Bug terkait kode sumber MemPalace di platform GitHub.
Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk instruksi kompresi yang tidak bisa dijalankan dan menyebabkan sistem crash, kesalahan logika perhitungan jumlah kata pada ringkasan, serta data statistik penggalian kamar yang tidak akurat, dan juga kondisi ketika server memuat semua data interpretasi ke dalam memori setiap kali dipanggil, menimbulkan masalah konsumsi sumber daya yang parah.
Masalah lain yang disebutkan juga termasuk sistem yang secara paksa menuliskan nama anggota keluarga pengembang ke dalam file pengaturan default, serta adanya batas tampilan paksa maksimum untuk 10k data saat melakukan kueri status.
Untuk masalah-masalah tersebut, komunitas open-source sudah mulai melakukan perbaikan secara aktif. Pengguna adv3nt3 mengirimkan banyakpermintaanperbaikan, termasuk memperbaiki data statistik penggalian, menghapus nama anggota keluarga default, serta menunda waktu inisialisasi pengetahuan knowledge graph. Tim pengembang selanjutnya juga mengakui kesalahan-kesalahan ini dan tengah menyelesaikan masalah kode secara bertahap melalui kolaborasi komunitas.
Untuk proyek MemPalace ini, seorang pengguna Hacker News, darkhanakh, menarik kesimpulan: MemPalace memberi kesan seperti OpenClaw, yakni memanipulasi hasil tolok ukur (benchmark) agar tampak sempurna tanpa cela, lalu membungkusnya sebagai semacam terobosan besar untuk dipasarkan.
Ia berpendapat bahwa teknologi dasar MemPalace mungkin memang menarik, tetapi dalam kondisi metode pengujiannya memiliki kekurangan seperti itu, lalu tetap mengusung “nilai tertinggi publik dalam sejarah” untuk promosi, itu sebenarnya kurang tepat. “Namun, terkait Milla Jovovich yang sedang bermain Vibe Coding, menurut saya itu tetap cukup keren.”
Bacaan lanjutan:
AI menulis program dan bermasalah! Aplikasi “Penjaga Sisa Makanan” produk tanggal kedaluwarsa minimarket meledak masalah keamanan siber, GPS di rumah sepenuhnya terbuka