Apakah Myra Zhevova Vichy menggunakan AI untuk membuat “proyek nilai penuh”? Pengembang mengujinya: benar-benar berisi atau dilebih-lebihkan hanya untuk sensasi?

Sistem ingatan AI MemPalace yang dikembangkan oleh Milla Jovovich mengklaim mendapat nilai sempurna dalam pengujian lalu langsung viral, namun komunitas justru menendangnya dengan tuduhan bahwa pengujian tersebut diduga melakukan kecurangan dan menyesatkan data. Pengujian langsung menemukan bahwa hasilnya dilebih-lebihkan dan ada banyak kesalahan; tim pun mengakui kekurangan dan sedang menanganinya untuk diperbaiki.

Milla Jovovich membangun “istana ingatan” AI, menarik perhatian dunia

Kemarin (4/7), ada kabar besar di komunitas AI: aktris Hollywood terkenal yang dikenal lewat Resident Evil dan The Fifth Element, Milla Jovovich, bersama pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem memori AI sumber terbuka “MemPalace”.

Sekelompok besar beredar luas dengan narasi “bintang besar Hollywood menyabet proyek dengan nilai sempurna lintas bidang”. Meski hingga saat ini MemPalace di GitHub telah meraih lebih dari 20k bintang, tak lama kemudian komunitas pengembang pun mempertanyakan: benarkah ini berkualitas atau cuma promosi?

Mari kita bahas dulu motivasi lahirnya MemPalace. Dokumen resmi menyebut tujuannya adalah mengatasi keterbatasan sistem AI saat ini: isi percakapan pengguna dengan AI, proses pengambilan keputusan, dan diskusi arsitektur biasanya hilang setelah sesi kerja berakhir, sehingga kerja keras berbulan-bulan pada akhirnya turun ke nol.

Untuk menyelesaikan masalah ini, MemPalace memakai arsitektur ruang untuk menyimpan ingatan, mengelompokkan informasi secara jelas ke area sayap yang mewakili personel atau proyek, serta struktur bertingkat seperti koridor, ruang, dan laci, sehingga menyimpan teks percakapan asli untuk penelusuran semantik berikutnya.

Tim pengembang mengklaim bahwa, MemPalace meraih skor sempurna 100% pada tolok ukur memori jangka panjang LongMemEval, dan mencapai akurasi 96,6% tanpa memanggil API eksternal apa pun. Selain itu, sistem ini bisa berjalan sepenuhnya di sisi lokal, tidak perlu berlangganan layanan cloud, dan dilengkapi sistem dialek AAAK yang diklaim dapat mencapai kompresi tanpa rugi 30 kali.

Sumber gambar: GitHub Bintang film Hollywood Milla Jovovich membangun istana ingatan AI, menarik perhatian dunia

Pesaing dan komunitas sama-sama mempertanyakan, metode pengujian dan materi promosi penuh kekurangan

Namun, klaim MemPalace meraih skor sempurna di LongMemEval cepat memicu keraguan dari pesaing.

PenfieldLabs, yang juga mengembangkan sistem memori AI, menyoroti bahwa klaim MemPalace memperoleh skor sempurna pada kumpulan data LoCoMo secara matematis tidak mungkin terjadi, karena jawaban standar pada dataset tersebut sendiri sudah memuat 99 kesalahan.

Analisis PenfieldLabs menemukan bahwa skor 100% MemPalace berasal dari mengatur jumlah pencarian menjadi 50 kali, tetapi jumlah tahap tertinggi dalam dialog data uji hanya ada 32 kali; ini berarti sistem langsung melewati tahap pencarian, menyerahkan semua data kepada model AI untuk dibaca.

Terkait skor 100% pada LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang umum terjadi di proses pengembangan; mereka menulis kode perbaikan khusus, yang memunculkan kecurigaan adanya kecurangan terhadap set pengujian.

Sumber gambar: Reddit Pesaing PenfieldLabs menunjukkan bahwa MemPalace mengklaim mendapat skor sempurna pada dataset LoCoMo, hal itu tidak mungkin secara matematis

Pengujian langsung pengguna GitHub, tolok ukur mengandung unsur menyesatkan

Pengguna GitHub hugooconnor mengomentari setelah pengujian langsung: MemPalace mengklaim memiliki akurasi penelusuran hingga 96,6%, tetapi kenyataannya sama sekali tidak memakai arsitektur “istana ingatan” yang dipromosikan oleh MemPalace. hugooconnor mengatakan bahwa pengujian mereka hanya memanggil fitur bawaan basis data tingkat bawah ChromaDB, tanpa melibatkan logika klasifikasi khas proyek seperti area sayap, ruang, atau laci.

Setelah pengujian, hugooconnor menemukan bahwa ketika sistem benar-benar mengaktifkan logika klasifikasi eksklusif istana ingatan tersebut, justru performa penelusurannya menurun. Sebagai contoh mode ruang, akurasi turun hingga 89,4%; dan setelah mengaktifkan teknik kompresi AAAK, akurasi turun lagi menjadi 84,2%, dan keduanya lebih rendah daripada performa basis data bawaan.

hugooconnor juga mengkritik metode pengujian: lingkungan uji MemPalace sengaja mengecilkan cakupan pencarian untuk setiap pertanyaan, hanya sekitar 50 tahap dialog, sehingga mencari jawaban dalam kumpulan sampel yang sangat kecil menjadi terlalu mudah.

Jika cakupan diperluas menjadi lebih dari 19.000 tahap dialog dalam situasi nyata, akurasi pencarian kata kunci tradisional justru merosot hingga 30%, menunjukkan bahwa cara pengujian MemPalace saat ini menutupi kesulitan pencarian yang sebenarnya.

Sumber gambar: GitHub Pengujian langsung pengguna GitHub, MemPalace memiliki unsur tolok ukur yang menyesatkan

Sementara itu, meski tim pengembang sudah merilis pernyataan koreksi yang mengakui bahwa teknologi AAAK memang terbukti sebagai kompresi dengan rugi, dan berjanji akan menyesuaikan dokumentasi serta desain sistem sesuai kritik keras dari komunitas. Namun dokumen utama proyek tetap mempertahankan banyak klaim yang belum dikoreksi, termasuk klaim kompresi tanpa rugi 30 kali dan peningkatan penelusuran 34%, serta bagan perbandingan dengan kompetitor lain yang sama sekali tidak menyertakan sumber.

Kode sumber MemPalace menghadapi banyak Bug

Seiring makin banyak developer mengunduh untuk menguji, di platform GitHub bermunculan banyak laporan Bug terkait kode sumber MemPalace.

Pengguna cktang88 mencantumkan berbagai kekurangan serius, termasuk instruksi kompresi yang tidak bisa dijalankan dan menyebabkan sistem crash, kesalahan logika perhitungan jumlah kata pada ringkasan, data statistik penggalian ruang yang tidak akurat, serta masalah ketika server memuat semua data interpretasi ke memori setiap kali dipanggil, yang menimbulkan konsumsi sumber daya yang berat.

Masalah lain yang turut disebut meliputi sistem yang secara paksa menuliskan nama anggota keluarga developer ke file konfigurasi bawaan, serta adanya batas paksa tampilan maksimal 10k entri data saat memeriksa status kueri.

Untuk masalah-masalah ini, komunitas open source sudah mulai aktif melakukan perbaikan. pengguna adv3nt3 mengajukan banyakpermintaan perbaikan, termasuk memperbaiki data statistik penggalian, menghapus nama anggota keluarga bawaan, serta menunda waktu inisialisasi knowledge graph. Tim pengembang kemudian juga mengakui kesalahan-kesalahan ini dan sedang menyelesaikannya bertahap melalui kolaborasi komunitas.

Vibe Coding Milla Jovovich itu keren, cara pemasarannya tidak keren

Terkait proyek MemPalace ini, pengguna Hacker News darkhanakh menarik sebuah kesimpulan: MemPalace memberi kesan seperti OpenClaw, yakni memanipulasi hasil tolok ukur (benchmark) agar tampak sempurna, lalu membungkusnya menjadi semacam terobosan besar untuk dipasarkan.

Ia berpendapat bahwa meski teknologi dasar MemPalace mungkin memang menarik, dalam kondisi metode pengujian memiliki kekurangan seperti itu, masih juga mengiklankan dengan semboyan “skor publik tertinggi sepanjang masa” sebagai materi promosi, tentu tidak terlalu pantas. “Tapi, soal Milla Jovovich sedang main Vibe Coding, menurutku itu tetap cukup keren.”

Bacaan lanjutan:
AI menulis program tapi bermasalah! Aplikasi “Pencari Makanan Sisa” produk tanggal kedaluwarsa dari minimarket meledak masalah keamanan siber, GPS di rumah berjalan tanpa busana

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar