Milla Jova Vicki menggunakan AI untuk membuat “proyek dengan nilai sempurna”? Pengembang menguji: apakah benar ada kualitas atau hanya dilebih-lebihkan untuk mempromosikan hype?

Sistem memori AI MemPalace yang dikembangkan oleh Milla Jovovich mengklaim telah lolos uji coba dengan nilai sempurna dan langsung viral, namun kemudian ditendang oleh komunitas karena uji coba diduga curang dan datanya menyesatkan. Pengujian langsung menemukan bahwa kinerjanya dilebih-lebihkan dan ada banyak kesalahan; tim telah mengakui kekurangan tersebut dan sedang memperbaikinya.

Milla Jovovich membangun “istana memori” AI, menarik perhatian publik

Kemarin (4/7), dunia AI punya kabar besar: bintang film Hollywood terkenal yang dikenal lewat《Resident Evil》 dan《The Fifth Element》, Milla Jovovich, bersama pengembang Ben Sigman menggunakan Claude Code untuk membantu pengembangan sistem memori AI open source bernama “MemPalace”.

Sekejap, beredar luas anggapan “bintang Hollywood lintas bidang membuat proyek bernilai sempurna”, dan hingga kini MemPalace di GitHub juga sudah meraih lebih dari 20k bintang, tetapi tak lama kemudian memicu keraguan dari komunitas pengembang: apakah benar-benar punya kualitas atau hanya pemasaran?

Mari kita bahas dulu motivasi lahirnya MemPalace. Dokumentasi resmi menyebut tujuannya adalah mengatasi keterbatasan saat isi percakapan pengguna dengan AI, proses pengambilan keputusan, dan diskusi arsitektur pada sistem AI biasanya menghilang setelah sesi kerja berakhir, sehingga kerja keras berbulan-bulan menjadi turun ke nol.

Untuk mengatasi masalah ini, MemPalace menggunakan arsitektur berbasis ruang untuk menyimpan memori. Informasi diklasifikasikan dengan jelas ke zona sayap yang merepresentasikan personel atau proyek, serta struktur berbeda seperti lorong, kamar, dan laci, sambil menyimpan teks percakapan asli untuk pencarian makna di kemudian hari.

Tim pengembang mengklaim, MemPalace meraih nilai sempurna 100% dalam tolok ukur memori jangka panjang LongMemEval, dan juga mencapai akurasi 96,6% tanpa memanggil API eksternal apa pun. Selain itu, bisa berjalan sepenuhnya di sisi lokal, tidak perlu berlangganan layanan cloud, serta dibekali sistem dialek AAAK yang disebut mampu mencapai kompresi tanpa rugi 30 kali lipat.

Sumber gambar: GitHub Bintang film Hollywood Milla Jovovich membangun istana memori AI, menarik perhatian publik

Rekan industri dan komunitas kompak mempertanyakan, metode uji dan materi promosi bermasalah

Namun, pencapaian konon nilai sempurna di LongMemEval dari MemPalace segera memicu keraguan dari rekan industri.

PenfieldLabs, yang juga membuat sistem memori AI, menyoroti bahwa MemPalace mengklaim meraih nilai sempurna di dataset LoCoMo, yang secara matematis tidak mungkin terjadi, karena jawaban standar pada dataset tersebut sendiri sudah mengandung 99 kesalahan.

Analisis PenfieldLabs menemukan bahwa skor 100% MemPalace berasal dari penyetelan jumlah pencarian menjadi 50 kali, tetapi pada tahap percakapan tertinggi dalam dataset uji hanya ada 32 kali; ini berarti sistem langsung mengakali tahap pencarian, menyerahkan semua data kepada model AI untuk dibaca.

Untuk pencapaian 100% pada LongMemEval, tim pengembang ditemukan menargetkan 3 masalah spesifik yang keliru saat pengembangan terkonsentrasi, menulis kode perbaikan khusus, sehingga diduga ada kecurangan yang ditujukan pada set uji.

Sumber gambar: Reddit PenfieldLabs dari rekan industri menunjukkan bahwa MemPalace mengklaim meraih nilai sempurna di dataset LoCoMo, yang secara matematis tidak mungkin terjadi

Pengujian pengguna GitHub, komposisi dalam uji pembanding mengandung unsur menyesatkan

Pengguna GitHub hugooconnor menilai setelah pengujian langsung: MemPalace mengklaim akurasi penelusuran hingga 96,6%, tetapi nyatanya sama sekali tidak menggunakan arsitektur “istana memori” yang dipromosikan oleh MemPalace. hugooconnor mengatakan bahwa pengujian mereka hanya memanggil fitur bawaan dari basis data dasar ChromaDB, sama sekali tidak melibatkan logika klasifikasi seperti zona sayap, kamar, atau laci yang ditekankan dalam proyek.

Setelah pengujian, hugooconnor menemukan bahwa ketika sistem benar-benar mengaktifkan logika klasifikasi khusus istana memori tersebut, justru performa penelusurannya menurun. Sebagai contoh mode kamar, akurasi turun hingga 89,4%, dan setelah mengaktifkan teknologi kompresi AAAK, akurasi bahkan jatuh lagi menjadi 84,2%; keduanya lebih rendah daripada performa basis data default.

hugooconnor juga mengkritik metode pengujiannya. Lingkungan uji MemPalace secara sengaja mengecilkan rentang penelusuran untuk setiap masalah menjadi sekitar 50 tahap percakapan, sehingga mencari jawaban dalam kumpulan sampel yang sangat kecil terlalu mudah.

Jika rentang diperbesar menjadi lebih dari 19.000 tahap percakapan dalam skenario nyata, akurasi pencarian kata kunci tradisional justru anjlok menjadi 30%, yang menunjukkan bahwa metode uji MemPalace saat ini menutupi masalah pencarian sebenarnya yang lebih sulit.

Sumber gambar: GitHub Pengujian pengguna GitHub menunjukkan bahwa uji pembanding MemPalace mengandung unsur menyesatkan

Sementara itu, meskipun tim pengembang sudah merilis pernyataan koreksi dan mengakui bahwa teknologi AAAK memang diverifikasi sebagai kompresi dengan rugi, serta berjanji akan memperbaiki dokumentasi dan desain sistem berdasarkan kritik keras dari komunitas. Namun, dokumen utama proyek masih mempertahankan berbagai klaim yang belum diperbaiki, termasuk pernyataan kompresi tanpa rugi 30 kali dan peningkatan penelusuran 34%, dan bagan perbandingan dengan kompetitor lain pun sama sekali tidak menyertakan sumber atau asal-usulnya.

Kode sumber MemPalace menghadapi berbagai Bug

Seiring semakin banyak pengembang mengunduh pengujian, kini bermunculan banyak laporan Bug terkait kode sumber MemPalace di platform GitHub.

Pengguna cktang88 merinci berbagai kekurangan serius, termasuk perintah kompresi yang tidak bisa dijalankan dan menyebabkan sistem crash, kesalahan dalam logika perhitungan jumlah kata untuk ringkasan, ketidakakuratan data statistik saat menggali kamar, serta masalah bahwa server memuat semua data interpretasi ke dalam memori setiap kali dipanggil, menimbulkan konsumsi sumber daya yang serius.

Masalah lain yang juga disebutkan mencakup sistem yang memaksa nama anggota keluarga pengembang ditulis ke dalam file konfigurasi default, serta adanya batas paksa maksimum tampilan 10k entri data saat memeriksa status kueri.

Untuk masalah-masalah ini, komunitas open source sudah mulai aktif memperbaiki. Pengguna adv3nt3 mengajukan banyak permintaanperbaikan, termasuk perbaikan data statistik penggalian, penghapusan nama anggota keluarga default, serta penundaan waktu inisialisasi pengetahuan knowledge graph. Tim pengembang kemudian juga mengakui kesalahan-kesalahan tersebut dan sedang menyelesaikan masalah kode secara bertahap melalui kolaborasi komunitas.

Vibe Coding Milla Jovovich keren, cara pemasaran tidak keren

Untuk proyek MemPalace ini, seorang pengguna Hacker News bernama darkhanakh menarik kesimpulan: MemPalace memberi kesan seperti OpenClaw, yakni secara artifisial mengutak-atik hasil uji pembanding (benchmark) agar terlihat sempurna, lalu membungkusnya menjadi semacam terobosan besar untuk dipasarkan.

Ia berpendapat bahwa teknologi dasar MemPalace mungkin benar-benar menarik, tetapi dalam kondisi metode pengujian yang memiliki kekurangan seperti itu, lalu tetap mengiklankan dengan tagline “skor publik tertinggi dalam sejarah”, itu kurang pantas. “Namun, soal Milla Jovovich bermain Vibe Coding, saya tetap merasa itu cukup keren.”

Bacaan lanjutan:
AI menulis kode dan bikin masalah! Aplikasi “penangkap sisa makanan” produk tanggal kedaluwarsa toko swalayan meledak dengan isu keamanan siber, GPS di rumah langsung terbuka tanpa penutup

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar