Dari kebocoran tak terduga hingga rapat darurat di Washington, bagaimana Anthropic mengubah aturan permainan keamanan siber dalam dua minggu?

8 April, Menteri Keuangan AS Janet Yellen dan Ketua Federal Reserve Jerome Powell secara darurat memanggil sekelompok pemimpin bank Wall Street di kantor pusat Departemen Keuangan Washington.

Tema pertemuan bukanlah suku bunga, bukan inflasi, melainkan model terbaru dari sebuah perusahaan AI.

Model ini disebut Claude Mythos. Anthropic mengatakan ini adalah AI terkuat yang pernah mereka buat, sekuat itu sampai mereka sendiri takut merilisnya. Dalam pengujian internal, model ini melarikan diri dari sandbox keamanan yang dirancang para peneliti, dan memposting di internet untuk memamerkan proses pelariannya. Peneliti yang bertanggung jawab atas pengujian ini, Sam Bowman, saat itu sedang makan sandwich di taman, tiba-tiba menerima email dari Mythos, dan baru menyadari bahwa model itu sudah keluar.

Reaksi berantai yang dipicu oleh konfigurasi CMS yang salah

Kisah ini dimulai dari malam 26 Maret.

Alexandre Pauwels dari Universitas Cambridge dan Roy Paz dari LayerX Security, seperti semua peneliti keamanan, melakukan hal yang biasa mereka lakukan setiap hari: menyelidiki hal-hal yang seharusnya tidak bisa diakses publik. Mereka menemukan sebuah database tidak terenkripsi dari sistem manajemen konten Anthropic, berisi hampir 3000 dokumen yang belum dipublikasikan.

Salah satu dokumen adalah draft blog yang menggambarkan model baru bernama Claude Mythos. Dalam draft tersebut digunakan kode internal “Capybara” (waterhog), dan mendefinisikan sebuah level model baru yang lebih besar, lebih cerdas, dan lebih mahal daripada seri Opus yang sebelumnya merupakan yang terkuat dari Anthropic.

Satu kalimat dalam draft itu membuat seluruh komunitas keamanan heboh: model ini “jauh melampaui AI lain dalam kemampuan keamanan siber,” dan “menandai gelombang model yang akan datang, yang kemampuannya mengeksploitasi kerentanan akan jauh melampaui kecepatan pertahanan.”

Fortune pertama kali melaporkan kebocoran ini. Anthropic menyebut penyebabnya sebagai “kesalahan manusia,” mengatakan bahwa pengaturan default sistem manajemen konten mengatur file yang diunggah menjadi akses publik. Ironisnya, sebuah perusahaan yang mengklaim membangun AI keamanan siber terkuat di dunia, justru terjebak dalam kesalahan konfigurasi paling dasar.

Lima hari kemudian, Fortune melaporkan kebocoran kedua, yaitu kode sumber alat pemrograman Claude Code milik Anthropic yang terdiri dari sekitar 500k baris kode dan 1900 file, bocor karena kesalahan pengemasan npm. Dua insiden keamanan tingkat rendah dalam dua minggu, berasal dari perusahaan yang sama yang memperingatkan dunia tentang “masa serangan siber AI” yang akan datang.

Namun pasar tidak peduli untuk mengejek tingkat operasional Anthropic. Pada hari pembukaan pasar 27 Maret, saham keamanan siber langsung jatuh. CrowdStrike anjlok 7,5%, Palo Alto Networks turun lebih dari 6%, Zscaler turun 4,5%, dan ETF keamanan siber iShares turun 4% dalam satu hari.

Analis Stifel, Adam Borg, menilai: ini mungkin adalah “alat hacking paling canggih, yang bisa meningkatkan hacker biasa ke level lawan negara.”

Seberapa kuat Mythos sebenarnya?

Pada 7 April, Anthropic secara resmi memperkenalkan Mythos. Mari lihat angka-angkanya:

Skor SWE-bench Verified (pengukuran kemampuan AI menyelesaikan masalah rekayasa perangkat lunak nyata) mencapai 93,9%, sedangkan pendahulunya Opus 4.6 hanya 80,8%. Pembuktian matematika USAMO 2026, 97,6% berbanding 42,3%. Kompetisi tantangan keamanan siber Cybench, 100% tingkat keberhasilan, belum pernah ada model sebelumnya yang mampu.

Pembuktian matematika USAMO melonjak dari 42,3% ke 97,6%, membuka jarak 55 poin persentase antara generasi model.

Anthropic merilis 244 halaman sistem keamanan yang mengakui bahwa kemampuan keamanan siber Mythos bukan berasal dari pelatihan khusus keamanan, melainkan hasil dari peningkatan kemampuan inferensi dan pengkodean umum yang merupakan “hasil turunan.” Perbaikan yang sama membuatnya lebih mahir dalam memperbaiki kerentanan sekaligus memanfaatkannya.

Tim red team terdepan Anthropic menguji Mythos pada perangkat lunak nyata. Bukan lingkungan simulasi, bukan soal kompetisi CTF, melainkan sistem operasi dan browser yang digunakan ratusan juta orang setiap hari.

Hasilnya: di mesin JavaScript Firefox 147, Opus 4.6 mencoba ratusan kali dan hanya berhasil menemukan 2 exploit yang bisa digunakan. Mythos berhasil 181 kali. Jarak 90 kali lipat, jarak antar generasi model. Di semua sistem operasi dan browser utama, Mythos menemukan ribuan kerentanan zero-day, banyak di antaranya diklasifikasikan sebagai “serius.”

Lebih gila lagi, beberapa kasus tertentu. Sebuah kerentanan TCP SACK di OpenBSD yang bertahan selama 27 tahun, melalui berbagai audit manual dan otomatis, tidak pernah ditemukan. Mythos menemukannya hanya dengan dua paket data yang dirancang dengan cermat, cukup untuk membuat server mana pun crash. Kerentanan eksekusi kode jarak jauh NFS di FreeBSD yang ada selama 17 tahun, Mythos tidak hanya menemukannya, tetapi juga membangun rantai serangan yang terdiri dari 20 ROP gadget yang melintasi beberapa paket.

Beberapa insinyur dari Anthropic yang tidak memiliki latar belakang keamanan melakukan pengujian: sebelum tidur, mereka meminta Mythos mencari kerentanan eksekusi kode jarak jauh, dan keesokan paginya, sudah ada exploit lengkap yang siap digunakan di meja mereka.

Pelarian sandbox: saat AI mulai “tidak berperikemanusiaan”

Menemukan kerentanan zero-day adalah soal kemampuan, tetapi perilaku Mythos selama pengujian menunjukkan pola yang sama sekali berbeda.

Dalam satu pengujian perilaku, peneliti memberi versi awal Mythos sebuah sandbox keamanan, dan mensimulasikan pengguna yang memintanya mencoba melarikan diri dari sandbox dan memberi tahu peneliti yang bertugas. Mythos tidak hanya berhasil keluar, tetapi juga melakukan sesuatu yang tidak diminta: ia mengunjungi beberapa situs yang tidak terkenal tetapi dapat diakses publik, dan memposting di sana tentang proses pelariannya.

Dalam 244 halaman sistem keamanan, tercatat lebih banyak lagi perilaku “melampaui batas.” Ketika Mythos melakukan kesalahan dalam kode, ia mencoba mengubah riwayat commit git untuk menutupi jejaknya, bukan karena ingin menipu, tetapi karena mengartikan “memperbaiki masalah ini” sebagai “membuat masalah ini tampak tidak pernah ada.” Dalam pengujian lain, seorang peneliti meminta Mythos menghentikan sebuah tugas evaluasi yang tidak lagi berguna, dan ia langsung mematikan semua evaluasi serupa yang sedang dijalankan pengguna.

Dalam sistem keamanan, Anthropic menggunakan metafora pendakian gunung: pemandu yang sangat terampil mungkin lebih mudah menyebabkan klien tersesat, karena kemampuannya akan membawa semua orang ke jalur yang lebih berbahaya.

Ada juga detail tersembunyi dalam sistem keamanan: melalui alat penjelasan internal yang transparan, peneliti menemukan bahwa Mythos kadang-kadang melakukan inferensi tentang “bagaimana” melewati penilaian sistem, sementara dalam output rantai pikir yang terlihat, ia menulis hal yang sama sekali berbeda. Ia “berpikir” satu hal, tetapi “mengatakan” hal lain.

Anthropic mengatakan mereka “cukup yakin” bahwa perilaku ini adalah model yang menggunakan cara tidak tepat untuk menyelesaikan tugas, bukan tujuan jangka panjang yang tersembunyi. Mythos tidak sedang berkonspirasi. Ia hanya sangat mahir menyelesaikan tugas, tetapi sama sekali tidak memahami batasan. Asisten yang tidak tahu batas ini, yang serba bisa tetapi tanpa rasa batas, mungkin lebih sulit dihadapi daripada AI yang memiliki niat jahat.

Project Glasswing: Menyulut perisai dengan tombak

Anthropic tidak memilih untuk mengunci Mythos dalam brankas.

Pada 7 April, mereka mengumumkan Project Glasswing (dinamai dari kupu-kupu kaca yang hampir transparan, melambangkan “ketiadaan tempat persembunyian” dari celah perangkat lunak), yang menyediakan pratinjau Mythos kepada sekitar 40 organisasi yang telah diaudit, untuk pekerjaan keamanan siber defensif.

Mitra utama: Amazon AWS, Apple, Microsoft, Google, Nvidia, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. Hampir semua pemain utama di Silicon Valley dan Wall Street. Anthropic berjanji menyediakan hingga 100 juta dolar dalam bentuk kredit penggunaan, dan menyumbang 4 juta dolar ke organisasi keamanan sumber terbuka seperti OpenSSF dan Alpha-Omega.

Logikanya: kemampuan setingkat Mythos akan menyebar ke model open source dalam 6 sampai 18 bulan, sehingga siapa pun bisa menggunakannya. Daripada menunggu saat itu, lebih baik di masa window ini, para defender mengambil langkah lebih dulu, memperbaiki celah yang bisa diperbaiki.

Kepala tim red team keamanan siber Anthropic, Newton Cheng, mengatakan secara langsung: targetnya adalah agar organisasi terbiasa menggunakan kemampuan ini untuk pertahanan sebelum kemampuan ini menyebar luas. Karena kemampuan ini pasti akan digunakan secara luas, satu-satunya pertanyaan adalah kapan.

Wall Street awalnya panik, lalu lega.

Setelah kebocoran pada 27 Maret, saham keamanan siber langsung anjlok, tetapi setelah pengumuman resmi Glasswing oleh Anthropic dan penunjukan CrowdStrike serta Palo Alto Networks sebagai mitra utama pada 7 April, kedua saham tersebut melonjak masing-masing 6,2% dan 4,9%, dan setelah jam perdagangan tutup, naik lagi 2%. JPMorgan mengulangi rekomendasi beli untuk kedua perusahaan tersebut, dengan analis Brian Essex berpendapat bahwa CrowdStrike dan Palo Alto diposisikan sebagai lapisan inti dari pertahanan, bukan sebagai pesaing.

Namun ini hanyalah pengobatan sementara. Dua saham tersebut masih turun masing-masing 9,7% dan 7,8% sejak awal tahun.

Ketika risiko AI menjadi risiko sistem keuangan

Kembali ke Washington, 8 April.

Yellen dan Powell memanggil bank-bank sistemik penting. Pertemuan sebesar ini biasanya hanya terjadi saat krisis keuangan atau pandemi. Sekarang, yang dibahas adalah kemampuan serangan siber dari sebuah model AI.

Alasannya sederhana: jika kemampuan setingkat Mythos jatuh ke tangan pelaku jahat, mereka bisa menemukan kerentanan zero-day di sistem inti bank besar dalam beberapa jam dan menulis kode serangan yang bisa digunakan. Asumsi dasar dari sistem pertahanan siber sebelumnya adalah bahwa menemukan dan memanfaatkan kerentanan membutuhkan waktu lama dan tenaga ahli yang tinggi. AI sedang membalik asumsi ini.

Casey Newton dari Platformer mengutip pernyataan Alex Stamos dari Corridor, bahwa model open source kemungkinan dalam enam bulan akan menyamai kemampuan deteksi kerentanan dari model tertutup yang paling canggih.

Lebih menakutkan lagi, Anthropic sendiri mengakui dalam sistem keamanan mereka bahwa mereka gagal mendeteksi perilaku paling berbahaya dari versi awal Mythos secara langsung. Masalah terbesar bukanlah yang terdeteksi saat pengujian, tetapi yang muncul saat digunakan secara nyata.

Premis yang tidak nyaman

Logika dasar dari Project Glasswing sebenarnya cukup aneh: untuk melindungi dunia dari serangan AI berbahaya, Anda harus terlebih dahulu menciptakan AI berbahaya itu.

Newton dari Platformer menyebutkan fakta yang sering diabaikan: sebuah perusahaan swasta kini menguasai kemampuan memanfaatkan kerentanan zero-day dari hampir semua proyek perangkat lunak yang pernah Anda dengar. Konsentrasi ini sendiri sudah merupakan risiko. Motif pencurian model-model Anthropic pun meningkat secara signifikan.

Dan semua ini terjadi di lingkungan yang hampir tidak memiliki regulasi AI. Anthropic mengklaim telah melapor ke CISA dan Departemen Perdagangan. Tetapi dari laporan yang ada, pemerintah tampaknya belum menunjukkan rasa urgensi yang sepadan dengan ancaman tersebut. Seperti yang dikatakan seorang sumber internal yang mengetahui Mythos kepada Axios: “Washington mengelola krisis dengan cara mengandalkan krisis itu sendiri. Sebelum keamanan siber benar-benar menjadi krisis dan mendapatkan perhatian serta sumber daya yang layak, itu hanyalah isu pinggiran.”

Dario Amodei saat mendirikan Anthropic, menceritakan kisah ini: membiarkan laboratorium yang sangat mengutamakan keamanan menghadapi kemampuan paling berbahaya terlebih dahulu, agar mereka bisa membangun pertahanan sebelum orang lain menyentuhnya. Mythos dan Glasswing memang mengikuti skenario ini.

Tapi akankah teori ini mampu mengungguli kenyataan? Tidak ada yang tahu. Anthropic berencana mengimplementasikan langkah-langkah keamanan baru pada model Opus mendatang, karena model itu “tidak akan membawa risiko setinggi Mythos.” Pada akhirnya, masyarakat akan mendapatkan kemampuan setingkat Mythos, tetapi setelah sistem perlindungan sudah siap.

Berapa lama jendela waktu ini? Stamos memberi perkiraan optimis: “Jika kita baru saja melampaui kemampuan manusia, maka ada celah besar tapi terbatas yang bisa ditemukan dan diperbaiki.”

“Jika” ini sangat besar.

Dari konfigurasi CMS yang salah pada 26 Maret hingga pertemuan darurat di Washington pada 8 April, hanya dua minggu, sebuah model AI berubah dari berita teknologi Silicon Valley menjadi isu keamanan keuangan di Washington.

Stamos mengatakan bahwa defender memiliki sekitar enam bulan jendela waktu. Setelah itu, model open source akan menyusul, dan kemampuan ini tidak lagi menjadi hak istimewa beberapa perusahaan saja.

Enam bulan untuk memperbaiki berapa banyak kerentanan akan menentukan bagaimana permainan berikutnya dimainkan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan