Secara singkat Insinyur AI Kyle Hessling menggabungkan dua finetune Claude Opus 4.6 dan GLM-5.1 dari Jackrong menjadi satu "frankenmerge." Setelah penggabungan, diperlukan "penyembuhan finetune" untuk memperbaiki output kode yang berantakan akibat batas lapisan antara keduanya yang dilatih secara independen.

Decrypt

2026-04-21 18:01:22

Singkatnya

Insinyur AI Kyle Hessling menggabungkan dua finetune Claude Opus 4.6 dan GLM-5.1 dari Jackrong menjadi satu “frankenmerge.”
Setelah penggabungan, diperlukan “heal fine-tune” untuk memperbaiki output kode yang berantakan akibat batas layer antara dua model yang dilatih secara independen.
Model ini terlalu banyak beralasan pada beberapa tugas, tetapi itu adalah masalah yang dapat dipecahkan.

Kamu pikir Qwopus keren karena menggabungkan Qwen dan Opus? Nah, Kyle Hessling, seorang insinyur AI dengan banyak pengetahuan dan waktu luang, baru saja mengambil resep itu dan memasukkan GLM—salah satu model penalaran terbaik yang ada—ke dalam campuran. Hasilnya adalah sebuah frankenmerge dengan 18 miliar parameter yang cocok di GPU murah dan mengungguli model terbaru Alibaba 35B. Bagi yang belum tahu, parameter adalah nilai numerik yang tertanam dalam jaringan neural selama pelatihan, seperti dial yang dapat disesuaikan oleh jaringan neural — semakin banyak, semakin banyak pengetahuan dan kompleksitas yang dapat ditangani model, dan semakin banyak memori yang dibutuhkan untuk menjalankan. Hessling, seorang insinyur infrastruktur AI, menumpuk dua finetune Qwen3.5 dari Jackrong secara bertumpuk: lapisan 0 hingga 31 dari Qwopus 3.5-9B-v3.5, yang mendistilasi gaya penalaran Claude 4.6 Opus ke dalam Qwen sebagai model dasar, dan lapisan 32 hingga 63 dari Qwen 3.5-9B-GLM5.1-Distill-v1, yang dilatih pada data penalaran dari model pengajar GLM-5.1 dari z.AI di atas dasar Qwen yang sama.

Hipotesisnya: Berikan model ini perencanaan terstruktur ala Opus di bagian awal penalaran dan kerangka dekomposisi masalah GLM di bagian kedua—total 64 lapisan, dalam satu model. Teknik ini disebut passthrough frankenmerge—tanpa pencampuran, tanpa rata-rata bobot, hanya tumpukan lapisan mentah. Hessling harus menulis skrip penggabungannya sendiri dari awal karena alat yang ada tidak mendukung arsitektur perhatian hybrid linear/full dari Qwen 3.5. Model yang dihasilkan melewati 40 dari 44 tes kemampuan, mengalahkan Qwen 3.6-35B-A3B MoE dari Alibaba—yang membutuhkan 22 GB VRAM—sementara berjalan hanya dengan 9,2 GB dalam kuantisasi Q4_K_M. NVIDIA RTX 3060 menangani ini dengan baik… secara teori.

Hessling menjelaskan bahwa membuat model ini tidak mudah. Penggabungan mentah dulu sering menyebabkan kode berantakan. Tapi meskipun begitu, model uji yang dia terbitkan menjadi viral di kalangan penggemar. Perbaikan terakhir Hessling adalah “heal fine-tune”—pada dasarnya sebuah QLoRA (sepotong kode yang disisipkan ke dalam model seperti lampiran dan sangat mempengaruhi output akhir )yang menargetkan semua perhatian dan proyeksi. Kami mencobanya, dan meskipun gagasan menjalankan Qwen, Claude Opus, dan GLM 5.1 secara lokal di perangkat sederhana sangat menggoda, kenyataannya kami menemukan bahwa model ini sangat hebat dalam penalaran sehingga cenderung overthinking. Saat diuji di MacBook M1 yang menjalankan versi kuantisasi MLX (sebuah model yang dioptimalkan untuk Mac). Ketika diminta menghasilkan permainan uji biasa kami, rantai penalaran berjalan begitu panjang hingga mencapai batas token dan memberi kami bagian penalaran yang panjang tanpa hasil yang berfungsi dalam interaksi nol tembakan. Itu menjadi penghalang harian bagi siapa saja yang ingin menjalankan ini secara lokal di perangkat konsumen untuk aplikasi serius. Kami mengurangi sedikit beban dan tetap mengalami tantangan. Prompt sederhana “tulis permainan Snake” memakan waktu lebih dari 40 menit dalam penalaran… sebagian besar.

Kamu bisa melihat hasilnya di repositori Github kami. Ini adalah ketegangan yang dikenal dalam garis keturunan Qwopus: finetune v2 dari Jackrong dibuat untuk mengatasi kecenderungan Qwen 3.5 terhadap loop internal berulang dan “berpikir lebih ekonomis.” Menumpuk 64 lapisan dari dua distilasi penalaran tampaknya memperkuat perilaku tersebut pada prompt tertentu.

Itu adalah masalah yang dapat dipecahkan, dan komunitas sumber terbuka kemungkinan akan menyelesaikannya. Yang penting di sini adalah pola yang lebih luas: pengembang pseudonim menerbitkan finetune khusus lengkap dengan panduan pelatihan, penggemar lain menumpuknya dengan skrip kustom, menjalankan 1.000 langkah penyembuhan, dan mendapatkan model yang mengungguli rilis dengan 35 miliar parameter dari salah satu laboratorium AI terbesar di dunia. Seluruhnya muat dalam satu file kecil. Inilah yang membuat sumber terbuka patut diperhatikan—bukan hanya lab besar yang merilis bobot, tetapi solusi lapis demi lapis, spesialisasi yang terjadi di bawah radar. Celah antara proyek akhir pekan dan penerapan frontier semakin sempit semakin banyak pengembang bergabung dengan komunitas. Sejak itu, Jackrong telah menyalin repositori Hessling, dan model ini telah diunduh lebih dari tiga ribu kali dalam dua minggu pertama ketersediaannya.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.