Tóm tắt Kỹ sư AI Kyle Hessling đã hợp nhất hai bản tinh chỉnh Claude Opus 4.6 và GLM-5.1 của Jackrong thành một "frankenmerge" duy nhất. Một quá trình "tinh chỉnh sửa chữa sau hợp nhất" đã được yêu cầu để sửa lỗi mã bị rối do ranh giới lớp giữa hai mô hình được huấn luyện độc lập

Decrypt

2026-04-21 18:01:22

Tóm tắt ngắn gọn

Kỹ sư AI Kyle Hessling đã hợp nhất hai bản tinh chỉnh của Jackrong là Claude Opus 4.6 và GLM-5.1 thành một “frankenmerge” duy nhất.
Một bước “hồi phục tinh chỉnh” sau hợp nhất cần thiết để sửa lỗi mã bị rối do giới hạn lớp giữa hai mô hình độc lập đã huấn luyện.
Mô hình có xu hướng suy luận quá mức trong một số nhiệm vụ, nhưng đó là một vấn đề có thể giải quyết được.

Bạn nghĩ rằng Qwopus thật ngầu vì nó hợp nhất Qwen và Opus? Chà, Kyle Hessling, một kỹ sư AI có nhiều kiến thức và thời gian rảnh, vừa lấy công thức đó và thêm GLM—một trong những mô hình suy luận tốt nhất—vào. Kết quả là một frankenmerge 18 tỷ tham số phù hợp với GPU rẻ tiền và vượt xa mô hình mới nhất 35B của Alibaba. Đối với những ai chưa biết, tham số là các giá trị số được nhúng vào trong mạng nơ-ron trong quá trình huấn luyện, giống như các nút điều chỉnh mà mạng nơ-ron có thể thay đổi — càng nhiều tham số, mô hình có thể xử lý nhiều kiến thức và độ phức tạp hơn, đồng thời cần nhiều bộ nhớ hơn để chạy. Hessling, một kỹ sư hạ tầng AI, đã xếp chồng hai bản tinh chỉnh Qwen3.5 của Jackrong: các lớp từ 0 đến 31 của Qwopus 3.5-9B-v3.5, giúp tinh giản phong cách suy luận của Claude 4.6 Opus vào Qwen như một mô hình nền, và các lớp từ 32 đến 63 của Qwen 3.5-9B-GLM5.1-Distill-v1, huấn luyện dựa trên dữ liệu suy luận từ mô hình giáo viên GLM-5.1 của z.AI trên nền Qwen cùng loại.

Giả thuyết: Cung cấp cho mô hình khả năng lập kế hoạch theo kiểu Opus trong nửa đầu của quá trình suy luận và khung phân tích vấn đề của GLM trong nửa sau—tổng cộng 64 lớp, trong một mô hình. Kỹ thuật này gọi là hợp nhất kiểu passthrough—không pha trộn, không trung bình trọng số, chỉ đơn thuần xếp chồng lớp thô. Hessling phải tự viết script hợp nhất của riêng mình từ đầu vì các công cụ hiện có không hỗ trợ kiến trúc chú ý lai tuyến tính/đầy đủ của Qwen 3.5. Mô hình sau khi hoàn thiện đã vượt qua 40 trong 44 bài kiểm tra khả năng, đánh bại Qwen 3.6-35B-A3B MoE của Alibaba—yêu cầu 22 GB VRAM—trong khi chỉ chạy với 9,2 GB trong định dạng Q4_K_M. Một card NVIDIA RTX 3060 xử lý tốt… về lý thuyết.

Hessling giải thích rằng việc tạo ra mô hình này không dễ dàng. Việc hợp nhất thô thường gây ra lỗi mã rối. Nhưng dù sao, các mô hình thử nghiệm mà anh đăng tải đã trở nên khá nổi bật trong cộng đồng yêu thích AI. Phần sửa cuối cùng của Hessling là một “hồi phục tinh chỉnh”—cơ bản là một đoạn mã QLoRA (như một phần phụ lồng vào mô hình như một phụ lục và điều kiện hóa mạnh mẽ đầu ra cuối cùng) nhằm mục tiêu tất cả các chú ý và dự đoán. Chúng tôi đã thử, và dù ý tưởng có Qwen, Claude Opus, và GLM 5.1 chạy cục bộ trong máy tính yếu của chúng tôi thật hấp dẫn, nhưng thực tế chúng tôi nhận thấy mô hình quá giỏi suy luận đến mức bị quá tải. Khi thử trên MacBook M1 chạy phiên bản đã được lượng tử hóa (một mô hình tối ưu để chạy trên Mac), khi được yêu cầu tạo ra trò chơi thử nghiệm thông thường, chuỗi suy luận dài đến mức chạm giới hạn token và đưa ra một đoạn lý luận dài mà không có kết quả hoạt động trong một tương tác không cần huấn luyện trước. Điều này là một rào cản hàng ngày cho bất kỳ ai muốn chạy mô hình này cục bộ trên phần cứng tiêu dùng cho các ứng dụng nghiêm trọng. Chúng tôi đã giảm nhẹ hơn một chút và mọi thứ vẫn còn thách thức. Một yêu cầu đơn giản “viết một trò chơi Snake” mất hơn 40 phút để suy luận… phần lớn trong đó.

Bạn có thể xem kết quả trong kho lưu trữ Github của chúng tôi. Đây là một mâu thuẫn đã biết trong dòng Qwopus: các bản tinh chỉnh v2 của Jackrong được xây dựng để giải quyết xu hướng lặp lại nội bộ và “suy nghĩ tiết kiệm hơn” của Qwen 3.5. Việc xếp chồng 64 lớp của hai bản tinh chỉnh suy luận dường như làm tăng hành vi đó trên một số lệnh.

Đây là một vấn đề có thể giải quyết, và cộng đồng mã nguồn mở có khả năng sẽ giải quyết nó. Điều quan trọng ở đây là mô hình rộng hơn: một nhà phát triển giấu tên công bố các bản tinh chỉnh chuyên biệt kèm hướng dẫn huấn luyện đầy đủ, một người yêu thích khác xếp chồng chúng bằng script tùy chỉnh, chạy 1.000 bước hồi phục, và tạo ra một mô hình vượt trội hơn một bản phát hành 35 tỷ tham số từ một trong những phòng lab AI lớn nhất thế giới. Toàn bộ đều nằm trong một tệp nhỏ. Điều này làm cho mã nguồn mở đáng để theo dõi—không chỉ các phòng lab lớn phát hành trọng số, mà còn các giải pháp từng lớp, sự chuyên môn hóa diễn ra âm thầm. Khoảng cách giữa một dự án cuối tuần và một triển khai tiên phong ngày càng thu hẹp khi nhiều nhà phát triển tham gia cộng đồng hơn. Kể từ đó, Jackrong đã sao chép lại kho lưu trữ của Hessling, và mô hình đã thu hút hơn ba nghìn lượt tải trong hai tuần đầu tiên ra mắt.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
300.72K Phổ biến
#
Gate13thAnniversaryLive
760.14K Phổ biến
#
BitcoinBouncesBack
174.43K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.57K Phổ biến
#
USIranTalksProgress
880.27K Phổ biến

Ghim

sơ đồ trang web

AI Frankenstein này kết hợp Claude Opus, GLM và Qwen—Và vượt trội hơn các mô hình hàng đầu

Tóm tắt ngắn gọn

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Ghim