Qwen3.6-27B 開源發表「Openclaw、Hermes首選」:AI 表現打平Claude Opus 4.5 成本縮 14 倍

阿里巴巴千問(Qwen)系列最新旗艦 Qwen3.6-27B 於 2026 年 4 月 22 日晚間正式開源,這顆 27B dense 模型在 Terminal-Bench 2.0 以 59.3 分平 Claude 4.5 Opus,並以不到 1/14 的引數量,在 SWE-bench Verified 以 77.2 超越上一代 397B MoE 旗艦的 76.2。完整模型 55.6 GB、Q4_K_M 量化壓到 16.8 GB 可在消費級硬體跑起,讓 OpenClaw、Hermes Agent 等本地 agent 框架首次擁有一顆真正堪用的本地大腦。
(前情提要:被 Anthropic 點名封殺,OpenClaw 建議使用者改用 API Key 或換跑 Qwen、Kimi 等替代方案)
(背景補充:美國AI需要「審查」關進實驗室!中國則全力拋開源模型,為什麼?)

本文目錄

Toggle

  • Benchmark 成績:三個最亮眼的結論
  • 規格:消費級硬體裝得下的千億級效能
  • 為什麼是 OpenClaw 與 Hermes Agent 的本地大腦?
  • 開源 vs 封閉:阿里的路線布局與地緣格局

2026 年 4 月 22 日晚間,阿里巴巴千問團隊悄悄在 Hugging Face 推送了一顆炸彈:Qwen3.6-27B 正式開源,Apache 2.0 授權,任何人可自由商用。數字看似平凡,背後的意義不平凡——27B dense 架構(非 MoE),在終端 agent 測試首次追平 Anthropic 封閉旗艦 Claude 4.5 Opus,同時以 55.6 GB 的體積,打敗了需要 807 GB 視訊記憶體才能完整跑起的上一代 397B MoE 怪獸。本地部署、agent 能跑、消費級硬體裝得下,三個條件 Qwen3.6-27B 全部達到。

Benchmark 成績:三個最亮眼的結論

Qwen 團隊選了 10 項反映真實 agent 程式設計能力的基準測試,Qwen3.6-27B 的成績如下:

Benchmark
Qwen3.6-27B
Qwen3.5-27B
Qwen3.6-35B-A3B
Qwen3.5-397B-A17B
Claude 4.5 Opus
SWE-bench Verified
77.2
75.0
73.4
76.2
80.9
SWE-bench Pro
53.5
51.2
49.5
50.9
57.1
SWE-bench Multilingual
71.3
69.3
67.2
69.3
77.5
Terminal-Bench 2.0
59.3
41.6
51.5
52.5
59.3
SkillsBench Avg5
48.2
27.2
28.7
30.0
45.3
QwenWebBench
1487
1068
1397
1186
1536
NL2Repo
36.2
27.3
29.4
32.2
43.2
Claw-Eval Avg
72.4
64.3
68.7
70.7
76.6
Claw-Eval Pass^3
60.6
46.2
50.0
48.1
59.6
QwenClawBench
53.4
52.2
52.6
51.8
52.3

三個關鍵結論值得單獨標出:第一,Terminal-Bench 2.0 59.3 平 Claude 4.5 Opus——這是 27B dense 模型首次在終端 agent 任務追上 Anthropic 封閉旗艦,而 Qwen3.5-27B 舊版只有 41.6,等於單代提升了 17.7 分。第二,SWE-bench Verified 77.2 超越 Qwen3.5-397B-A17B 的 76.2——27B dense 幹掉上一代 397B MoE 旗艦,模型體積從 807 GB 縮到 55.6 GB,縮小了 14 倍以上。第三,SkillsBench 從 27.2 衝到 48.2(+77%)、Claw-Eval Pass^3 以 60.6 超越 Claude 4.5 Opus 的 59.6——多輪、多步驟一致性是本次最大升級,代表模型在連續執行複雜 agent 任務時不容易中途崩潰或跑偏。

知識與推理方面同樣亮眼:MMLU-Pro 86.2、MMLU-Redux 93.5、GPQA Diamond 87.8、AIME 2026 94.1、LiveCodeBench v6 83.9,全面超越同引數量前代。

規格:消費級硬體裝得下的千億級效能

Qwen3.6-27B 是純 dense 架構,27B 引數量並非 MoE 的 active 引數,而是每次推理都完整啟動的真實引數。原生 context 長度 262,144 tokens,透過 YaRN 擴充套件最高可達 1,010,000 tokens(約 1M),對需要長檔案分析或跨倉庫理解的 coding agent 來說是剛需規格。完整精度模型 55.6 GB,若採用 Q4_K_M 量化,體積壓縮到 16.8 GB,24 GB 視訊記憶體的 Mac M 系列或消費級 GPU 均可直接載入。授權為 Apache 2.0,商業用途無需額外授權費。部署推薦 SGLang ≥0.5.10 或 vLLM ≥0.19.0,KTransformers 及 HF Transformers 亦支援。此外,Qwen3.6-27B 整合了 vision encoder,同時支援圖片、文字、影片理解,並非純文字模型。

為什麼是 OpenClaw 與 Hermes Agent 的本地大腦?

原始快訊點名了兩個 agent 框架:OpenClaw 與 Hermes Agent。OpenClaw 是廣受開發者歡迎的類龍蝦(Claude Code-like)本地 agent 應用,今年 4 月初遭 Anthropic 點名封殺——Anthropic 以違反服務條款為由限制帳號後,OpenClaw 官方建議使用者改走 API Key 方案,或切換到 Qwen、Kimi 等本地替代模型。Qwen3.6-27B 的開源,精準命中了這條替代路線的需求:本地跑得動、benchmark 追到 Claude 級、Apache 2.0 免費商用,三個條件缺一不可。

Hermes Agent 則是 NousResearch 主導的開源 agent 框架,強調「自我學習 skill」迴圈——execute、evaluate、extract、refine、retrieve 五步驟讓 agent 在執行任務後自動提煉技巧並存入記憶庫,下次遇到類似問題時直接呼叫。相比 OpenClaw 偏向直覺操作,Hermes Agent 更強調長期自主演化能力,支援 NousPortal、OpenRouter、NVIDIA NIM、LM Studio、Ollama 等多種後端接入。兩個框架的共同痛點都是:在本地跑一顆真正夠強的模型。Qwen3.6-27B 在 Claw-Eval(專為 coding agent 設計的評測集)以 72.4 平均分與 60.6 Pass^3 超越 Claude 4.5 Opus,給了這兩個框架一個可以認真考慮的本地選項。

開源 vs 封閉:阿里的路線布局與地緣格局

Qwen3.6-27B 的開源並非孤立事件。阿里稍早於 4 月 16 日開源了 Qwen3.6-35B-A3B(MoE 架構,35B 總引數、3B active),這次 27B dense 的開源則補齊了「本地可完整部署、無需 MoE 分片」的空缺;而 Qwen3.6-Plus 與 Qwen3.5-Omni 仍維持閉源,透過雲端 API 商業化。一開一閉,阿里的策略輪廓清晰:用開源建立生態與信任,用閉源旗艦變現。

更大的背景是這場中美 AI 開源競賽的格局翻轉。動區稍早報導,Meta 祖克柏傳下令放棄「開源 AI」路線,轉用阿里 Qwen 訓練付費人工智慧 Avocado——美國科技巨頭收縮開源、中國廠商全力拋開源,這個反向格局正在加速定型。對開發者與本地部署需求者而言,選擇正在從「要不要開源」變成「哪個開源模型最夠用」,Qwen3.6-27B 給了一個此刻看起來答案相當清晰的選項。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言