Qwen3.6-27B 开源发布「Openclaw、Hermes首选」:AI 表现赶超Claude Opus 4.5 成本降低14倍

阿里巴巴千问(Qwen)系列最新旗舰 Qwen3.6-27B 于 2026 年 4 月 22 日晚间正式开源,这颗 27B dense 模型在 Terminal-Bench 2.0 以 59.3 分平 Claude 4.5 Opus,并以不到 1/14 的参数量,在 SWE-bench Verified 以 77.2 超越上一代 397B MoE 旗舰的 76.2。完整模型 55.6 GB、Q4_K_M 量化压缩到 16.8 GB 可在消费级硬件运行,让 OpenClaw、Hermes Agent 等本地 agent 框架首次拥有一颗真正好用的本地大脑。
(前情提要:被 Anthropic 点名封杀,OpenClaw 建议用户改用 API Key 或换用 Qwen、Kimi 等替代方案)
(背景补充:美国 AI 需要“审查”关进实验室!中国则全力抛开源模型,为什么?)

本文目录

切换

  • Benchmark 成绩:三个最亮眼的结论
  • 规格:消费级硬件装得下的千亿级性能
  • 为什么是 OpenClaw 与 Hermes Agent 的本地大脑?
  • 开源 vs 封闭:阿里的路线布局与地缘格局

2026 年 4 月 22 日晚间,阿里巴巴千问团队悄悄在 Hugging Face 推送了一颗炸弹:Qwen3.6-27B 正式开源,Apache 2.0 授权,任何人可自由商用。数字看似平凡,背后的意义不平凡——27B dense 架构(非 MoE),在终端 agent 测试首次追平 Anthropic 封闭旗舰 Claude 4.5 Opus,同时以 55.6 GB 的体积,打败了需要 807 GB 视频内存才能完整跑起的上一代 397B MoE 怪兽。本地部署、agent 能跑、消费级硬件装得下,三个条件 Qwen3.6-27B 全部达成。

Benchmark 成绩:三个最亮眼的结论

Qwen 团队选择了 10 项反映真实 agent 程序设计能力的基准测试,Qwen3.6-27B 的成绩如下:

Benchmark
Qwen3.6-27B
Qwen3.5-27B
Qwen3.6-35B-A3B
Qwen3.5-397B-A17B
Claude 4.5 Opus
SWE-bench Verified
77.2
75.0
73.4
76.2
80.9
SWE-bench Pro
53.5
51.2
49.5
50.9
57.1
SWE-bench Multilingual
71.3
69.3
67.2
69.3
77.5
Terminal-Bench 2.0
59.3
41.6
51.5
52.5
59.3
SkillsBench Avg5
48.2
27.2
28.7
30.0
45.3
QwenWebBench
1487
1068
1397
1186
1536
NL2Repo
36.2
27.3
29.4
32.2
43.2
Claw-Eval Avg
72.4
64.3
68.7
70.7
76.6
Claw-Eval Pass^3
60.6
46.2
50.0
48.1
59.6
QwenClawBench
53.4
52.2
52.6
51.8
52.3

三个关键结论值得单独标出:第一,Terminal-Bench 2.0 59.3 平 Claude 4.5 Opus——这是 27B dense 模型首次在终端 agent 任务追上 Anthropic 封闭旗舰,而 Qwen3.5-27B 旧版只有 41.6,等于单代提升了 17.7 分。第二,SWE-bench Verified 77.2 超越 Qwen3.5-397B-A17B 的 76.2——27B dense 干掉上一代 397B MoE 旗舰,模型体积从 807 GB 缩到 55.6 GB,缩小了 14 倍以上。第三,SkillsBench 从 27.2 冲到 48.2(+77%)、Claw-Eval Pass^3 以 60.6 超越 Claude 4.5 Opus 的 59.6——多轮、多步骤一致性是本次最大升级,代表模型在连续执行复杂 agent 任务时不易中途崩溃或跑偏。

知识与推理方面同样亮眼:MMLU-Pro 86.2、MMLU-Redux 93.5、GPQA Diamond 87.8、AIME 2026 94.1、LiveCodeBench v6 83.9,全面超越同参数量前代。

规格:消费级硬件装得下的千亿级性能

Qwen3.6-27B 是纯 dense 架构,27B 参数量并非 MoE 的 active 参数,而是每次推理都完整启动的真实参数。原生 context 长度 262,144 tokens,通过 YaRN 扩展最高可达 1,010,000 tokens(约 1M),对需要长文件分析或跨仓库理解的 coding agent 来说是刚需规格。完整精度模型 55.6 GB,若采用 Q4_K_M 量化,体积压缩到 16.8 GB,24 GB 视频内存的 Mac M 系列或消费级 GPU 均可直接载入。授权为 Apache 2.0,商业用途无需额外授权费。部署推荐 SGLang ≥0.5.10 或 vLLM ≥0.19.0,KTransformers 及 HF Transformers 亦支持。此外,Qwen3.6-27B 整合了 vision encoder,同时支持图片、文字、影片理解,并非纯文字模型。

为什么是 OpenClaw 与 Hermes Agent 的本地大脑?

原始快讯点名了两个 agent 框架:OpenClaw 与 Hermes Agent。OpenClaw 是广受开发者欢迎的类龙虾(Claude Code-like)本地 agent 应用,今年 4 月初遭 Anthropic 点名封杀——Anthropic 以违反服务条款为由限制账号后,OpenClaw 官方建议用户改走 API Key 方案,或切换到 Qwen、Kimi 等本地替代模型。Qwen3.6-27B 的开源,精准命中了这条替代路线的需求:本地跑得动、benchmark 追到 Claude 级、Apache 2.0 免费商用,三个条件缺一不可。

Hermes Agent 则是 NousResearch 主导的开源 agent 框架,强调“自我学习 skill” 循环——execute、evaluate、extract、refine、retrieve 五步骤让 agent 在执行任务后自动提炼技巧并存入记忆库,下次遇到类似问题时直接调用。相比 OpenClaw 偏向直觉操作,Hermes Agent 更强调长期自主演化能力,支持 NousPortal、OpenRouter、NVIDIA NIM、LM Studio、Ollama 等多种后端接入。两个框架的共同痛点都是:在本地跑一颗真正够强的模型。Qwen3.6-27B 在 Claw-Eval(专为 coding agent 设计的评测集)以 72.4 平均分与 60.6 Pass^3 超越 Claude 4.5 Opus,给了这两个框架一个可以认真考虑的本地选项。

开源 vs 封闭:阿里的路线布局与地缘格局

Qwen3.6-27B 的开源并非孤立事件。阿里稍早于 4 月 16 日开源了 Qwen3.6-35B-A3B(MoE 架构,35B 总参数、3B active),这次 27B dense 的开源则补齐了“本地可完整部署、无需 MoE 分片”的空缺;而 Qwen3.6-Plus 与 Qwen3.5-Omni 仍维持闭源,通过云端 API 商业化。一开一闭,阿里的策略轮廓清晰:用开源建立生态与信任,用闭源旗舰变现。

更大的背景是这场中美 AI 开源竞赛的格局翻转。动区稍早报道,Meta 祖克伯传下令放弃“开源 AI”路线,转用阿里 Qwen 训练付费人工智能 Avocado——美国科技巨头收缩开源、中国厂商全力抛开源,这个反向格局正在加速成型。对开发者与本地部署需求者而言,选择正在从“要不要开源”变成“哪个开源模型最够用”,Qwen3.6-27B 给出了此刻看起来答案相当清晰的选项。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论