Qwen3.6-27B 开源发布「Openclaw、Hermes首选」：AI 表现赶超Claude Opus 4.5 成本降低14倍

2026-04-23 07:11:14

阿里巴巴千问（Qwen）系列最新旗舰 Qwen3.6-27B 于 2026 年 4 月 22 日晚间正式开源，这颗 27B dense 模型在 Terminal-Bench 2.0 以 59.3 分平 Claude 4.5 Opus，并以不到 1/14 的参数量，在 SWE-bench Verified 以 77.2 超越上一代 397B MoE 旗舰的 76.2。完整模型 55.6 GB、Q4_K_M 量化压缩到 16.8 GB 可在消费级硬件运行，让 OpenClaw、Hermes Agent 等本地 agent 框架首次拥有一颗真正好用的本地大脑。
（前情提要：被 Anthropic 点名封杀，OpenClaw 建议用户改用 API Key 或换用 Qwen、Kimi 等替代方案）
（背景补充：美国 AI 需要“审查”关进实验室！中国则全力抛开源模型，为什么？）

本文目录

切换

Benchmark 成绩：三个最亮眼的结论
规格：消费级硬件装得下的千亿级性能
为什么是 OpenClaw 与 Hermes Agent 的本地大脑？
开源 vs 封闭：阿里的路线布局与地缘格局

2026 年 4 月 22 日晚间，阿里巴巴千问团队悄悄在 Hugging Face 推送了一颗炸弹：Qwen3.6-27B 正式开源，Apache 2.0 授权，任何人可自由商用。数字看似平凡，背后的意义不平凡——27B dense 架构（非 MoE），在终端 agent 测试首次追平 Anthropic 封闭旗舰 Claude 4.5 Opus，同时以 55.6 GB 的体积，打败了需要 807 GB 视频内存才能完整跑起的上一代 397B MoE 怪兽。本地部署、agent 能跑、消费级硬件装得下，三个条件 Qwen3.6-27B 全部达成。

Benchmark 成绩：三个最亮眼的结论

Qwen 团队选择了 10 项反映真实 agent 程序设计能力的基准测试，Qwen3.6-27B 的成绩如下：

Benchmark
Qwen3.6-27B
Qwen3.5-27B
Qwen3.6-35B-A3B
Qwen3.5-397B-A17B
Claude 4.5 Opus
—
SWE-bench Verified
77.2
75.0
73.4
76.2
80.9
SWE-bench Pro
53.5
51.2
49.5
50.9
57.1
SWE-bench Multilingual
71.3
69.3
67.2
69.3
77.5
Terminal-Bench 2.0
59.3
41.6
51.5
52.5
59.3
SkillsBench Avg5
48.2
27.2
28.7
30.0
45.3
QwenWebBench
1487
1068
1397
1186
1536
NL2Repo
36.2
27.3
29.4
32.2
43.2
Claw-Eval Avg
72.4
64.3
68.7
70.7
76.6
Claw-Eval Pass^3
60.6
46.2
50.0
48.1
59.6
QwenClawBench
53.4
52.2
52.6
51.8
52.3

三个关键结论值得单独标出：第一，Terminal-Bench 2.0 59.3 平 Claude 4.5 Opus——这是 27B dense 模型首次在终端 agent 任务追上 Anthropic 封闭旗舰，而 Qwen3.5-27B 旧版只有 41.6，等于单代提升了 17.7 分。第二，SWE-bench Verified 77.2 超越 Qwen3.5-397B-A17B 的 76.2——27B dense 干掉上一代 397B MoE 旗舰，模型体积从 807 GB 缩到 55.6 GB，缩小了 14 倍以上。第三，SkillsBench 从 27.2 冲到 48.2（+77%）、Claw-Eval Pass^3 以 60.6 超越 Claude 4.5 Opus 的 59.6——多轮、多步骤一致性是本次最大升级，代表模型在连续执行复杂 agent 任务时不易中途崩溃或跑偏。

知识与推理方面同样亮眼：MMLU-Pro 86.2、MMLU-Redux 93.5、GPQA Diamond 87.8、AIME 2026 94.1、LiveCodeBench v6 83.9，全面超越同参数量前代。

规格：消费级硬件装得下的千亿级性能

Qwen3.6-27B 是纯 dense 架构，27B 参数量并非 MoE 的 active 参数，而是每次推理都完整启动的真实参数。原生 context 长度 262,144 tokens，通过 YaRN 扩展最高可达 1,010,000 tokens（约 1M），对需要长文件分析或跨仓库理解的 coding agent 来说是刚需规格。完整精度模型 55.6 GB，若采用 Q4_K_M 量化，体积压缩到 16.8 GB，24 GB 视频内存的 Mac M 系列或消费级 GPU 均可直接载入。授权为 Apache 2.0，商业用途无需额外授权费。部署推荐 SGLang ≥0.5.10 或 vLLM ≥0.19.0，KTransformers 及 HF Transformers 亦支持。此外，Qwen3.6-27B 整合了 vision encoder，同时支持图片、文字、影片理解，并非纯文字模型。

为什么是 OpenClaw 与 Hermes Agent 的本地大脑？

原始快讯点名了两个 agent 框架：OpenClaw 与 Hermes Agent。OpenClaw 是广受开发者欢迎的类龙虾（Claude Code-like）本地 agent 应用，今年 4 月初遭 Anthropic 点名封杀——Anthropic 以违反服务条款为由限制账号后，OpenClaw 官方建议用户改走 API Key 方案，或切换到 Qwen、Kimi 等本地替代模型。Qwen3.6-27B 的开源，精准命中了这条替代路线的需求：本地跑得动、benchmark 追到 Claude 级、Apache 2.0 免费商用，三个条件缺一不可。

Hermes Agent 则是 NousResearch 主导的开源 agent 框架，强调“自我学习 skill” 循环——execute、evaluate、extract、refine、retrieve 五步骤让 agent 在执行任务后自动提炼技巧并存入记忆库，下次遇到类似问题时直接调用。相比 OpenClaw 偏向直觉操作，Hermes Agent 更强调长期自主演化能力，支持 NousPortal、OpenRouter、NVIDIA NIM、LM Studio、Ollama 等多种后端接入。两个框架的共同痛点都是：在本地跑一颗真正够强的模型。Qwen3.6-27B 在 Claw-Eval（专为 coding agent 设计的评测集）以 72.4 平均分与 60.6 Pass^3 超越 Claude 4.5 Opus，给了这两个框架一个可以认真考虑的本地选项。

开源 vs 封闭：阿里的路线布局与地缘格局

Qwen3.6-27B 的开源并非孤立事件。阿里稍早于 4 月 16 日开源了 Qwen3.6-35B-A3B（MoE 架构，35B 总参数、3B active），这次 27B dense 的开源则补齐了“本地可完整部署、无需 MoE 分片”的空缺；而 Qwen3.6-Plus 与 Qwen3.5-Omni 仍维持闭源，通过云端 API 商业化。一开一闭，阿里的策略轮廓清晰：用开源建立生态与信任，用闭源旗舰变现。

更大的背景是这场中美 AI 开源竞赛的格局翻转。动区稍早报道，Meta 祖克伯传下令放弃“开源 AI”路线，转用阿里 Qwen 训练付费人工智能 Avocado——美国科技巨头收缩开源、中国厂商全力抛开源，这个反向格局正在加速成型。对开发者与本地部署需求者而言，选择正在从“要不要开源”变成“哪个开源模型最够用”，Qwen3.6-27B 给出了此刻看起来答案相当清晰的选项。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年现场直击
108.21万热度
#
WCTC交易赛瓜分800万USDT
79.71万热度
#
比特币反弹
21.18万热度
#
以太坊Meme季卷土重来
200.46万热度
#
美伊二轮谈判进展
75.11万热度

Qwen3.6-27B 开源发布「Openclaw、Hermes首选」：AI 表现赶超Claude Opus 4.5 成本降低14倍

Benchmark 成绩：三个最亮眼的结论

规格：消费级硬件装得下的千亿级性能

为什么是 OpenClaw 与 Hermes Agent 的本地大脑？

开源 vs 封闭：阿里的路线布局与地缘格局

热门话题

Gate13周年现场直击

WCTC交易赛瓜分800万USDT

比特币反弹

以太坊Meme季卷土重来

美伊二轮谈判进展

置顶