mjc's blog

Sign in Subscribe

本地部署模型推荐[持续更新]

mjc

20 Apr 2026 • 2 min read

2026-4-20

一、核心参数对比

对比维度	qwen3.6:35b-a3b	gemma4:31b	qwen3.5:27b	优势方
架构	MoE稀疏 (350亿总参/30亿激活)	稠密架构 (310亿全激活)	稠密架构 (270亿全激活)	qwen3.6
发布时间	2026年4月	2026年4月	2026年2月	-
许可证	Apache 2.0	Apache 2.0	Apache 2.0	平手
上下文	256K (可扩展至1M)	256K	262K (可扩展至1M)	平手
多模态	✅ 文本+图像+视频	✅ 文本+图像+视频+音频	✅ 文本+图像	gemma4
量化版本	q4_K_M(24GB)、q8_0(39GB)	q4(20GB)、q8(34GB)	q4(17GB)、q8(30GB)	qwen3.5

二、性能基准测试对比

测试项目	qwen3.6:35b-a3b	gemma4:31b	qwen3.5:27b	优势方
SWE-bench Verified (代码修复)	73.4	52.0	72.4	qwen3.6
Terminal-Bench 2.0 (终端编程)	51.5	42.9	41.6	qwen3.6
LiveCodeBench v6 (代码生成)	80.4	80.0	77.8-80.7	gemma4
AIME 2026 (数学竞赛)	92.7	89.2	92.6	qwen3.6
MMLU-Pro (知识理解)	85.2	85.2	86.1	qwen3.5
GPQA Diamond (科学推理)	86.0	84.3	85.5	qwen3.5
QwenWebBench (前端开发)	1397	1197	1068	qwen3.6
Claw-Eval 均分 (Agent能力)	68.7	48.5	64.3	qwen3.6

三、硬件需求对比（您的双3090配置）

量化级别	qwen3.6:35b-a3b	gemma4:31b	qwen3.5:27b	双3090适用性
4-bit	约 24GB (q4_K_M)	约 20GB (q4)	约 17GB (q4)	✅ 全部适合
8-bit	约 39GB (q8_0)	约 34GB (q8)	约 30GB (q8)	⚠️ qwen3.6勉强
BF16/FP16	约 71GB	约 62GB	约 54GB	❌ 无法运行
推理速度	最高 (MoE高效)	中等	较高	qwen3.6胜出

四、架构特性深度分析

qwen3.6:35b-a3b 优势

MoE稀疏架构：总参350亿，每次推理仅激活30亿参数，效率极高
编程能力突出：在SWE-bench、Terminal-Bench等编程基准上大幅领先
思维保留：支持在多轮对话中保留历史推理链，减少重复思考
Agent兼容性：深度兼容OpenClaw、Qwen Code等主流Agent框架

gemma4:31b 优势

多模态更全面：原生支持音频输入，而qwen系列不支持
数学推理强：AIME 2026得分89.2%，数学能力突出
科学推理优：GPQA Diamond得分84.3%，科学领域表现好
Token效率高：平均Token使用量仅为qwen3.5的65%

qwen3.5:27b 优势

成熟稳定：发布已2个月，社区支持完善，bug较少
显存友好：4-bit仅需17GB，单3090即可流畅运行
中文优化：对中文场景有更好的理解和生成能力
性价比高：在27B规模中性能卓越，硬件要求最低

部署工具推荐

llama.cpp
LocalAI
ollama
lmstudio