🏢 通俗比喻:想象一家公司。Dense Model就是全员出勤——不管来什么项目,所有员工都参与。MoE(稀疏模型)就是按需调人——来个前端项目,只叫前端组的同事上班,后端的在家躺平。全员出勤简单直接,但工资(算力)花得多;按需调人省钱,但排班(路由)更复杂。
📖 什么是 Dense Model?
Dense Model(密集模型)是指在推理时,模型的所有参数都参与计算的神经网络架构。无论输入什么,每一个权重都会被激活——没有"摸鱼"的参数。
与之相对的是 MoE(Mixture of Experts,混合专家模型),每次推理只激活部分参数(专家),通过路由机制选择性计算。
🔥 热点事件:2026年4月,Qwen3.6-27B发布——一个27B参数的Dense Model,在编码能力上达到旗舰级水平,登上Hacker News首页(454分)。这证明了Dense Model在中等规模上依然可以与更大的MoE模型掰手腕。
🔬 核心原理
1. 全参数激活
Dense Model的核心特征:每次前向传播,所有参数都参与矩阵乘法。一个27B的Dense Model,每次推理就做27B参数规模的计算。
# Dense vs MoE 计算量对比
# Dense Model: 计算量 = 参数量
compute_dense = total_params # 27B → 27B FLOPs
# MoE Model: 计算量 = 激活参数量
compute_moe = active_params # 100B总参数, 激活15B → 15B FLOPs
2. 均匀梯度更新
训练时,Dense Model的所有参数在每次反向传播中都会收到梯度更新。这意味着:
- 每个参数都被充分训练,不会"冷门"
- 模型行为更可预测,输出更稳定
- 不需要额外的路由学习(MoE的痛点)
3. 无路由开销
MoE需要一个路由器(Router)来决定激活哪些专家。这个路由器本身是额外的计算开销,而且可能学偏——Dense Model完全没有这个问题。
🧱 Dense Model
- 所有参数每次都激活
- 推理成本 ∝ 总参数量
- 训练稳定,无路由问题
- 输出一致性高
- 扩展靠加参数
- 代表作:GPT-4、Qwen3.6-27B
🧩 MoE (稀疏模型)
- 只激活部分参数(专家)
- 推理成本 ∝ 激活参数量
- 路由器可能学偏
- 不同输入可能走不同专家
- 扩展靠加专家
- 代表作:Mixtral、DeepSeek-V3
📐 数学视角
Dense Model的前向传播:
# Dense Layer
y = W @ x + b # W的所有权重都参与计算
# MoE Layer
expert_outputs = [E_i(x) for i in range(n_experts)]
gates = Router(x) # 路由权重
y = sum(gate_i * E_i(x) for i in top_k_experts)
# 只有top-k专家参与计算
Dense简单粗暴:一个矩阵乘法搞定。MoE需要路由+多专家+加权求和,计算图更复杂。
⚙️ OpenClaw 实战应用
在OpenClaw的Agent系统中,Dense Model的选择影响Agent的性能和成本:
# OpenClaw 模型配置 - Dense Model选择
models:
# 快速任务用小Dense Model
quick_tasks:
model: qwen3.6-7b # 小Dense,速度快
max_tokens: 2048
temperature: 0.3
# 复杂推理用大Dense Model
complex_reasoning:
model: qwen3.6-27b # 大Dense,质量高
max_tokens: 8192
temperature: 0.7
# 高吞吐场景可考虑MoE
high_throughput:
model: deepseek-v3 # MoE,性价比高
strategy: balanced
Agent任务与模型匹配策略
# 在 SOUL.md 中配置模型路由
model_routing:
glossary_generation: # 术语百科生成
model: qwen3.6-27b # Dense,输出稳定
reason: "需要一致的写作风格"
code_review: # 代码审查
model: qwen3.6-27b # Dense,逻辑链完整
reason: "需要深度推理,不走捷径"
bulk_seo: # 批量SEO页面
model: deepseek-v3 # MoE,性价比高
reason: "大量简单任务,成本优先"
📊 何时选择 Dense Model?
| 场景 | 推荐 | 原因 |
|---|---|---|
| 高质量代码生成 | ✅ Dense | 需要完整推理链 |
| 批量简单任务 | ✅ MoE | 成本优先,质量够用 |
| 一致性要求高 | ✅ Dense | 无路由,输出稳定 |
| 超大规模部署 | ✅ MoE | 推理成本显著降低 |
| 创意写作 | ⚖️ 看情况 | Dense更稳,MoE更多样 |
💡 Dense Model 的未来
Qwen3.6-27B的发布说明了一个趋势:Dense Model没有过时。在27B这个量级,Dense可以达到旗舰水平,而MoE的优势要到更大规模才显现。
对于Agent系统来说,这意味着:
- 中等规模任务:Dense是更好的选择——简单、稳定、可预测
- 大规模服务:MoE的推理成本优势才值得路由器的额外开销
- 混合部署:OpenClaw可以同时配置Dense和MoE,按任务类型路由
Dense Model 密集模型 MoE对比 Qwen3.6 参数激活 模型架构 OpenClaw