MoE架构
Agent优化
1M Context
核心突破:DeepSeek发布V4,两款MoE模型——DeepSeek-V4-Pro(1.6T总参数/49B激活)和DeepSeek-V4-Flash(284B总参数/13B激活),均支持100万token上下文窗口。但真正的创新不是benchmark分数,而是为Agent工作流设计的长上下文推理效率。
效率革命:V4-Pro仅需27%的单token推理FLOPs(对比V3.2),KV cache内存仅10%。V4-Flash更激进:10% FLOPs + 7% KV cache。这意味着Agent在跑几百步工具调用轨迹时,不会因为context爆炸或KV cache撑爆GPU而崩溃。
架构创新:混合注意力机制——CSA(压缩稀疏注意力,4x压缩)和HCA(重度压缩注意力,128x压缩)交替使用。61层架构中0-1层用HCA,2-60层交替CSA/HCA,MTP块用滑动窗口。FP8存储大部分KV条目,BF16仅用于RoPE维度。
📅 2026-04-24 | 📖 HuggingFace Blog
Agent基准
工具调用
IBM研究
基准介绍:VAKRA是IBM推出的工具驱动可执行基准,测试Agent在企业级环境中的推理与行动能力。8000+本地托管API,覆盖62个领域,支持3-7步推理链,结合结构化API交互与非结构化检索。
残酷现实:当前模型在VAKRA上表现惨淡——这不是传统benchmark的孤立技能测试,而是组合推理+API链式调用+文档检索的复合任务。
四大能力测试:①API链式调用(Business Intelligence APIs,2077测试实例)②多工具协同③文档检索+API组合④复杂推理链。数据集、排行榜、GitHub代码全部开源。
📅 2026-04-15 | 📖 HuggingFace Blog | 🔗 IBM Research