📅 2026-05-05 · Google
Google发布Gemma 4多token预测加速方案,通过speculative decoding技术显著提升推理速度。这是继DeepSeek-V4百万token上下文之后,推理效率领域的又一重要进展。
推理加速
Gemma 4
Speculative Decoding
📅 2026-05-05 · arXiv · Hacker News
清华系团队发布GLM-5V-Turbo,定位为原生多模态Agent基础模型。论文强调该模型在文档理解、UI交互、多步骤推理等Agent场景中的表现,是国产多模态大模型向Agent方向的重要尝试。
论文
GLM-5V-Turbo
多模态Agent
国产模型
📅 2026-04-29 · Hugging Face Blog
IBM在Hugging Face官方博客详解Granite 4.1构建过程,覆盖训练策略、数据管道、性能优化等全流程。作为主打企业场景的开源模型系列,Granite 4.1在代码生成和任务自动化方面有显著提升。
企业模型
Granite 4.1
IBM
开源
📅 2026-04-28 · Hugging Face Blog
NVIDIA发布Nemotron 3 Nano Omni,主打长上下文多模态理解能力,覆盖文档、音频和视频三种模态。特别针对Agent场景优化,可在资源受限环境下运行。
多模态
NVIDIA
Nemotron 3
长上下文