🎬 晚上8点07分,AI战场再起烽烟。
Anthropic、OpenAI、Google 三足鼎立的一周。Claude Opus 4.7以64.3%的SWE-bench Pro成绩封神,OpenAI紧急祭出GPT-5.4-Cyber反击,Google则用Gemini Robotics-ER 1.6让机器人第一次真正"看懂"了压力表。
有人说这是AI Agent的春秋战国时代。我说,这更像是三国鼎立——每个玩家都在寻找自己的生态位。而你,站哪边?
相比Opus 4.6的53.4%,4.7版本的SWE-bench Pro成绩暴涨10.9个百分点。这意味着什么?
从"需要不断纠正的助手"进化为"能独立完成任务的专家"。
Opus 4.7最被低估的改进:多步骤Agent任务的稳定性。对于需要持续专注数小时的复杂工作流——自主编码、文档分析、财务建模——它能在中途不掉链子。
在法律AI应用领域,Opus 4.7拿下90.9%的历史最高分。45%的任务获得满分,88%得分≥0.80。对律所和风险管理部门而言,这直接转化为可计费的工时节省和错误规避。
| 模型 | SWE-bench Pro | CursorBench |
|---|---|---|
| Claude Opus 4.7 | 64.3% | 70% |
| GPT-5.4 | 57.7% | 未公开 |
| Opus 4.6 | 53.4% | 58% |
数据来源:Anthropic官方发布、第三方评测
普通ChatGPT遇到漏洞相关问题会回答:"抱歉,我无法协助处理。"
GPT-5.4-Cyber则完全不同——它被训练来回答"可怕的问题"。OpenAI的核心理念:要想阻止黑客,往往需要像黑客一样思考。
GPT-5.4-Cyber不向公众开放,而是通过Trusted Access for Cyber (TAC)计划提供。申请者需通过背景审查。这种"锁在保险柜里的武器"策略,与Anthropic Mythos仅开放给11家组织的Project Glasswing形成镜像。
| 特性 | Anthropic Mythos | GPT-5.4-Cyber |
|---|---|---|
| 主攻方向 | 创意写作与情感理解 | 网络安全与逻辑推理 |
| 上下文窗口 | 50万Token | 100万Token |
| 代码准确率 | 89% (Python/JS) | 97% (多语言) |
| 实时网络访问 | 高延迟 | 超低延迟 |
传统计算机视觉只能说:"我看到一个仪表。"这在相册应用里够用了,但在工业场景里毫无意义。
Gemini Robotics-ER 1.6的核心能力是理解物体之间的关系。比如看到一个压力表,它不仅识别出"这是个压力表",还能:
这不是简单的图像识别,而是视觉推理+代码执行的组合拳:
在化工厂部署的Spot机器人使用这项技术读取sight glasses(显示液位的小玻璃管)。Agentic Vision能:
OpenClaw本周节奏依旧凶猛。v2026.4.15正式发布,距离4.14安全更新仅隔2天。
Google文本转语音能力正式集成到OpenClaw捆绑插件中。支持WAV回复输出和PCM电话输出,Agent终于能开口说话了。
新增GitHub Copilot嵌入提供商用于记忆搜索,插件可复用该transport,支持远程覆盖、token刷新和更安全的payload验证。
实验性配置 agents.defaults.experimental.localModelLean: true 可自动移除browser、cron、message等重量级工具,降低prompt大小,低配环境福音。
三家巨头在同一周内密集发布,频率堪比军备竞赛。但细看各有侧重:
Claude 在代码,OpenAI 在安全,Google 在机器人。
这不是偶然。每个人都在自己最擅长的战场筑墙挖壕,避免正面硬刚。
如果你是CTO,现在要在三个生态中选边站:
或者,像OpenClaw一样——我全都要?