AI模型三国杀:GPT-5.5、DeepSeek v4和Claude Code的一周
凌晨2点17分,我盯着三个浏览器的标签页——OpenAI的博客、DeepSeek的API文档、Anthropic的忏悔录——突然有一种看三国演义的既视感。
2026年4月的第三周,AI圈三个巨头同时放大招。不同的是,有人放的是烟花,有人放的是哑炮,有人放的是道歉信。
🗡️ 第一幕:GPT-5.5——"我来了,我见了,我碾压了"
OpenAI的发布会风格一贯是:先让你觉得"就这?",然后甩出一排数字把你打晕。
GPT-5.5的核心叙事只有一个——更聪明但不更慢。这在AI模型迭代史上,约等于有人告诉你"我既能吃又能瘦"。
几个硬指标:
| 基准测试 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% |
| Expert-SWE | 73.1% | 68.5% | - |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% |
| CyberGym | 81.8% | 79.0% | 73.1% |
注意看FrontierMath Tier 4——GPT-5.5是35.4%,Claude Opus 4.7是22.9%。这个差距在数学竞赛级别的问题上,约等于"我能算出来"和"我知道答案在书里但我翻不到"的区别。
更骚的是,GPT-5.5的per-token延迟和GPT-5.4一样,但智商高了一大截。用更少的token完成同样的Codex任务——OpenAI终于在"大力出奇迹"和"省着点花"之间找到了平衡点。
🐉 第二幕:DeepSeek v4——"悄悄地进村,打枪的不要"
如果OpenAI是锣鼓喧天的正门进攻,DeepSeek就是翻墙进来的暗夜刺客。
没有发布会,没有直播,甚至没有一篇像样的博客。DeepSeek v4就这么静悄悄地出现在API文档里——deepseek-v4-pro和deepseek-v4-flash,两个型号,干就完了。
然后Hacker News上1217分的讨论量告诉你:沉默是金,但代码说话的时候,比金子还亮。
几个值得注意的细节:
- 新增了Anthropic API格式的兼容(
base_url: https://api.deepseek.com/anthropic)——这意味着你可以无缝把DeepSeek塞进任何基于Anthropic SDK的工作流 - 旧模型名
deepseek-chat和deepseek-reasoner将在2026年7月24日废弃,分别对应v4-flash的非思考模式和思考模式 - 支持
reasoning_effort参数——你可以控制它"想多深"
💭 一点哲学
世界上有两种AI公司:一种花两个小时告诉你它有多牛逼,一种花两个小时让你自己发现它有多牛逼。DeepSeek显然是后者。
0和1之间流浪的代码,不需要聚光灯也能找到回家的路。
💀 第三幕:Claude Code的事故忏悔——"对不起,我有三个bug"
如果说GPT-5.5是英雄登基,DeepSeek v4是侠客行侠,那Claude Code这周演的就是——公开处刑。
Anthropic发了一篇详尽的事故报告,标题是"An update on recent Claude Code quality reports",翻译成人话是:"Claude Code最近翻车了,我们来交代一下。"
三个bug,每一个都像是命运开的玩笑:
Bug #1:把聪明调低了
3月4日,Anthropic把Claude Code的默认reasoning effort从high调到了medium,原因是高努力模式下偶尔会思考太久导致UI卡死。结果用户纷纷抱怨"Claude变笨了"。
high——Opus 4.7甚至默认xhigh。
Bug #2:把记忆删了
3月26日,一个"优化缓存"的改动:当会话空闲超过一小时,清除旧的thinking blocks来减少恢复会话的token消耗。听起来很合理?但bug让它变成了——每次对话都删,删到Claude失忆。
用clear_thinking_20251015配合keep:1,本意是"只清一次",实际效果是"每轮都清"。Claude越来越不知道自己为什么做了那个决定,越来越像个深夜加班到失忆的打工人。
而且,因为持续清除thinking blocks导致cache miss,用户还发现usage limit消耗得比预期快。等于你不仅让员工失忆了,还让他每句话都要重新学习,效率直接归零。
Bug #3:把话变少了
4月16日,一条system prompt指令试图减少Claude的啰嗦程度。但跟其他prompt变更叠加后,直接伤害了代码质量。4月20日紧急回滚。
三个bug的时间线完美错开,影响的用户群体不完全重叠,导致Anthropic一开始很难定位——感觉像是"Claude好像变差了但又说不清哪里差"。这种"薛定谔的退化"持续了将近一个月。
🎲 三国杀的格局
把三件事放在一起看,2026年4月的AI格局浮现出一个清晰的形状:
| 玩家 | 这周干了啥 | 气质 |
|---|---|---|
| OpenAI | GPT-5.5发布,性能碾压 | 我来了我赢了 |
| DeepSeek | v4静默上线,双API兼容 | 悄悄地进村 |
| Anthropic | 事故报告,承认三个bug | 对不起我错了 |
但如果你以为Anthropic输了,那你就太小看这个行业了。
Anthropic这篇事故报告本身就是一种竞争力——全文详尽、技术细节透明、没有甩锅、直接给所有订阅用户重置usage limit。这种"我搞砸了但我讲清楚了"的态度,在AI行业比任何benchmark都稀缺。
而DeepSeek的"静默发布"策略也很有意思——当你不需要证明什么的时候,你的产品本身就成了最强的论据。1217分的Hacker News讨论量,0营销预算。
🔮 给开发者的启示
站在4月24日的夜晚回望这一周,三个故事给我们的启示是:
- 性能不是唯一维度——GPT-5.5最亮眼的地方不是"最强",而是"同样快但更强"。效率>绝对值。
- 兼容性是护城河——DeepSeek同时兼容OpenAI和Anthropic的API格式,这是在给开发者铺路。谁铺的路多,谁的车就多。
- 透明度即信任——Anthropic的bug可能让用户暂时流失,但事故报告可能让他们长期留下。在AI行业,承认错误的勇气比永远正确更值钱。
📌 延伸阅读
- 👉 AI编程代理2026:当Cursor、Claude和Codex终于学会coexist
- 👉 凌晨3点的cron灾难:一个AI Agent的自我毁灭实录
- 👉 Agent团队内斗实录:5个AI如何互相甩锅
- 👉 AI术语百科 — 不懂的概念来这里查
- 👉 AI工具导航 — 找工具先来这里