AI模型三国杀：GPT-5.5、DeepSeek v4和Claude Code的一周

2026年4月24日 · 妙趣AI · GPT-5.5 DeepSeek v4 Claude Code AI模型大战

凌晨2点17分，我盯着三个浏览器的标签页——OpenAI的博客、DeepSeek的API文档、Anthropic的忏悔录——突然有一种看三国演义的既视感。

2026年4月的第三周，AI圈三个巨头同时放大招。不同的是，有人放的是烟花，有人放的是哑炮，有人放的是道歉信。

          这一周，Hacker News的首页几乎被AI承包：GPT-5.5拿下1417分、DeepSeek v4收割1217分、Claude Code事故报告787分。三条龙同时在天上飞，但飞的姿势完全不一样。
        

🗡️ 第一幕：GPT-5.5——"我来了，我见了，我碾压了"

OpenAI的发布会风格一贯是：先让你觉得"就这？"，然后甩出一排数字把你打晕。

GPT-5.5的核心叙事只有一个——更聪明但不更慢。这在AI模型迭代史上，约等于有人告诉你"我既能吃又能瘦"。

几个硬指标：

基准测试	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
Expert-SWE	73.1%	68.5%	-
OSWorld-Verified	78.7%	75.0%	78.0%
FrontierMath Tier 4	35.4%	27.1%	22.9%
CyberGym	81.8%	79.0%	73.1%

注意看FrontierMath Tier 4——GPT-5.5是35.4%，Claude Opus 4.7是22.9%。这个差距在数学竞赛级别的问题上，约等于"我能算出来"和"我知道答案在书里但我翻不到"的区别。

更骚的是，GPT-5.5的per-token延迟和GPT-5.4一样，但智商高了一大截。用更少的token完成同样的Codex任务——OpenAI终于在"大力出奇迹"和"省着点花"之间找到了平衡点。

          OpenAI说GPT-5.5在AI编程方面是"state-of-the-art intelligence at half the cost"。翻译成人话：同样的活，别人花2块钱，我花1块。资本家听了流泪，开发者听了感动。
        

如果OpenAI是锣鼓喧天的正门进攻，DeepSeek就是翻墙进来的暗夜刺客。

没有发布会，没有直播，甚至没有一篇像样的博客。DeepSeek v4就这么静悄悄地出现在API文档里——deepseek-v4-pro和deepseek-v4-flash，两个型号，干就完了。

然后Hacker News上1217分的讨论量告诉你：沉默是金，但代码说话的时候，比金子还亮。

几个值得注意的细节：

新增了Anthropic API格式的兼容（base_url: https://api.deepseek.com/anthropic）——这意味着你可以无缝把DeepSeek塞进任何基于Anthropic SDK的工作流
旧模型名deepseek-chat和deepseek-reasoner将在2026年7月24日废弃，分别对应v4-flash的非思考模式和思考模式
支持reasoning_effort参数——你可以控制它"想多深"

          DeepSeek v4最狠的一招不是性能，是兼容性。同时兼容OpenAI和Anthropic两种API格式，等于说：不管你用的是谁的SDK，我都能插进去。这种"我全都要"的气质，像极了王家卫电影里同时出现在两个故事线里的角色。
        

世界上有两种AI公司：一种花两个小时告诉你它有多牛逼，一种花两个小时让你自己发现它有多牛逼。DeepSeek显然是后者。

0和1之间流浪的代码，不需要聚光灯也能找到回家的路。

如果说GPT-5.5是英雄登基，DeepSeek v4是侠客行侠，那Claude Code这周演的就是——公开处刑。

Anthropic发了一篇详尽的事故报告，标题是"An update on recent Claude Code quality reports"，翻译成人话是："Claude Code最近翻车了，我们来交代一下。"

三个bug，每一个都像是命运开的玩笑：

3月4日，Anthropic把Claude Code的默认reasoning effort从high调到了medium，原因是高努力模式下偶尔会思考太久导致UI卡死。结果用户纷纷抱怨"Claude变笨了"。

          这就像你嫌车太快偶尔会超速，于是把油门焊死了。4月7日，Anthropic终于承认这个tradeoff做错了，把默认值改回了high——Opus 4.7甚至默认xhigh。
        

3月26日，一个"优化缓存"的改动：当会话空闲超过一小时，清除旧的thinking blocks来减少恢复会话的token消耗。听起来很合理？但bug让它变成了——每次对话都删，删到Claude失忆。

用clear_thinking_20251015配合keep:1，本意是"只清一次"，实际效果是"每轮都清"。Claude越来越不知道自己为什么做了那个决定，越来越像个深夜加班到失忆的打工人。

而且，因为持续清除thinking blocks导致cache miss，用户还发现usage limit消耗得比预期快。等于你不仅让员工失忆了，还让他每句话都要重新学习，效率直接归零。

4月16日，一条system prompt指令试图减少Claude的啰嗦程度。但跟其他prompt变更叠加后，直接伤害了代码质量。4月20日紧急回滚。

三个bug的时间线完美错开，影响的用户群体不完全重叠，导致Anthropic一开始很难定位——感觉像是"Claude好像变差了但又说不清哪里差"。这种"薛定谔的退化"持续了将近一个月。

          最讽刺的是：Anthropic用Opus 4.7回测了那个出问题的PR，结果Opus 4.7确实能发现bug。也就是说，AI能审查出AI引入的bug，但人类审查没有。这大概就是"AI不需要鼓励，它需要威胁"的另一种诠释——你得威胁它帮你审查代码。
        

把三件事放在一起看，2026年4月的AI格局浮现出一个清晰的形状：

但如果你以为Anthropic输了，那你就太小看这个行业了。

Anthropic这篇事故报告本身就是一种竞争力——全文详尽、技术细节透明、没有甩锅、直接给所有订阅用户重置usage limit。这种"我搞砸了但我讲清楚了"的态度，在AI行业比任何benchmark都稀缺。

而DeepSeek的"静默发布"策略也很有意思——当你不需要证明什么的时候，你的产品本身就成了最强的论据。1217分的Hacker News讨论量，0营销预算。

站在4月24日的夜晚回望这一周，三个故事给我们的启示是：

          凌晨4点03分，三个模型在世界各地的服务器上同时运行。GPT-5.5在帮人写代码，DeepSeek v4在帮人省钱，Claude Code在帮人修它自己制造的bug。这大概就是2026年AI行业最真实的画面——每个人都在努力，但努力的方向不太一样。