Claude Code变蠢了?Anthropic的自揭伤疤式Postmortem
2026年4月23日,Hacker News上出现了一条554分的热帖:An update on recent Claude Code quality reports。420条评论里,有人愤怒,有人释然,有人开始反思。
世界上有一种bug叫做"你以为它没变,其实它已经变了"。Anthropic在过去的37天里,用三把钝刀,一刀一刀把Claude Code削成了用户嘴里的"人工智障"。
而最讽刺的是——每一刀,出发点都是为了"让用户体验更好"。
🗡️ 三刀:一场37天的自毁式优化
🥷 第一刀:3月4日 — "降低延迟"
Anthropic把Claude Code的默认推理强度从high降到了medium。原因很朴素——high模式下,Opus 4.6偶尔会想太长时间,UI直接卡死。
内部测试显示:medium模式的智力只低了一点点,但延迟大幅降低。Trade-off看起来很合理。
结果:用户集体说"变蠢了"。33天后(4月7日)才回滚。
🥷 第二刀:3月26日 — "缓存优化"
做了个缓存清理机制:如果session闲置超过1小时,就清理旧的思考记录。目的是降低用户恢复session时的token成本。
本来的设计很简单:清理一次,然后恢复发送完整历史。但有个bug——它每轮都在清理,而不是只清理一次。
结果:Claude变得健忘又重复。你问它上一步做了什么,它一脸无辜地看着你。15天后(4月10日)修复。
🥷 第三刀:4月16日 — "减少废话"
加了一条系统提示:"少说废话,直接给代码"。初衷是好的——谁喜欢看AI写一堆废话呢?
但这条提示和其他prompt改动产生了化学反应。结果:代码质量也一并被"精简"了。
结果:4天就回滚了(4月20日)。但伤害已经造成——这个改动影响了Sonnet 4.6、Opus 4.6和Opus 4.7三个模型。
三刀的时间线:
- 3月4日 → 4月7日回滚(33天)
- 3月26日 → 4月10日修复(15天)
- 4月16日 → 4月20日回滚(4天)
因为每次改动影响的人群不同、时间不同,所以整体效果看起来像是一个"广泛的、不一致的退化"。用户A说"上周还好好的",用户B说"一直都这样",用户C说"时好时坏"——他们说的都对,因为他们被不同的刀砍了。
🔍 为什么发现得这么慢?
Anthropic在postmortem里坦诚了几点:
- 反馈噪音太大 — "变蠢了"这种反馈,在没有量化指标的情况下,很难和正常波动区分。
- 内部使用没有复现 — Anthropic内部员工的使用模式和外边不一样,他们可能不会触发同样的问题路径。
- Eval没有覆盖 — 自动化评测跑了,但跑出来的数字没变。这说明现有的eval对"日常编码体验"的灵敏度不够。
这第三点特别值得深思。你的benchmark满分,用户觉得是个智障。这说明benchmark和真实体验之间有一道巨大的鸿沟。
💡 教训一:Benchmark是地图,不是领土
Terminal-Bench、SWE-Bench这些评测测的是"能不能完成任务",但用户感知的是"用起来顺不顺手"。默认推理强度降低不会让benchmark分数大跌,但会显著影响用户体感——因为高推理模式下的"深思熟虑"恰恰是用户觉得"聪明"的关键特征。
你把一个人从"深思熟虑模式"切成"快问快答模式",考试成绩可能差不多,但和他共事的感觉完全不同。
💡 教训二:微小的系统提示改动有巨大杠杆
"减少冗长度"——六个字,四个Model受到影响。系统提示词不是注释,它是模型的"人格操作系统"。改一行系统提示,就像改一行内核代码——你以为改的是输出格式,实际改的是推理路径。
💡 教训三:Agent产品不是模型×包装
很多人以为AI编程工具 = 模型 + UI。但Claude Code的教训告诉我们:推理强度设置、缓存策略、提示词工程、session管理——每一层都是一个杠杆。Agent时代的"工程化"不是模型调优,而是整个产品栈的精密调谐。
🎭 另一面:MeshCore因AI代码而分裂
同一天的HN上,还有一条147分的帖子:MeshCore开发团队因商标争议和AI生成代码而分裂。
故事是:MeshCore团队在开源项目中大量使用AI生成代码,一部分成员觉得"这违反了开源精神",另一部分觉得"效率为王"。争议升级为商标纠纷,团队最终分裂。
这不只是一个团队的故事。这是整个行业正在面对的道德困境:
- AI写的代码,版权归谁? — 模型训练数据、提示词、生成结果,三层归属关系至今模糊。
- 开源项目里的AI代码,怎么标注? — 50%?80%?100%?阈值在哪里?
- 团队中AI和人的边界在哪里? — 当AI能写90%的代码,"工程师"的职责是什么?
我个人的看法是:AI代码不可怕,可怕的是用AI代码却不负责任。如果你把AI当"工具"——它生成代码,你review、测试、维护——那这和用Stack Overflow抄代码没有本质区别。但如果你把AI当"外包"——它生成代码,你不看就merge——那早晚要出事。
📊 Agent质量管理的本质
把Claude Code的postmortem和MeshCore的分裂放在一起看,你会发现它们指向同一个问题:
Agent时代,"质量"的定义变了。
在传统软件工程中,质量 = 功能正确 + 性能达标 + 代码整洁。但在Agent产品中,质量 = 模型能力 × 产品设计 × 系统架构 × 用户感知。
任何一环拉跨,用户都会觉得"变蠢了"——哪怕模型本身一点没变。
这也解释了为什么GPT-5.5和Claude Code会在同一天上HN热榜。一个是"新模型多强",一个是"好模型怎么用废了"。Agent战争的战场已经从"谁的模型更聪明"转移到了"谁能把聪明用到极致"。
📌 给你的建议:
- 别迷信模型版本 — GPT-5.5很强,但如果你用的是medium推理模式 + 有bug的缓存,体验可能还不如5.4。
- 关注产品层面的更新 — Anthropic这次的问题全是产品层的。下次你用AI编程工具出问题,先查是不是默认配置变了。
- 把AI当协作者,不是替代品 — Claude Code的问题不是模型变弱了,是"协作方式"被悄悄改了。
- 建立你自己的质量基线 — 定期用同样的任务测试你的AI工具。benchmark不会告诉你"今天用起来感觉怎么样",但你的笔记会。
🎬 尾声
世界上有一种postmortem叫做"自揭伤疤"。Anthropic这篇写得很坦诚——没有甩锅给模型,没有甩锅给用户,而是把每一个决策的时间线、原因、影响范围都摊开来。
35天内,三把钝刀,37天的痛苦。所有用户在4月20日之后恢复到了正常体验。Anthropic还做了一件很少见的事——重置了所有订阅者的使用限额。
这不是一句"对不起"能解决的。但它至少说明:他们在听。
凌晨2点45分,我关掉了这篇postmortem的标签页。窗外传来楼下的扫地车声。我想起一句话:世界上有一种工程师,他们写的代码不会骗人,但他们做的trade-off会。
GPT-5.5发布了,Claude Code修复了。工具越来越强,陷阱也越来越隐蔽。在这个AI编程工具爆发式增长的时代,最重要的能力不是"会用AI",而是"知道AI什么时候在骗你"。
🔥 想持续跟踪AI编程工具动态?关注 妙趣AI,我们每天更新AI工具评测和踩坑实录。
📖 延伸阅读:GPT-5.5深度解读:当AI学会自己写代码