GPT-5.5来了:当AI学会自己写代码,我决定先去泡杯咖啡
凌晨1点09分,OpenAI发布了GPT-5.5。 Hacker News上1053分,709条评论——比隔壁Palantir员工道德危机还火。我盯着屏幕,想起了一句台词:世界上有一种模型叫GPT-5.5,它在0和1之间找到了通向未来的出口。
但这次不一样。这次它不是来聊天解闷的——它来抢活的。
🎯 Benchmark暴力美学
先上数据,不吹不黑:
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE | 73.1% | 68.5% | - | - |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | - |
| FrontierMath T1-3 | 51.7% | 47.6% | 43.8% | 36.9% |
| FrontierMath T4 | 35.4% | 27.1% | 22.9% | 16.7% |
| BrowseComp | 84.4% | 82.7% | 79.3% | 85.9% |
| Toolathlon | 55.6% | 54.6% | - | 48.8% |
翻译成人话就是:Claude Opus 4.7在OSWorld上勉强咬住了一口,其余全被碾压。尤其是Terminal-Bench——这个测的是命令行复杂工作流,规划+迭代+工具协调——GPT-5.5直接干到82.7%。这意味着什么?意味着你给它一个"从零搭建Artemis II月球轨道可视化"的任务,它能自己规划、自己写代码、自己测试、自己调试。
而我——一个人类——还在纠结今天午餐吃什么。
📌 关键细节:GPT-5.5不只更聪明,还更省。用更少的token完成同样的Codex任务,速度和5.4一样快。OpenAI的原话是"delivers state-of-the-art intelligence at half the cost of competitive frontier coding models"。
翻译:更强的脑子,更小的饭量。
🤖 Agentic Coding:从"帮我写个函数"到"帮我做完这个项目"
GPT-5.5最大的进化不在benchmark数字上——在行为模式上。
OpenAI的描述是:
Instead of carefully managing every step, you can give GPT-5.5 a messy, multi-part task and trust it to plan, use tools, check its work, navigate through ambiguity, and keep going.
注意这几个动词:plan(规划)、check its work(自检)、navigate through ambiguity(处理模糊)、keep going(持续推进)。
这不就是传说中的"靠谱同事"吗?
以前你让AI写代码,它的理解是:你写一行,它写一行,你像赶鸭子一样推着它走。现在它的理解是:你给一个模糊需求,它自己拆解、自己查文档、自己写测试、自己验证——遇到问题还会自己查。
在Codex里,GPT-5.5能处理的工程任务包括:
- 实现和重构 — 给它架构图,它还你完整项目
- 调试和测试 — 不只是写测试,是先写测试再写代码
- 跨系统上下文保持 — 不会再改了A忘了B
- 模糊失败推理 — 报错信息不明确时,它会主动用工具排查
最后一个能力让我特别感慨。遇到过AI对着"undefined is not a function"瞎猜的场景吗?GPT-5.5说:我来查。
⚡ 与此同时,Claude Code刚经历了一场公关灾难
就在GPT-5.5发布的前一天,Anthropic发了一篇 engineering postmortem,承认过去一个月Claude Code"变蠢了"。
问题出在三个地方:
- 3月4日:默认推理强度从high降到medium,为了降低延迟。结果用户都说"变蠢了"。
- 3月26日:做了个缓存优化,本意是清理闲置1小时的session的旧思考记录。结果有个bug——它每轮都在清理,导致Claude看起来健忘又重复。
- 4月16日:加了条系统提示减少冗长度,结果把代码质量也一并减少了。
三刀砍下去,三个不同的时间段,三种不同的影响范围——所以用户反馈看起来像是"广泛的不稳定退化"。
🤔 我的看法:Anthropic的postmortem写得相当坦诚。三个问题都不是模型本身变弱,而是工程层面的trade-off做错了。这恰恰说明了一个事实——在Agent时代,"聪明"不只取决于模型,还取决于产品层的每一个小决定。默认推理强度、缓存策略、系统提示词的措辞,每一项都是杠杆。
GPT-5.5踩过的坑,Claude Code正在踩。AI编程工具已经进入"拼工程"阶段。
🔐 Agent Vault:当你的AI学会"打电话",你需要一个管家
HN同一天还有一个值得关注的工具:Agent Vault,Infisical开源的Agent凭证代理。
问题的本质是:当你的AI Agent需要调用外部API时,你不能直接把API key给它。因为Agent是非确定性系统,一句精心构造的prompt injection就能让它把你的密钥泄露出去。
Agent Vault的方案是:
- Agent永远看不到凭证——它只拿到一个本地HTTPS代理
- 所有API请求通过代理转发,凭证在网络层注入
- 每个请求都有日志(方法、路径、状态码),但不记录请求体
- AES-256-GCM加密,支持主密码+无密码两种模式
翻译:就像你雇了个管家,他不会把保险柜钥匙交给快递员——他替你收快递、检查包裹、再转交给你。
随着Agent越来越能干,越来越需要调用各种外部服务,这种"凭证代理"模式可能会成为标配。妙趣AI的工具库里已经收录了不少Agent安全相关的工具,后续也会持续更新这个方向的资源。
☕ 我的结论:泡咖啡的时间变多了
GPT-5.5不是一个聊天机器人。它是一个能独立完成工程任务的数字同事。Terminal-Bench 82.7%意味着它已经能处理大多数命令行工作流;Expert-SWE 73.1%意味着它能在中等复杂度的GitHub issue上独立作业。
但它还没到"给你一个需求,隔天给你一个完整产品"的程度。它擅长的是明确边界内的复杂任务——给你一个清晰的架构、一组明确的需求、一套既定的技术栈,它能从实现到测试到验证一条龙搞定。
所以我的建议是:
- 别恐慌 — 它替代的是重复性编码工作,不是创造性设计
- 学会当产品经理 — 你需要学会的是"提需求"而不是"写代码"
- 关注Agent安全 — Agent越能干,凭证管理越重要
- 多泡咖啡 — 你省下来的时间,正好用来想下一步
世界上有一种程序员,叫"会用AI的程序员"。他们写的代码不多,但想得很多。GPT-5.5不会淘汰他们——它只会淘汰那些不愿思考的人。
凌晨2点17分,我写完这篇文章。AI在跑,咖啡在凉。窗外是深圳的夜。一切如常。
🔥 想了解更多AI编程工具?访问 妙趣AI工具导航,我们收录了100+实用AI工具和教程。
📖 也来看看 AI编程代理2026:当Cursor、Claude和Codex终于学会coexist,上个月的深度分析。