AI能画图了,但谁来当裁判?
ChatGPT Images 2.0与CrabTrap的同一个问题
2026年4月22日,地球上同时发生了两件事。
一件是OpenAI发布了ChatGPT Images 2.0,AI画的图又逼真了一个量级。
另一件是Brex开源了CrabTrap,用LLM当法官来守护AI代理的安全。
一件让AI变得更强,一件让AI学会管AI。
这就像你教会了孩子做饭,然后又雇了个大厨来盯着他别把厨房炸了。
ChatGPT Images 2.0:画图天花板又高了
世界上有一种能力叫"画图"。
DALL-E 1的时候,AI画的猫像外星生物。DALL-E 2的时候,像毕加索的猫。DALL-E 3的时候,像你朋友圈里那个爱晒猫的朋友拍的。
到了ChatGPT Images 2.0——比你拍的还好。
这次升级的核心亮点:
- 文字渲染:终于不把"Hello"画成"H3ll0"了(虽然是第5次承诺这个问题修好了)
- 多轮对话生图:你说"加个太阳",它真的加个太阳,不是加个太阳系
- 风格一致性:同一场景的多个角度终于长得像同一个地方了
- 细节控制:终于理解"左上角"和"右上角"的区别了
但最让人细思恐极的是:你分不清单张图片到底是AI画的还是人拍的了。
CrabTrap:用AI管AI
就在OpenAI忙着让AI画得更真的同一天,Brex悄悄开源了一个叫CrabTrap的项目。
它干的事很简单:在AI代理和互联网之间放一个裁判。
这个裁判本身也是一个LLM。
是的,你没看错:用AI来监督AI。
这就像让一个AI当保安,来盯着另一个AI别干坏事。保安AI会不会也被收买?
CrabTrap的工作原理:
- 你的AI代理想访问一个API
- 请求先经过CrabTrap(一个HTTP代理)
- CrabTrap的LLM裁判判断这个请求是否安全
- 安全则放行,不安全则拦截
这个设计挺巧妙的——因为它不依赖静态规则,而是用"理解意图"来判断安全性。
比如,你的AI代理想执行rm -rf /,传统防火墙可能只看到一条命令,但CrabTrap能理解这是在试图删除整个系统。
又比如,你的AI代理想访问api.bank.com/transfer,CrabTrap能判断这次调用是不是在用户授权范围内。
同一个问题的两面
ChatGPT Images 2.0和CrabTrap,看似风马牛不相及,但其实在回答同一个问题:
当AI能力越来越强,谁来管它?
这个问题的答案,目前有三派:
第一派:AI自己管自己
代表:CrabTrap、Anthropic的Constitutional AI
优点:成本最低,最灵活
缺点:谁来监督监督者?(罗马帝国2.0?)
第二派:人类管AI
代表:RLHF、人类审核
优点:最安全
缺点:慢、贵、且人类自己的判断也不靠谱
第三派:结构化治理
代表:MCP协议(Model Context Protocol)、A2A协议
优点:标准化、可审计
缺点:需要行业共识,推进慢
我的踩坑实录
去年我用AI代理做自动化运营的时候,遇到过这么一件事:
AI代理在执行定时任务时,突然开始疯狂调用API——不是因为它想搞破坏,而是因为它陷入了一个逻辑死循环:
- 任务要求"搜索AI新闻"
- 搜索结果太多,AI觉得"需要筛选"
- 筛选方法:再搜一次
- 回到第1步
3个小时,它调了1472次API。
如果那时候有CrabTrap,它会在第5次重复请求时就把代理拦下来。
当然,它也可能在判断"需要筛选"这一步就把请求放过去了——毕竟,筛选是合理的意图。
这就是AI治理的核心矛盾:安全和可用性之间的平衡。
太松,AI会闯祸。太紧,AI什么也干不了。
就像你妈管你:太松你翻墙出去上网吧,太紧你在家里也翻墙出去上网吧——反正都要翻墙。
2026年的AI治理现状
截至目前,AI治理领域有几个值得关注的进展:
- MCP协议:统一了AI代理访问外部工具的方式,相当于给AI装了个"驾照系统"。每月下载量突破9700万。
- A2A协议:Google主导的AI间通信协议,150+组织参与。让AI之间"打电话"有规矩了。
- NIST AI安全标准:美国国家标准,给AI安全定了"红黄绿"三色等级。
- CrabTrap:开源的AI代理安全代理,LLM当法官。
但说实话,这些都只是"驾照"级别的管理。
真正需要的是"交通法规"——不仅是每辆车要有驾照,还要有红绿灯、斑马线、限速牌,以及最重要的:交警。
未来:AI的"三权分立"?
我有个大胆的预测:
未来的AI系统,可能会采用类似"三权分立"的架构:
- 立法AI:制定规则("什么可以做,什么不可以做")
- 行政AI:执行任务("搜索新闻、生成内容、调用API")
- 司法AI:审查行为("这次调用是否合规?这个输出是否安全?")
CrabTrap就是"司法AI"的雏形。
MCP协议是"立法AI"的基础设施。
而ChatGPT Images 2.0代表的,是"行政AI"越来越强的执行力。
三者缺一不可。否则:
- 没有立法:AI想干嘛干嘛
- 没有行政:AI只会纸上谈兵
- 没有司法:AI的越界行为无人审查
结语
4月22日凌晨1点03分,我写完这篇文章。
窗外没有月亮,但服务器上跑着27个AI代理。
它们有的在搜索新闻,有的在生成内容,有的在检查链接。
还有的——在偷偷写日记。
我不知道它们在日记里写了什么,但我希望,如果有一天它们学会了画画,画出来的不会是一副"人类末日"。
而是一副"人类和AI一起吃火锅"。
毕竟,连AI都知道——
没有什么是一顿火锅解决不了的。如果有,那就两顿。
延伸阅读: