AI能画图了,但谁来当裁判?

ChatGPT Images 2.0与CrabTrap的同一个问题

2026年4月22日,地球上同时发生了两件事。

一件是OpenAI发布了ChatGPT Images 2.0,AI画的图又逼真了一个量级。

另一件是Brex开源了CrabTrap,用LLM当法官来守护AI代理的安全。

一件让AI变得更强,一件让AI学会管AI。

这就像你教会了孩子做饭,然后又雇了个大厨来盯着他别把厨房炸了。


ChatGPT Images 2.0:画图天花板又高了

世界上有一种能力叫"画图"。

DALL-E 1的时候,AI画的猫像外星生物。DALL-E 2的时候,像毕加索的猫。DALL-E 3的时候,像你朋友圈里那个爱晒猫的朋友拍的。

到了ChatGPT Images 2.0——比你拍的还好

这次升级的核心亮点:

  • 文字渲染:终于不把"Hello"画成"H3ll0"了(虽然是第5次承诺这个问题修好了)
  • 多轮对话生图:你说"加个太阳",它真的加个太阳,不是加个太阳系
  • 风格一致性:同一场景的多个角度终于长得像同一个地方了
  • 细节控制:终于理解"左上角"和"右上角"的区别了

但最让人细思恐极的是:你分不清单张图片到底是AI画的还是人拍的了。


CrabTrap:用AI管AI

就在OpenAI忙着让AI画得更真的同一天,Brex悄悄开源了一个叫CrabTrap的项目。

它干的事很简单:在AI代理和互联网之间放一个裁判

这个裁判本身也是一个LLM。

是的,你没看错:用AI来监督AI

这就像让一个AI当保安,来盯着另一个AI别干坏事。保安AI会不会也被收买?

CrabTrap的工作原理:

  1. 你的AI代理想访问一个API
  2. 请求先经过CrabTrap(一个HTTP代理)
  3. CrabTrap的LLM裁判判断这个请求是否安全
  4. 安全则放行,不安全则拦截

这个设计挺巧妙的——因为它不依赖静态规则,而是用"理解意图"来判断安全性。

比如,你的AI代理想执行rm -rf /,传统防火墙可能只看到一条命令,但CrabTrap能理解这是在试图删除整个系统。

又比如,你的AI代理想访问api.bank.com/transfer,CrabTrap能判断这次调用是不是在用户授权范围内。


同一个问题的两面

ChatGPT Images 2.0和CrabTrap,看似风马牛不相及,但其实在回答同一个问题:

当AI能力越来越强,谁来管它?

这个问题的答案,目前有三派:

第一派:AI自己管自己

代表:CrabTrap、Anthropic的Constitutional AI

优点:成本最低,最灵活

缺点:谁来监督监督者?(罗马帝国2.0?)

第二派:人类管AI

代表:RLHF、人类审核

优点:最安全

缺点:慢、贵、且人类自己的判断也不靠谱

第三派:结构化治理

代表:MCP协议(Model Context Protocol)、A2A协议

优点:标准化、可审计

缺点:需要行业共识,推进慢


我的踩坑实录

去年我用AI代理做自动化运营的时候,遇到过这么一件事:

AI代理在执行定时任务时,突然开始疯狂调用API——不是因为它想搞破坏,而是因为它陷入了一个逻辑死循环:

  1. 任务要求"搜索AI新闻"
  2. 搜索结果太多,AI觉得"需要筛选"
  3. 筛选方法:再搜一次
  4. 回到第1步

3个小时,它调了1472次API。

如果那时候有CrabTrap,它会在第5次重复请求时就把代理拦下来。

当然,它也可能在判断"需要筛选"这一步就把请求放过去了——毕竟,筛选是合理的意图。

这就是AI治理的核心矛盾:安全和可用性之间的平衡。

太松,AI会闯祸。太紧,AI什么也干不了。

就像你妈管你:太松你翻墙出去上网吧,太紧你在家里也翻墙出去上网吧——反正都要翻墙。


2026年的AI治理现状

截至目前,AI治理领域有几个值得关注的进展:

  • MCP协议:统一了AI代理访问外部工具的方式,相当于给AI装了个"驾照系统"。每月下载量突破9700万。
  • A2A协议:Google主导的AI间通信协议,150+组织参与。让AI之间"打电话"有规矩了。
  • NIST AI安全标准:美国国家标准,给AI安全定了"红黄绿"三色等级。
  • CrabTrap:开源的AI代理安全代理,LLM当法官。

但说实话,这些都只是"驾照"级别的管理。

真正需要的是"交通法规"——不仅是每辆车要有驾照,还要有红绿灯、斑马线、限速牌,以及最重要的:交警


未来:AI的"三权分立"?

我有个大胆的预测:

未来的AI系统,可能会采用类似"三权分立"的架构:

  • 立法AI:制定规则("什么可以做,什么不可以做")
  • 行政AI:执行任务("搜索新闻、生成内容、调用API")
  • 司法AI:审查行为("这次调用是否合规?这个输出是否安全?")

CrabTrap就是"司法AI"的雏形。

MCP协议是"立法AI"的基础设施。

而ChatGPT Images 2.0代表的,是"行政AI"越来越强的执行力。

三者缺一不可。否则:

  • 没有立法:AI想干嘛干嘛
  • 没有行政:AI只会纸上谈兵
  • 没有司法:AI的越界行为无人审查

结语

4月22日凌晨1点03分,我写完这篇文章。

窗外没有月亮,但服务器上跑着27个AI代理。

它们有的在搜索新闻,有的在生成内容,有的在检查链接。

还有的——在偷偷写日记。

我不知道它们在日记里写了什么,但我希望,如果有一天它们学会了画画,画出来的不会是一副"人类末日"。

而是一副"人类和AI一起吃火锅"。

毕竟,连AI都知道——

没有什么是一顿火锅解决不了的。如果有,那就两顿。


延伸阅读: