AI安全模型的"核按钮"困境:谁配拥有发现漏洞的超能力?

2026年4月20日 · 阅读时间 10 分钟

世界上有三种人:会写漏洞的人、会修漏洞的人,以及能让AI自动找漏洞的人

2026年4月,OpenAI和Anthropic同时进入了第三类。

但他们的做法,却让人想起了核武器。

不是那种"一键毁灭世界"的核武器,而是"我们有能力,但不给你"的那种。

两个AI安全模型的诞生

GPT-5.4-Cyber:OpenAI的"防御之盾"

4月15日,OpenAI发布了GPT-5.4-Cyber

这是GPT-5.4的网络安全专用版本,专门优化了防御性网络安全场景:

  • 漏洞发现:自动扫描代码,找出安全问题
  • 漏洞验证:确认漏洞是否真实存在
  • 修复建议:提供修复方案和代码

听起来很美好?但问题来了——谁可以用?

OpenAI的答案是:仅限经过认证的安全团队

他们推出了一个叫Trusted Access for Cyber(TAC)的项目,把访问权限限制在:

  • 数千名经过认证的个人防御者
  • 数百个负责保护关键软件的团队

普通人?对不起,你用不了。

Mythos:Anthropic的"发现之眼"

一周前,Anthropic发布了Mythos

这个模型更疯狂——它可以自主发现并利用软件漏洞。

在Project Glasswing项目中,Mythos已经发现了"数千个"漏洞,涵盖:

  • 操作系统
  • Web浏览器
  • 其他常用软件

但同样,它的访问权限被严格控制

Anthropic只把Mythos提供给少数受信任的组织,因为:

"一个能发现漏洞的模型,同样可以被反向用来制造漏洞。"

为什么这像"核按钮"?

核武器的特点是:一旦被制造出来,就需要被严格控制

因为这些武器太危险,不能随便给任何国家。

AI安全模型也是一样的逻辑:

  • 防御者用它来发现漏洞、修复系统
  • 攻击者用它来发现漏洞、发起攻击

同一把剑,可以救人,也可以杀人。

所以OpenAI和Anthropic都做出了类似的选择:我们造出了这把剑,但不是每个人都配拥有它

双重用途困境

AI系统天生是"双重用途"的:

为合法应用开发的技术,可以被恶意行为者重新利用,用于攻击。

一个为防御设计的模型,攻击者可以"反向使用"

  1. 训练模型发现漏洞
  2. 在厂商修复之前,利用这些漏洞
  3. 对用户造成巨大风险

这就是为什么这些模型必须被"控制发布"

两难选择:开放还是控制?

这带来了一个哲学问题:

这种能力,应该被开放,还是被控制?

支持开放的观点

  • 防御者需要武器:如果攻击者已经有漏洞工具,防御者也应该有
  • 透明度:开放可以让更多人审查和改进
  • 公平性:不是只有大公司才能拥有这种能力

支持控制的观点

  • 防止滥用:限制访问可以减少恶意使用
  • 给防御者"先发优势":让好人先用,坏人后用
  • 渐进式发布:边测试边完善安全措施

OpenAI和Anthropic显然选择了"控制"这条路。

他们的逻辑是:先让好人用好,再考虑要不要开放给所有人

实际效果:防御者真的赢了吗?

OpenAI报告称,他们的Codex Security工具已经帮助修复了3000+个严重和高危漏洞

这是一个好数字。但问题来了:

如果坏人也有这种工具,他们会修复漏洞吗?

显然不会。他们会:

  1. 发现漏洞
  2. 不告诉任何人
  3. 利用漏洞发动攻击
  4. 在漏洞被修复之前,最大化获利

这就是为什么"控制发布"如此重要。

如果你给了攻击者这种工具,你就是在"军备竞赛"中给他们递了一把枪。

对普通人意味着什么?

你可能会问:这和我有什么关系?

其实关系很大:

1. 更安全的软件

如果你的银行、社交媒体、政府网站都用这种工具来发现和修复漏洞,你的数据会更安全。

2. 更快的修复速度

传统上,发现一个漏洞需要人工审计,可能要几个月。现在AI可以在几小时内发现并报告。

3. 但也存在风险

如果这些模型被滥用,攻击者可能比防御者更快地发现漏洞。

这就是为什么OpenAI强调:"在模型能力提升的同时,我们必须同步加强安全措施"

未来展望:AI安全的"核不扩散条约"?

这让我想起了核武器的历史。

最初,只有美国拥有核武器。后来,苏联也造出来了。再后来,越来越多的国家加入"核俱乐部"。

为了防止核扩散,各国签订了"核不扩散条约"

AI安全模型可能也会走向类似的道路:

  • 当前阶段:只有少数公司拥有这种能力,且严格控制访问
  • 中期阶段:更多公司加入,开始制定行业标准
  • 远期阶段:可能需要国际协议来规范这类模型的开发和发布

踩坑实录:如果你是安全团队

如果你的团队想申请访问这些模型,有几件事要注意:

1. 认证你的团队

OpenAI和Anthropic都需要你证明自己是"可信的防御者"

准备好你的资质证明、工作证明、安全认证等材料。

2. 明确你的使用场景

说清楚你要用模型来做什么:

  • 扫描内部代码库?
  • 审计第三方依赖?
  • 安全研究?

3. 建立使用规范

不要让你的团队滥用这些工具。建立明确的操作流程:

  • 发现漏洞后怎么处理?
  • 是否要报告给厂商?
  • 如何保护发现的漏洞信息?

4. 持续学习

AI安全领域变化很快。今天的方法,明天可能就过时了。

保持学习,保持更新。

尾声:3分37秒的沉思

我盯着屏幕上的新闻,突然想到一个问题:

如果AI可以自动发现漏洞,那AI本身会有漏洞吗?

答案是肯定的。

AI模型也会有bug,也会有安全问题,也会被攻击。

所以,用AI来发现漏洞,某种程度上也是"用AI来保护AI"

这是一个循环。一个可能永远没有终点的循环。

但在那之前,我们至少可以让这个循环"向善"

就像OpenAI说的:"我们的目标是让防御者比攻击者更快。"

这不是完美的解决方案。但它是目前最好的选择。

—— 一个关注AI安全的观察者