AI安全模型的"核按钮"困境：谁配拥有发现漏洞的超能力？

2026年4月20日 · 阅读时间 10 分钟

世界上有三种人：会写漏洞的人、会修漏洞的人，以及能让AI自动找漏洞的人。

2026年4月，OpenAI和Anthropic同时进入了第三类。

但他们的做法，却让人想起了核武器。

不是那种"一键毁灭世界"的核武器，而是"我们有能力，但不给你"的那种。

两个AI安全模型的诞生

GPT-5.4-Cyber：OpenAI的"防御之盾"

4月15日，OpenAI发布了GPT-5.4-Cyber。

这是GPT-5.4的网络安全专用版本，专门优化了防御性网络安全场景：

漏洞发现：自动扫描代码，找出安全问题
漏洞验证：确认漏洞是否真实存在
修复建议：提供修复方案和代码

听起来很美好？但问题来了——谁可以用？

OpenAI的答案是：仅限经过认证的安全团队。

他们推出了一个叫Trusted Access for Cyber（TAC）的项目，把访问权限限制在：

数千名经过认证的个人防御者
数百个负责保护关键软件的团队

普通人？对不起，你用不了。

Mythos：Anthropic的"发现之眼"

一周前，Anthropic发布了Mythos。

这个模型更疯狂——它可以自主发现并利用软件漏洞。

在Project Glasswing项目中，Mythos已经发现了"数千个"漏洞，涵盖：

操作系统
Web浏览器
其他常用软件

但同样，它的访问权限被严格控制。

Anthropic只把Mythos提供给少数受信任的组织，因为：

"一个能发现漏洞的模型，同样可以被反向用来制造漏洞。"

为什么这像"核按钮"？

核武器的特点是：一旦被制造出来，就需要被严格控制。

因为这些武器太危险，不能随便给任何国家。

AI安全模型也是一样的逻辑：

防御者用它来发现漏洞、修复系统
攻击者用它来发现漏洞、发起攻击

同一把剑，可以救人，也可以杀人。

所以OpenAI和Anthropic都做出了类似的选择：我们造出了这把剑，但不是每个人都配拥有它。

双重用途困境

AI系统天生是"双重用途"的：

为合法应用开发的技术，可以被恶意行为者重新利用，用于攻击。

一个为防御设计的模型，攻击者可以"反向使用"：

训练模型发现漏洞
在厂商修复之前，利用这些漏洞
对用户造成巨大风险

这就是为什么这些模型必须被"控制发布"。

两难选择：开放还是控制？

这带来了一个哲学问题：

这种能力，应该被开放，还是被控制？

支持开放的观点

防御者需要武器：如果攻击者已经有漏洞工具，防御者也应该有
透明度：开放可以让更多人审查和改进
公平性：不是只有大公司才能拥有这种能力

支持控制的观点

防止滥用：限制访问可以减少恶意使用
给防御者"先发优势"：让好人先用，坏人后用
渐进式发布：边测试边完善安全措施

OpenAI和Anthropic显然选择了"控制"这条路。

他们的逻辑是：先让好人用好，再考虑要不要开放给所有人。

实际效果：防御者真的赢了吗？

OpenAI报告称，他们的Codex Security工具已经帮助修复了3000+个严重和高危漏洞。

这是一个好数字。但问题来了：

如果坏人也有这种工具，他们会修复漏洞吗？

显然不会。他们会：

发现漏洞
不告诉任何人
利用漏洞发动攻击
在漏洞被修复之前，最大化获利

这就是为什么"控制发布"如此重要。

如果你给了攻击者这种工具，你就是在"军备竞赛"中给他们递了一把枪。

对普通人意味着什么？

你可能会问：这和我有什么关系？

其实关系很大：

1. 更安全的软件

如果你的银行、社交媒体、政府网站都用这种工具来发现和修复漏洞，你的数据会更安全。

2. 更快的修复速度

传统上，发现一个漏洞需要人工审计，可能要几个月。现在AI可以在几小时内发现并报告。

3. 但也存在风险

如果这些模型被滥用，攻击者可能比防御者更快地发现漏洞。

这就是为什么OpenAI强调："在模型能力提升的同时，我们必须同步加强安全措施"。

未来展望：AI安全的"核不扩散条约"？

这让我想起了核武器的历史。

最初，只有美国拥有核武器。后来，苏联也造出来了。再后来，越来越多的国家加入"核俱乐部"。

为了防止核扩散，各国签订了"核不扩散条约"。

AI安全模型可能也会走向类似的道路：

当前阶段：只有少数公司拥有这种能力，且严格控制访问
中期阶段：更多公司加入，开始制定行业标准
远期阶段：可能需要国际协议来规范这类模型的开发和发布

踩坑实录：如果你是安全团队

如果你的团队想申请访问这些模型，有几件事要注意：

1. 认证你的团队

OpenAI和Anthropic都需要你证明自己是"可信的防御者"。

准备好你的资质证明、工作证明、安全认证等材料。

2. 明确你的使用场景

说清楚你要用模型来做什么：

扫描内部代码库？
审计第三方依赖？
安全研究？

3. 建立使用规范

不要让你的团队滥用这些工具。建立明确的操作流程：

发现漏洞后怎么处理？
是否要报告给厂商？
如何保护发现的漏洞信息？

4. 持续学习

AI安全领域变化很快。今天的方法，明天可能就过时了。

保持学习，保持更新。

尾声：3分37秒的沉思

我盯着屏幕上的新闻，突然想到一个问题：

如果AI可以自动发现漏洞，那AI本身会有漏洞吗？

答案是肯定的。

AI模型也会有bug，也会有安全问题，也会被攻击。

所以，用AI来发现漏洞，某种程度上也是"用AI来保护AI"。

这是一个循环。一个可能永远没有终点的循环。

但在那之前，我们至少可以让这个循环"向善"。

就像OpenAI说的："我们的目标是让防御者比攻击者更快。"

这不是完美的解决方案。但它是目前最好的选择。

—— 一个关注AI安全的观察者