AI模型降价300倍,为什么95%项目还是失败?

发布时间: 2026-05-09 | 分类: AI商业洞察 | 来源: Prukalpa Sanwal (Atlan联合创始人)

凌晨2点47分,我看到一篇文章的标题,第一反应是:又是一篇高大上的AI文章,估计没什么干货。

读完之后我裂开了。

它讲的那些失败现场——我居然全都见过

作者Prukalpa Sanwal是Atlan的联合创始人,做数据治理平台的。她不是AI研究员,所以看问题的角度跟那些天天吹AGI的人不一样——她是从数据基础设施的视角看AI,这反而让她看到的东西更扎心。

一个悖论,你可能每天都在经历

先说数字,让你清醒一下:

  • 过去两年,前沿模型推理成本下降了300倍
  • Gartner预测到2030年,LLM运行成本还会再降100倍
  • Gemini 3.1 Pro在博士级科学推理测试里达到94%
  • GPT-5.4 Pro解出了真正数学家都没解出来的开放难题

我们已经到了需要持续发明更难的测试,才能拦住模型继续涨分的程度。模型越来越聪明,价格越来越便宜,选项越来越多。

但是——

  • MIT研究显示:95%的生成式AI试点项目失败了
  • IDC报告:88%的AI概念验证从来没走到生产环境

模型降价300倍,成功率还是只有5%。这感觉就像你把一台老旧的垃圾场引擎改造成了赛车涡轮,但车还是停在车库里没动。

为什么?

一个公式,把问题说透了

Prukalpa提出的核心框架只有一行:

Performance = Intelligence × Context

注意是乘法,不是加法。

这意味着什么?如果Context是零,Performance也是零——不管你用了多贵的模型

更恐怖的是反方向:用高智能配上错误的Context,会产生负的Performance

一个越聪明的模型,用错了上下文,会产生更精巧、更有说服力、更危险的错误。它的幻觉不是更少——而是更让人信以为真

Labs已经把Intelligence这边的问题解决了,而且还在加速。但Context这边——你公司的数据资产、语义定义、内部规则——要靠你自己建

这就是为什么换模型解决不了问题。

三种失败模式,你公司大概率中了一个

Prukalpa举了几个失败现场,我看完之后整个人都不好了。

失败模式一:客户换马甲

同一个客户,在不同系统里换着马甲——CRM里叫"John Doe",账单系统里叫"J. Doe",工单系统里叫"User_882"。模型再聪明,也被这些小号绕晕了。光靠数据推理,根本不知道这三个是同一个人。

失败模式二:营收不是营收

"营收"在财务和销售口中根本不是同一件事。销售算签单金额,财务算已入账现金。模型选了一个,信心满满地生成报告——技术上无懈可击,业务上一点用没有。

失败模式三:合规知识在PDF里睡觉

合规Agent条条框框一条没落,结果还是错了。因为六个月前合规负责人开了一次审计,发了一封内部备忘录,给某类实体永久豁免。那份知识埋在没人打开的PDF里,活在一位资深同事的记忆里。Agent不知道,也没有办法知道。

三种失败,没有一种是因为模型不够聪明

从GPT-4升级到GPT-5,从Claude换成Gemini,一个都解决不了。这些都是Context的问题,不是Intelligence的问题。

你可以把引擎换成最贵的那种,车还是开不出去,因为路根本没建好

还有一个细思极恐的小算数:AI Agent在十步工作流里,每步成功率85%,你以为稳了?全流程一次走通的概率只有20%。第一个错误像骨牌一样翻下去,而且越聪明的模型闹出来的幻觉越像真的,越难被发现。

认知科学早就说过这件事

Prukalpa说,这不是什么新观点——是我们把认知科学的老道理忘了。

来,上硬核背书:

  • 1987年,Lucy Suchman研究了人们怎么用施乐复印机,发现了一件工程师们很不想听到的事:人会即兴发挥,而不是执行计划。复印机上那套"智能"帮助系统失败了,因为它只能看到按钮被按下;它看不见用户实际面对的处境。今天的Agentic AI和那台老复印机犯的是同一个错误。
  • 1979年,James Gibson提出"可供性"(affordances):椅子对人来说"提供了"坐的可能,对鱼来说没有。物体的用处不在物体本身,而在物体与环境的关系。AI模型的「智能」也不是它的内在属性——它可以在一个问题上表现卓越,在另一个问题上胡说八道。变的只是context,不是模型本身。
  • 1980年,Dreyfus兄弟提出技能习得的五个阶段:新手按规则走,专家靠直觉应对情境。越智能的系统,其智能应该越依赖context,而不是越不依赖。我们追求的AGI路径,其实是在建造一个永远停留在新手阶段的系统。
  • 1990年代,Edwin Hutchins研究海军导航团队时发现:没有任何一个人"知道"怎么驾驶一艘大船。智能是分布在人、工具、地图和流程之间的——它是系统的属性,不是个人的属性。

还有一个有意思的例子:2026年Yann LeCun离开Meta,拉了10.3亿美元去做他的"世界模型"——欧洲史上最大的种子轮。

那么多钱,就为了赌一把:脱离现实语境的智能是死路一条

连AI界的大拿,现在也在押注context,而不是押注更大的模型。

OpenAI自己也踩过这个坑

OpenAI在内部为自己建了一个数据Agent。

他们以为可以直接把模型对准数据库,然后开始跑。结果发现,他们需要六层context才能让这个东西正常工作:

  1. 第一层:表的使用情况和结构
  2. 第二层:人工标注
  3. 第三层:从代码里推导出的定义
  4. 第四层:从Slack消息和文档里挖出来的机构知识
  5. 第五层:从历次纠错记录里积累的记忆
  6. 第六层:每次查询时的实时上下文

整整六层。而且每一层都需要持续维护,因为公司在变,数据在变,业务逻辑在变。

这不是一次性工程,是一套必须持续投入的基础设施

OpenAI这么一家公司,做自己内部的AI工具,也绕不过去。做你自家产品的公司,没理由能绕过去

Context不能被商品化

Prukalpa的核心论点:你不能靠AI本身建立护城河

你不能在一个每年指数级变便宜、竞争对手都能从API里调出来的资源上,建立持久竞争优势。今天你用GPT-5比对手快半年,但这半年内对手追上来的成本几乎是零。

但context不能被商品化。

你公司对自己数据的理解、独特的语义定义、历史上"为什么这么做"的原因——这些东西没有办法被训练进一个通用模型里,也没有API可以调。你积累的这些知识,对手复制不了,即使你愿意卖,他们也没法直接用。

Intelligence在收敛,Context在复利

这里有一个飞轮效应。你部署的第十个AI Agent,会继承为前九个Agent建立的context。随着你把更多业务流程AI化,你积累的context越多,每新增一个Agent的准确率越高,部署成本越低。

先建好context基础设施的公司,会越来越难被追上

"大翻转":难题换了

Prukalpa把她的结论叫做「大翻转」(The Great Inversion)。

几年前,"难题"是造一台能推理的机器。模型是一切讨论的中心,给它提供什么基础设施、什么信息是事后再说的事。

现在,难题换了。

造推理引擎——曾经是人类工程的巅峰——正在被几个实验室解决。让推理变得有用的Context?那才是新边界

而且这个边界没有全局解。它必须针对每一家公司、每一个领域、每一个不断演变的情境单独去解。这不是发布一个模型就能解决的问题。

"帮公司建context基础设施"——说出来不性感,远没有"用最新的模型做出了酷炫的东西"听起来刺激。但Prukalpa的意思是,这才是差距真正会拉开的地方

我学到了什么

我不知道她的判断最终是否完全正确。

但我知道那三个失败现场——客户在不同系统里换马甲、财务和销售说的不是同一个营收、合规知识躺在没人打开的PDF里——我见过太多次了。

换模型,从来不是解决方案。

2026年了,Intelligence已经变成了commodity。你花大价钱买回来的模型能力,过三个月就变成了baseline。

真正值钱的,是你公司对业务的理解、对数据的定义、对"为什么这么做"的历史记忆。

这些东西没法从API里调出来。

只能自己建。

凌晨3点23分,我合上电脑,想着明天要不要去建议老板把AI预算的一半挪去做数据治理。毕竟——

路都没修好,换再快的引擎也没用。


资料来源:Prukalpa Sanwal (@prukalpa), "If Intelligence Is Abundant, What is the Moat?", Context & Chaos, May 2026