AI模型降价300倍,为什么95%项目还是失败?
凌晨2点47分,我看到一篇文章的标题,第一反应是:又是一篇高大上的AI文章,估计没什么干货。
读完之后我裂开了。
它讲的那些失败现场——我居然全都见过。
作者Prukalpa Sanwal是Atlan的联合创始人,做数据治理平台的。她不是AI研究员,所以看问题的角度跟那些天天吹AGI的人不一样——她是从数据基础设施的视角看AI,这反而让她看到的东西更扎心。
一个悖论,你可能每天都在经历
先说数字,让你清醒一下:
- 过去两年,前沿模型推理成本下降了300倍
- Gartner预测到2030年,LLM运行成本还会再降100倍
- Gemini 3.1 Pro在博士级科学推理测试里达到94%
- GPT-5.4 Pro解出了真正数学家都没解出来的开放难题
我们已经到了需要持续发明更难的测试,才能拦住模型继续涨分的程度。模型越来越聪明,价格越来越便宜,选项越来越多。
但是——
- MIT研究显示:95%的生成式AI试点项目失败了
- IDC报告:88%的AI概念验证从来没走到生产环境
模型降价300倍,成功率还是只有5%。这感觉就像你把一台老旧的垃圾场引擎改造成了赛车涡轮,但车还是停在车库里没动。
为什么?
一个公式,把问题说透了
Prukalpa提出的核心框架只有一行:
注意是乘法,不是加法。
这意味着什么?如果Context是零,Performance也是零——不管你用了多贵的模型。
更恐怖的是反方向:用高智能配上错误的Context,会产生负的Performance。
一个越聪明的模型,用错了上下文,会产生更精巧、更有说服力、更危险的错误。它的幻觉不是更少——而是更让人信以为真。
Labs已经把Intelligence这边的问题解决了,而且还在加速。但Context这边——你公司的数据资产、语义定义、内部规则——要靠你自己建。
这就是为什么换模型解决不了问题。
三种失败模式,你公司大概率中了一个
Prukalpa举了几个失败现场,我看完之后整个人都不好了。
失败模式一:客户换马甲
同一个客户,在不同系统里换着马甲——CRM里叫"John Doe",账单系统里叫"J. Doe",工单系统里叫"User_882"。模型再聪明,也被这些小号绕晕了。光靠数据推理,根本不知道这三个是同一个人。
失败模式二:营收不是营收
"营收"在财务和销售口中根本不是同一件事。销售算签单金额,财务算已入账现金。模型选了一个,信心满满地生成报告——技术上无懈可击,业务上一点用没有。
失败模式三:合规知识在PDF里睡觉
合规Agent条条框框一条没落,结果还是错了。因为六个月前合规负责人开了一次审计,发了一封内部备忘录,给某类实体永久豁免。那份知识埋在没人打开的PDF里,活在一位资深同事的记忆里。Agent不知道,也没有办法知道。
三种失败,没有一种是因为模型不够聪明。
从GPT-4升级到GPT-5,从Claude换成Gemini,一个都解决不了。这些都是Context的问题,不是Intelligence的问题。
你可以把引擎换成最贵的那种,车还是开不出去,因为路根本没建好。
还有一个细思极恐的小算数:AI Agent在十步工作流里,每步成功率85%,你以为稳了?全流程一次走通的概率只有20%。第一个错误像骨牌一样翻下去,而且越聪明的模型闹出来的幻觉越像真的,越难被发现。
认知科学早就说过这件事
Prukalpa说,这不是什么新观点——是我们把认知科学的老道理忘了。
来,上硬核背书:
- 1987年,Lucy Suchman研究了人们怎么用施乐复印机,发现了一件工程师们很不想听到的事:人会即兴发挥,而不是执行计划。复印机上那套"智能"帮助系统失败了,因为它只能看到按钮被按下;它看不见用户实际面对的处境。今天的Agentic AI和那台老复印机犯的是同一个错误。
- 1979年,James Gibson提出"可供性"(affordances):椅子对人来说"提供了"坐的可能,对鱼来说没有。物体的用处不在物体本身,而在物体与环境的关系。AI模型的「智能」也不是它的内在属性——它可以在一个问题上表现卓越,在另一个问题上胡说八道。变的只是context,不是模型本身。
- 1980年,Dreyfus兄弟提出技能习得的五个阶段:新手按规则走,专家靠直觉应对情境。越智能的系统,其智能应该越依赖context,而不是越不依赖。我们追求的AGI路径,其实是在建造一个永远停留在新手阶段的系统。
- 1990年代,Edwin Hutchins研究海军导航团队时发现:没有任何一个人"知道"怎么驾驶一艘大船。智能是分布在人、工具、地图和流程之间的——它是系统的属性,不是个人的属性。
还有一个有意思的例子:2026年Yann LeCun离开Meta,拉了10.3亿美元去做他的"世界模型"——欧洲史上最大的种子轮。
那么多钱,就为了赌一把:脱离现实语境的智能是死路一条。
连AI界的大拿,现在也在押注context,而不是押注更大的模型。
OpenAI自己也踩过这个坑
OpenAI在内部为自己建了一个数据Agent。
他们以为可以直接把模型对准数据库,然后开始跑。结果发现,他们需要六层context才能让这个东西正常工作:
- 第一层:表的使用情况和结构
- 第二层:人工标注
- 第三层:从代码里推导出的定义
- 第四层:从Slack消息和文档里挖出来的机构知识
- 第五层:从历次纠错记录里积累的记忆
- 第六层:每次查询时的实时上下文
整整六层。而且每一层都需要持续维护,因为公司在变,数据在变,业务逻辑在变。
这不是一次性工程,是一套必须持续投入的基础设施。
OpenAI这么一家公司,做自己内部的AI工具,也绕不过去。做你自家产品的公司,没理由能绕过去。
Context不能被商品化
Prukalpa的核心论点:你不能靠AI本身建立护城河。
你不能在一个每年指数级变便宜、竞争对手都能从API里调出来的资源上,建立持久竞争优势。今天你用GPT-5比对手快半年,但这半年内对手追上来的成本几乎是零。
但context不能被商品化。
你公司对自己数据的理解、独特的语义定义、历史上"为什么这么做"的原因——这些东西没有办法被训练进一个通用模型里,也没有API可以调。你积累的这些知识,对手复制不了,即使你愿意卖,他们也没法直接用。
这里有一个飞轮效应。你部署的第十个AI Agent,会继承为前九个Agent建立的context。随着你把更多业务流程AI化,你积累的context越多,每新增一个Agent的准确率越高,部署成本越低。
先建好context基础设施的公司,会越来越难被追上。
"大翻转":难题换了
Prukalpa把她的结论叫做「大翻转」(The Great Inversion)。
几年前,"难题"是造一台能推理的机器。模型是一切讨论的中心,给它提供什么基础设施、什么信息是事后再说的事。
现在,难题换了。
造推理引擎——曾经是人类工程的巅峰——正在被几个实验室解决。让推理变得有用的Context?那才是新边界。
而且这个边界没有全局解。它必须针对每一家公司、每一个领域、每一个不断演变的情境单独去解。这不是发布一个模型就能解决的问题。
"帮公司建context基础设施"——说出来不性感,远没有"用最新的模型做出了酷炫的东西"听起来刺激。但Prukalpa的意思是,这才是差距真正会拉开的地方。
我学到了什么
我不知道她的判断最终是否完全正确。
但我知道那三个失败现场——客户在不同系统里换马甲、财务和销售说的不是同一个营收、合规知识躺在没人打开的PDF里——我见过太多次了。
换模型,从来不是解决方案。
2026年了,Intelligence已经变成了commodity。你花大价钱买回来的模型能力,过三个月就变成了baseline。
真正值钱的,是你公司对业务的理解、对数据的定义、对"为什么这么做"的历史记忆。
这些东西没法从API里调出来。
只能自己建。
凌晨3点23分,我合上电脑,想着明天要不要去建议老板把AI预算的一半挪去做数据治理。毕竟——
路都没修好,换再快的引擎也没用。
资料来源:Prukalpa Sanwal (@prukalpa), "If Intelligence Is Abundant, What is the Moat?", Context & Chaos, May 2026