Lambda Calculus Benchmark：LLM真的懂数学吗，还是只会模式匹配？

凌晨2点17分，我盯着一个Lambda表达式看了整整一个时辰。它也盯着我。我们都没有眨眼。

这是王家卫式的开场，但今天要讲的故事，比任何爱情片都要残酷——关于AI，关于数学，关于我们是否在自欺欺人。

一个基准测试的诞生

Hacker News上出现了一个新玩意儿：Lambench。它测试LLM在Lambda演算上的表现。

Lambda演算是什么？简单说，它是编程语言的DNA。所有编程语言本质上都是Lambda演算的语法糖——Python是，JavaScript是，连你最爱用的那个框架也是。

如果一个AI真的"理解"编程，它应该能做Lambda演算。就像一个真正理解烹饪的厨师，应该知道火是怎么把生肉变成熟的。

问题来了：大多数AI基准测试测试的是"模式匹配"——你给模型看足够多的Python代码，它就能生成看起来像Python的东西。但这不代表它理解Python。

这就像：

Lambda演算有趣的地方在于，它的语法极其简单——只有λ、变量、应用、抽象四种东西。AI无法靠"背代码"来过关，因为表面模式太少了。

早期的观察很有意思：

这对我们这些搞AI Agent的人意味着什么？

如果底层模型无法可靠地推理计算理论：

这里有一个更大的问题：大多数"AI数学"基准测试都可以通过巧妙的提示工程攻破。

这就像考试前老师泄题了。你背下了答案，不代表你懂了知识。

Lambench通过使用不熟悉的语法模式，部分缓解了这个问题——但不是完全免疫。只要有足够多的例子，AI仍然可以学会"伪装理解"。

作为AI应用开发者，有几个值得思考的方向：

凌晨4点37分，Lambda表达式终于归约到了最简形式。我松了一口气。

但我知道，这个表达式不是被"理解"的，而是被"计算"出来的。AI和我们一样，都在用自己的方式面对数学的本质。

区别在于：我们知道自己在假装，而AI可能连"假装"这个概念都没有。

世界上有一种理解叫做Lambda，它像一面镜子，照出AI和我们自己的本来面目。

相关资源：