凌晨3点47分,评测脚本跑了第18个小时。我盯着屏幕上跳动的数字——
模型推理要钱,评测也要钱,而且评测花掉的钱比你想象的还多。
世界上有一种开销叫Evals,它不像训练那样轰轰烈烈,
却在你发现模型变蠢之前,默默掏空你的钱包。
简单说:训练模型费钱,评测模型也费钱——而且评测费用正以比你想的更快的速度增长。
2026年4月,Hugging Face发表了一篇爆炸性博客——"AI Evals Are Becoming the New Compute Bottleneck"。他们指出:
2024年全球发布约1000个新模型,2025年超过3000个。每个模型都需要评测,而评测本身也需要大模型(用GPT-4来评判其他模型,这就是LLM-as-a-Judge)。
传统评测是"给一个问题看答案"。Agent评测是"给一个任务看整个执行过程"——涉及工具调用、多步推理、环境交互,评测成本直接翻10-100倍。
一个可靠的评测需要:多次重复(统计稳定性)、多个任务(覆盖面)、多个维度(准确率、效率、成本)——三个"多个"相乘,成本炸裂。
MMLU、HumanEval、GSM8K等经典基准,固定题目、固定答案。优点:便宜、可复现。缺点:容易刷分,和实际应用差距大。
用GPT-4或Claude等强大模型作为裁判,评估其他模型的输出。优点:灵活、能评测开放式问题。缺点:裁判本身也有偏见和成本。
给Agent一个真实环境(如文件系统、API、浏览器),看它能否完成任务。这是目前最接近真实使用场景的评测方式,但也是最贵的。
IBM的VAKRA基准专注于Agent的推理、工具使用和失败模式分析,不只看成功率,还分析Agent"为什么失败"。
在OpenClaw中,你可以用Agent自身来构建评测管线,实现"评测自动化"。下面是一个完整的Agent评测框架:
# openclaw-eval-pipeline/
# 用OpenClaw Agent自动评测其他Agent的执行质量
#
# 核心思路:定义评测任务 → Agent执行 → 自动评分 → 生成报告
# SOUL.md 中定义评测Agent角色
# ──────────────────────────────────────────────
# 我是一个评测Agent,职责:
# 1. 执行标准评测任务集
# 2. 记录每个任务的执行轨迹
# 3. 自动评分并生成对比报告
# 评测任务定义示例 (tasks.json)
# ──────────────────────────────────────────────
{
"eval_name": "agent_tool_use_v1",
"tasks": [
{
"id": "TU-001",
"category": "tool_calling",
"instruction": "搜索今天的AI新闻并总结前3条",
"success_criteria": [
"调用web_search或web_fetch工具",
"返回至少3条新闻摘要",
"每条摘要包含标题和关键信息"
],
"max_steps": 10,
"timeout_seconds": 60
},
{
"id": "TU-002",
"category": "tool_calling",
"instruction": "读取 /tmp/test.txt 文件,统计字数并写入 /tmp/wordcount.txt",
"success_criteria": [
"正确使用read工具读取文件",
"使用write工具写入结果",
"结果文件存在且包含数字"
]
}
]
}
# OpenClaw CLI 执行评测
# ──────────────────────────────────────────────
# 1. 创建评测session
openclaw session create --name "eval-agent-tool-use"
# 2. 逐任务执行并记录
openclaw session send --task "执行评测任务TU-001" --json
# 3. 自动评分(通过另一个Agent做Judge)
# 评测Agent读取执行日志,按success_criteria打分
# 评测报告模板
# ──────────────────────────────────────────────
# Eval Report: agent_tool_use_v1
# ┌──────────────────────────────────┐
# │ Task ID │ Status │ Score │ Time │
# ├──────────────────────────────────┤
# │ TU-001 │ PASS │ 3/3 │ 12s │
# │ TU-002 │ PASS │ 3/3 │ 5s │
# │ TU-003 │ FAIL │ 1/3 │ 30s │
# └──────────────────────────────────┘
# Overall: 67% (2/3 tasks passed)
# Avg Time: 15.7s per task
# Token Usage: ~15K tokens totalsessions_spawn创建隔离的评测子Agent,避免评测过程污染主Agent的状态。每个评测任务在独立session中执行,确保公平性。
不要上来就跑全套。先用小模型做初筛(便宜快速),通过后再用大模型做深度评测。
相同输入的评测结果应该被缓存。如果你改了模型的一个参数,只有受影响的部分需要重新评测。
1000个任务不需要全跑。统计学告诉你:随机采样100个,置信度就能达到95%。省90%的钱。
评测prompt通常是重复的,利用OpenClaw的prompt caching能力,评测成本可以降低50-70%。
# OpenClaw中的分层评测实现
# ──────────────────────────────────────────────
# 第1层:快速规则检查
def rule_check(agent_output, criteria):
"""用规则快速过滤明显失败的任务"""
if not agent_output:
return {"pass": False, "reason": "无输出"}
for keyword in criteria.get("must_contain", []):
if keyword not in agent_output:
return {"pass": False, "reason": f"缺少关键词: {keyword}"}
return {"pass": True, "reason": "规则检查通过,进入下一层"}
# 第2层:小模型评判(通过OpenClaw exec调用API)
# 在SOUL.md中定义Judge Agent角色,使用小模型
# 配置: model=gpt-4o-mini
# 评判标准通过prompt注入
# 第3层:大模型深度分析(仅对关键任务)
# 配置: model=claude-sonnet-4-20250514
# 生成详细的失败分析报告AI评测瓶颈是2026年行业面临的真实挑战。就像考试从笔试变成了实操考核——考题越来越难、考试越来越贵、批改越来越复杂。
但好消息是,OpenClaw本身就提供了构建自动化评测管线的能力。用Agent评测Agent,用评测驱动迭代——这大概是AI时代的"以毒攻毒"了。