"世界上有一种指标叫做自动化率,它告诉你Agent完成了95%的任务——却没有告诉你,那5%没完成的,才是最关键的。
就像虾,剥壳容易,去虾线才是功夫。"
📊 为什么传统"自动化率"是骗人的?
传统自动化率 = 成功执行的任务数 / 总任务数 × 100%
这个公式有个致命的缺陷——它只问"做没做",不问"做对了没"。
| 指标 | 自动化率 | 含虾率 🦐 |
|---|---|---|
| 关注点 | 任务是否执行 | 结果是否正确 |
| 评分逻辑 | 二值(完成/未完成) | 多维(正确性+完整性+合规性) |
| 欺骗性 | 高(完成≠正确) | 低(每一项都没法糊弄) |
| 适用场景 | 简单确定性任务 | 复杂AI Agent工作流 |
🧮 含虾率计算公式
Shrimp Rate = Correct ✓ / Total Tasks × 100%
其中 Correct ✓ 定义为:
- 输出正确 — 返回的内容符合预期格式和语义
- 路径正确 — Agent的执行路径没有偏离目标
- 无副作用 — 没有产生意外的不良影响(如删除数据、错误调用API)
- 合规性 — 遵守了安全规则和权限约束
⚡ 示例:一个真实的对比
场景:Agent需要生成5条SEO优化的产品描述
自动化率:100% ✅(Agent确实写了5条)
含虾率:60% ❌(只有3条真正符合SEO规范,2条关键词密度过高被搜索引擎判定为作弊)
结论:自动化率100%是假象,含虾率60%才反映真实能力
自动化率:100% ✅(Agent确实写了5条)
含虾率:60% ❌(只有3条真正符合SEO规范,2条关键词密度过高被搜索引擎判定为作弊)
结论:自动化率100%是假象,含虾率60%才反映真实能力
🚀 在OpenClaw中测量含虾率
# openclaw-skill-quality-analyzer 中的含虾率计算
# 使用 OpenClaw Skill 对 Agent 输出进行含虾率评估
sessions_spawn \
task="评估以下 Agent 输出的含虾率(Shrimp Rate):
任务描述:生成5条SEO产品描述
Agent输出:[已经生成的5条描述]
评估维度:
1. 输出正确性(0-40分)
2. 执行路径正确性(0-30分)
3. 副作用检查(0-15分)
4. 合规性检查(0-15分)
请计算每条描述的含虾率,并给出最终综合评分。" \
runtime="subagent" \
mode="run"
🛠️ Eco-Tracker 中的含虾率监控
OpenClaw Eco-Tracker 工具内置了含虾率监控模块:
# 从 GitHub 安装 eco-tracker
git clone https://github.com/jingchang0623-crypto/openclaw-eco-tracker.git
cd openclaw-eco-tracker
# 运行含虾率分析
python3 tracker.py --mode shrimp-rate \
--agent-log /var/log/agent/ \
--output /reports/shrimp-report.html
# 查看报告
open reports/shrimp-report.html
💡 妙趣建议:将含虾率与自动化率同时展示。如果两指标差距超过20%,说明Agent虽然跑得欢,但质量堪忧——是时候优化了。
📈 含虾率应用场景
| 场景 | 传统指标 | 含虾率指标 | 提升方法 |
|---|---|---|---|
| SEO内容生成 | 生成了N篇文章 | 符合SEO规范的文章占比 | 优化prompt+人工抽样验证 |
| 数据分析Agent | 执行了N个查询 | 结果正确的查询占比 | 增加验证步骤+交叉校验 |
| 代码生成Agent | 生成N行代码 | 通过测试的代码占比 | 自动化测试+代码审查 |
| 客户服务Agent | 回复了N个用户 | 解决问题且用户满意的回复占比 | 情感分析+人工抽查 |
🔧 提升含虾率的策略
⚠️ 常见误区:别试图一次性把所有任务都做到完美!优先提升"价值最高"任务的含虾率。
- Prompt优化 — 明确输出格式和质量标准
- 验证Agent — 增加第二个Agent专门验证输出质量
- 渐进式交付 — 先输出草稿,验证通过再正式提交
- 反馈闭环 — 每次评估结果反馈到prompt中持续改进
- 门槛控制 — 含虾率低于阈值自动触发重试或告警
🦐 附:含虾率 vs 3 AM Rule
含虾率衡量的是Agent的质量,而3 AM Rule衡量的是Agent的韧性——两者结合,才是真正的生产就绪标准。