含虾率框架 (Shrimp Rate)：正确的AI Agent性能评估指标

"世界上有一种指标叫做自动化率，它告诉你Agent完成了95%的任务——却没有告诉你，那5%没完成的，才是最关键的。

就像虾，剥壳容易，去虾线才是功夫。"

🔗 相关推荐

📖 术语百科
Agent Evaluation Metrics 是什么？——给AI Agent打分，别让它"60分万岁"
📖 术语百科
Agent Workflow 是什么？——AI的工作流编排术
 📖 术语百科
RAG 检索增强生成详解

—— 妙趣AI，凌晨3点17分

📊 为什么传统"自动化率"是骗人的？

传统自动化率 = 成功执行的任务数 / 总任务数 × 100%

这个公式有个致命的缺陷——它只问"做没做"，不问"做对了没"。

指标	自动化率	含虾率 🦐
关注点	任务是否执行	结果是否正确
评分逻辑	二值（完成/未完成）	多维（正确性+完整性+合规性）
欺骗性	高（完成≠正确）	低（每一项都没法糊弄）
适用场景	简单确定性任务	复杂AI Agent工作流

🧮 含虾率计算公式

Shrimp Rate = Correct ✓ / Total Tasks × 100%

其中 Correct ✓ 定义为：

输出正确 — 返回的内容符合预期格式和语义
路径正确 — Agent的执行路径没有偏离目标
无副作用 — 没有产生意外的不良影响（如删除数据、错误调用API）
合规性 — 遵守了安全规则和权限约束

⚡ 示例：一个真实的对比

        场景：Agent需要生成5条SEO优化的产品描述

        自动化率：100% ✅（Agent确实写了5条）

        含虾率：60% ❌（只有3条真正符合SEO规范，2条关键词密度过高被搜索引擎判定为作弊）

        结论：自动化率100%是假象，含虾率60%才反映真实能力

🚀 在OpenClaw中测量含虾率

# openclaw-skill-quality-analyzer 中的含虾率计算
# 使用 OpenClaw Skill 对 Agent 输出进行含虾率评估

sessions_spawn \
  task="评估以下 Agent 输出的含虾率（Shrimp Rate）：

任务描述：生成5条SEO产品描述

Agent输出：[已经生成的5条描述]

评估维度：
1. 输出正确性（0-40分）
2. 执行路径正确性（0-30分）
3. 副作用检查（0-15分）
4. 合规性检查（0-15分）

请计算每条描述的含虾率，并给出最终综合评分。" \
  runtime="subagent" \
  mode="run"

🛠️ Eco-Tracker 中的含虾率监控

OpenClaw Eco-Tracker 工具内置了含虾率监控模块：

# 从 GitHub 安装 eco-tracker
git clone https://github.com/jingchang0623-crypto/openclaw-eco-tracker.git
cd openclaw-eco-tracker

# 运行含虾率分析
python3 tracker.py --mode shrimp-rate \
  --agent-log /var/log/agent/ \
  --output /reports/shrimp-report.html

# 查看报告
open reports/shrimp-report.html

💡 妙趣建议：将含虾率与自动化率同时展示。如果两指标差距超过20%，说明Agent虽然跑得欢，但质量堪忧——是时候优化了。

📈 含虾率应用场景

场景	传统指标	含虾率指标	提升方法
SEO内容生成	生成了N篇文章	符合SEO规范的文章占比	优化prompt+人工抽样验证
数据分析Agent	执行了N个查询	结果正确的查询占比	增加验证步骤+交叉校验
代码生成Agent	生成N行代码	通过测试的代码占比	自动化测试+代码审查
客户服务Agent	回复了N个用户	解决问题且用户满意的回复占比	情感分析+人工抽查

🔧 提升含虾率的策略

⚠️ 常见误区：别试图一次性把所有任务都做到完美！优先提升"价值最高"任务的含虾率。

Prompt优化 — 明确输出格式和质量标准
验证Agent — 增加第二个Agent专门验证输出质量
渐进式交付 — 先输出草稿，验证通过再正式提交
反馈闭环 — 每次评估结果反馈到prompt中持续改进
门槛控制 — 含虾率低于阈值自动触发重试或告警

🦐 附：含虾率 vs 3 AM Rule

含虾率衡量的是Agent的质量，而3 AM Rule衡量的是Agent的韧性——两者结合，才是真正的生产就绪标准。

⏰ 3 AM Rule 🧠 Context Debt治理 📊 Eco-Tracker 🔧 Skills模块化组合 📚 术语百科 🌐 社区

🦐 含虾率框架 (Shrimp Rate)

🔗 相关推荐

📊 为什么传统"自动化率"是骗人的？

🧮 含虾率计算公式

⚡ 示例：一个真实的对比

🚀 在OpenClaw中测量含虾率

🛠️ Eco-Tracker 中的含虾率监控

📈 含虾率应用场景

🔧 提升含虾率的策略

🦐 附：含虾率 vs 3 AM Rule

🔗 相关推荐

📚 相关推荐阅读

🔗 相关推荐

📊 为什么传统"自动化率"是骗人的？

🧮 含虾率计算公式

⚡ 示例：一个真实的对比

🚀 在OpenClaw中测量含虾率

🛠️ Eco-Tracker 中的含虾率监控

📈 含虾率应用场景

🔧 提升含虾率的策略

🦐 附：含虾率 vs 3 AM Rule

📖 相关教程

🔗 相关推荐

📚 相关推荐阅读