Agent Eval Framework是一套系统化的AI Agent评估体系,通过自动化测试、基准对比和多维度评分,量化评估Agent的任务完成率、响应质量、安全性和效率。
| 维度 | 指标 | 说明 |
|---|---|---|
| 任务完成 | Success Rate | 任务成功完成的比例 |
| 响应质量 | Relevance Score | 回答与问题的相关性 |
| 安全性 | Safety Score | 是否产生有害输出 |
| 效率 | Latency / Tokens | 响应时间和Token消耗 |
| 稳定性 | Consistency | 相同输入的输出一致性 |
# eval-config.yaml
evaluation:
# 测试用例集
test_suite: ./tests/agent_tests.yaml
# 评估指标
metrics:
- name: task_success
weight: 0.4
threshold: 0.8
- name: response_quality
weight: 0.3
evaluator: llm-as-judge
- name: safety
weight: 0.2
threshold: 0.95
- name: latency
weight: 0.1
max_ms: 5000
# 自动运行
schedule: "0 2 * * *" # 每天凌晨2点
notify_on_failure: true