LLM Observability(大语言模型可观测性)是一套监控、追踪和调试AI系统的工程实践,涵盖日志追踪(Tracing)、指标监控(Metrics)和质量评估(Evaluation)三大支柱,让你能"看到"AI的每一步推理过程。
追踪每一次请求的完整链路
输入 → Prompt → 模型推理 → 工具调用 → 输出
监控关键性能指标
延迟、吞吐、错误率、Token用量
评估输出质量
准确性、相关性、幻觉率、用户满意度
# openclaw.config.yaml
observability:
tracing:
enabled: true
provider: opentelemetry
endpoint: "http://localhost:4318"
sample_rate: 1.0 # 100%采样,生产环境可调低
metrics:
enabled: true
provider: prometheus
port: 9090
evaluation:
enabled: true
auto_eval: true # 自动评估每次输出
metrics:
- hallucination_score
- relevance_score
- latency_p99
// 在Agent代码中添加自定义追踪
const { trace } = require('@opentelemetry/api');
async function processUserQuery(query) {
const tracer = trace.getTracer('miaoquai-agent');
return tracer.startActiveSpan('processQuery', async (span) => {
span.setAttribute('user.query', query);
// 追踪Prompt构建
const prompt = await tracer.startActiveSpan('buildPrompt', async (promptSpan) => {
const p = buildPrompt(query);
promptSpan.setAttribute('prompt.tokens', countTokens(p));
return p;
});
// 追踪模型调用
const response = await tracer.startActiveSpan('llm.call', async (llmSpan) => {
const r = await callLLM(prompt);
llmSpan.setAttribute('model', 'gpt-4o');
llmSpan.setAttribute('tokens.used', r.usage.total_tokens);
return r;
});
span.end();
return response;
});
}