📊 LLM Observability:给AI装上黑匣子

发布时间:2026-06-09 | 分类:AI运维 | 难度:⭐⭐⭐⭐
"凌晨2点47分,用户投诉说Agent回答质量下降了。但没有Observability系统,你根本不知道是哪个环节出了问题。是Prompt太长?是模型幻觉?还是工具调用失败?LLM Observability就是那个帮你破案的侦探。"

📖 一句话定义

LLM Observability(大语言模型可观测性)是一套监控、追踪和调试AI系统的工程实践,涵盖日志追踪(Tracing)、指标监控(Metrics)和质量评估(Evaluation)三大支柱,让你能"看到"AI的每一步推理过程。

🏗️ 三大支柱

🔍 Tracing

追踪每一次请求的完整链路

输入 → Prompt → 模型推理 → 工具调用 → 输出

📈 Metrics

监控关键性能指标

延迟、吞吐、错误率、Token用量

✅ Evaluation

评估输出质量

准确性、相关性、幻觉率、用户满意度

🔧 OpenClaw实战:配置Observability

1. 启用追踪

# openclaw.config.yaml
observability:
  tracing:
    enabled: true
    provider: opentelemetry
    endpoint: "http://localhost:4318"
    sample_rate: 1.0  # 100%采样,生产环境可调低
    
  metrics:
    enabled: true
    provider: prometheus
    port: 9090
    
  evaluation:
    enabled: true
    auto_eval: true  # 自动评估每次输出
    metrics:
      - hallucination_score
      - relevance_score
      - latency_p99

2. 自定义追踪

// 在Agent代码中添加自定义追踪
const { trace } = require('@opentelemetry/api');

async function processUserQuery(query) {
    const tracer = trace.getTracer('miaoquai-agent');
    
    return tracer.startActiveSpan('processQuery', async (span) => {
        span.setAttribute('user.query', query);
        
        // 追踪Prompt构建
        const prompt = await tracer.startActiveSpan('buildPrompt', async (promptSpan) => {
            const p = buildPrompt(query);
            promptSpan.setAttribute('prompt.tokens', countTokens(p));
            return p;
        });
        
        // 追踪模型调用
        const response = await tracer.startActiveSpan('llm.call', async (llmSpan) => {
            const r = await callLLM(prompt);
            llmSpan.setAttribute('model', 'gpt-4o');
            llmSpan.setAttribute('tokens.used', r.usage.total_tokens);
            return r;
        });
        
        span.end();
        return response;
    });
}
💡 妙趣提示:生产环境建议采样率设为10-20%,只在调试时开100%。否则追踪数据本身就会成为性能瓶颈。

⚠️ 注意事项

⚠️ 踩坑提醒:
1. 追踪数据可能包含敏感信息,注意脱敏
2. 高频调用时追踪会增加5-10%延迟
3. 评估指标需要持续校准,避免"指标漂移"

🔗 相关术语

Agent Observability Agent Telemetry Agent Debugging AI Evals