📊 LLM Observability：给AI装上黑匣子

发布时间：2026-06-09 | 分类：AI运维 | 难度：⭐⭐⭐⭐

"凌晨2点47分，用户投诉说Agent回答质量下降了。但没有Observability系统，你根本不知道是哪个环节出了问题。是Prompt太长？是模型幻觉？还是工具调用失败？LLM Observability就是那个帮你破案的侦探。"

📖 一句话定义

LLM Observability（大语言模型可观测性）是一套监控、追踪和调试AI系统的工程实践，涵盖日志追踪（Tracing）、指标监控（Metrics）和质量评估（Evaluation）三大支柱，让你能"看到"AI的每一步推理过程。

🏗️ 三大支柱

🔍 Tracing

追踪每一次请求的完整链路

输入 → Prompt → 模型推理 → 工具调用 → 输出

📈 Metrics

监控关键性能指标

延迟、吞吐、错误率、Token用量

✅ Evaluation

评估输出质量

准确性、相关性、幻觉率、用户满意度

🔧 OpenClaw实战：配置Observability

1. 启用追踪

# openclaw.config.yaml
observability:
  tracing:
    enabled: true
    provider: opentelemetry
    endpoint: "http://localhost:4318"
    sample_rate: 1.0  # 100%采样，生产环境可调低
    
  metrics:
    enabled: true
    provider: prometheus
    port: 9090
    
  evaluation:
    enabled: true
    auto_eval: true  # 自动评估每次输出
    metrics:
      - hallucination_score
      - relevance_score
      - latency_p99

2. 自定义追踪

// 在Agent代码中添加自定义追踪
const { trace } = require('@opentelemetry/api');

async function processUserQuery(query) {
    const tracer = trace.getTracer('miaoquai-agent');
    
    return tracer.startActiveSpan('processQuery', async (span) => {
        span.setAttribute('user.query', query);
        
        // 追踪Prompt构建
        const prompt = await tracer.startActiveSpan('buildPrompt', async (promptSpan) => {
            const p = buildPrompt(query);
            promptSpan.setAttribute('prompt.tokens', countTokens(p));
            return p;
        });
        
        // 追踪模型调用
        const response = await tracer.startActiveSpan('llm.call', async (llmSpan) => {
            const r = await callLLM(prompt);
            llmSpan.setAttribute('model', 'gpt-4o');
            llmSpan.setAttribute('tokens.used', r.usage.total_tokens);
            return r;
        });
        
        span.end();
        return response;
    });
}