💾 Prompt Caching 2026:让AI不再重复劳动

发布时间:2026-06-09 | 分类:性能优化 | 难度:⭐⭐⭐
"每次调用AI都要重新计算那10000字的系统提示?这就像每次出门都要重新造轮子。Prompt Caching就是把轮子存起来,下次直接用。"

📖 一句话定义

Prompt Caching是将重复使用的Prompt前缀部分的KV Cache缓存起来,后续请求直接复用的技术,能降低50-90%的首Token延迟减少Token费用

📊 效果对比

指标 无缓存 有缓存
首Token延迟 2.5s 0.3s
Token费用 $0.03/次 $0.003/次
缓存命中率 - 85-95%

🔧 OpenClaw实战:配置Prompt Caching

# openclaw.config.yaml
prompt_caching:
  enabled: true
  
  # 缓存策略
  strategy: prefix  # prefix | semantic
  
  # 缓存TTL
  ttl_seconds: 3600  # 1小时
  
  # 最小缓存长度
  min_tokens: 1024  # 至少1024 token才缓存
  
  # 缓存存储
  store: memory  # memory | redis

在Prompt中标记缓存边界

// Anthropic风格的缓存标记
const messages = [
    {
        role: "system",
        content: [
            {
                type: "text",
                text: "你是一个专业的AI助手...", // 很长的系统提示
                cache_control: { type: "ephemeral" }  // 标记缓存点
            }
        ]
    },
    {
        role: "user",
        content: "用户的具体问题"
    }
];
💡 妙趣提示:把最稳定的内容(如系统提示、工具定义)放在Prompt前面,把变化的内容(如用户输入)放在后面,这样缓存命中率最高。

⚠️ 注意事项

⚠️ 踩坑提醒:
1. 缓存的内容必须完全一致,差一个字都不行
2. 缓存有过期时间,注意监控命中率
3. 不是所有模型都支持Prompt Caching,注意兼容性

🔗 相关术语

Context Caching KV Cache Token Efficiency Cost-Aware Routing