Agent Context Caching 是什么？

上下文缓存 —— 让 AI Agent 记住"昨天说过的话"，不用每次都从头解释

📖 定义

Agent Context Caching（上下文缓存）是一种优化 AI Agent 性能的技术，通过将频繁使用的上下文信息（如系统提示、工具定义、历史对话等）缓存起来，避免每次请求都重复传输相同内容，从而减少 Token 消耗、降低延迟、提升响应速度。

你可以把它想象成：你和朋友聊天时，不用每次都自我介绍——"我叫张三，我喜欢编程，上次我们聊到了..."。缓存就是帮 AI Agent 记住这些"背景信息"的机制。

🎯 为什么需要上下文缓存？

在没有缓存的情况下，每次发送请求给 LLM 时，都需要传输完整的上下文：

系统提示（System Prompt）：通常 500-2000 tokens
工具定义（Tool Definitions）：每个工具约 100-500 tokens
历史对话：可能积累到数千 tokens
用户消息：实际的新内容可能只有 50-200 tokens

这意味着，80% 以上的 Token 传输是重复的！上下文缓存就是为了解决这个效率问题。

⚡ 核心原理

1. 缓存键（Cache Key）生成

系统会根据上下文内容生成唯一的缓存键。常用策略包括：

// 基于内容哈希的缓存键
function generateCacheKey(systemPrompt, tools, history) {
    const content = JSON.stringify({ systemPrompt, tools, history });
    return crypto.createHash('sha256').update(content).digest('hex');
}

// 前缀匹配缓存（Anthropic 风格）
const cacheKey = `cache_${systemPrompt.substring(0, 100)}`;

2. 缓存层级

层级	缓存内容	命中率	节省比例
L1 - 系统提示缓存	System Prompt + 工具定义	~95%	40-60%
L2 - 历史上下文缓存	之前的对话轮次	~70%	20-40%
L3 - 工具结果缓存	工具调用的返回值	~50%	10-30%

3. 缓存失效策略

TTL（Time-To-Live）：设置缓存过期时间，如 5 分钟
LRU（Least Recently Used）：淘汰最近最少使用的缓存
内容变更检测：当上下文内容变化时自动失效
手动失效：开发者主动清除特定缓存

🔧 OpenClaw 实战应用

💡 OpenClaw 中的上下文缓存

OpenClaw 内置了智能上下文缓存机制，自动优化 Agent 的 Token 使用效率。

配置示例

// openclaw.config.ts - 启用上下文缓存
{
  "agent": {
    "contextCache": {
      "enabled": true,
      "maxSize": "10MB",
      "ttl": "5m",
      "strategy": "lru",
      "prefixMatching": true
    }
  }
}

实际效果

指标	无缓存	有缓存	提升
平均 Token 消耗	3,200 tokens	1,100 tokens	↓ 65%
首次响应时间	2.8s	1.2s	↓ 57%
API 成本	$0.032/次	$0.011/次	↓ 65%

在 Skills 中使用

// SKILL.md 中声明缓存策略
---
name: my-skill
cache:
  system_prompt: true    # 缓存系统提示
  tool_defs: true        # 缓存工具定义
  history: true          # 缓存历史对话
  ttl: "10m"             # 缓存有效期
---

// 实际调用时，OpenClaw 自动处理缓存命中/失效

💡 最佳实践：将不常变化的内容（系统提示、工具定义）放在上下文开头，这样可以最大化前缀匹配的缓存命中率。Anthropic 的 Prompt Caching 就是基于这个原理。

📊 缓存策略对比

策略	适用场景	优点	缺点
全量缓存	短对话、单轮任务	简单高效	内存占用大
前缀缓存	长对话、系统提示固定	命中率高	需要内容前缀稳定
分块缓存	超长上下文	灵活	实现复杂
语义缓存	相似查询	智能匹配	计算开销大

⚠️ 注意事项

⚠️ 常见陷阱：

缓存一致性：确保缓存内容与实际请求一致，避免"脏读"
敏感数据：不要缓存包含用户敏感信息的上下文
缓存雪崩：大量缓存同时失效可能导致性能骤降
内存管理：设置合理的缓存大小上限

🔗 相关概念

Token 优化 LLM 缓存上下文窗口 Prompt Caching 性能优化

最后更新：2026-06-25 | 作者：妙趣AI

有问题？联系我们

Agent Context Caching 是什么？

📖 定义

🎯 为什么需要上下文缓存？

⚡ 核心原理

1. 缓存键（Cache Key）生成

2. 缓存层级

3. 缓存失效策略

🔧 OpenClaw 实战应用

💡 OpenClaw 中的上下文缓存

配置示例

实际效果

在 Skills 中使用

📊 缓存策略对比

⚠️ 注意事项

🔗 相关概念

📚 推荐阅读