🔄 LLM Fallback(模型降级策略)

主力模型挂了?别慌,备胎已经准备好了

📖 定义

"API限流了?模型过载了?网络断了?没关系,Agent不会因此停下来——它会优雅地切换到备用模型,继续工作。"

LLM Fallback(模型降级策略)是AI Agent在主模型不可用时(如API限流、服务宕机、超时等),自动切换到备用模型的容错机制。它确保Agent服务的高可用性,同时通过多模型路由优化成本和性能。

🎮 周星驰式比喻:LLM Fallback就像你点外卖——主餐厅(GPT-4o)爆单了,系统自动帮你切换到隔壁餐厅(Claude)。虽然菜品可能略有不同,但至少你不会饿肚子。而且OpenClaw还会记录这次切换,下次主餐厅恢复了,它又会自动切回去。

⚙️ Fallback 流程

GPT-4o
主模型
Claude 4
备用1
Gemini 2
备用2
本地模型
最终保障

OpenClaw Fallback 配置

# OpenClaw 模型降级配置
model:
  primary: "gpt-4o"
  fallbacks:
    - "claude-sonnet-4-20250514"
    - "gemini-2.5-pro"
    - "local:llama-3.3-70b"

  fallback_triggers:
    - "rate_limit"       # API限流
    - "timeout"          # 请求超时
    - "server_error"     # 服务端错误
    - "insufficient_quota" # 配额不足

  retry_policy:
    max_retries: 2
    backoff: "exponential"
    initial_delay: 1000  # ms

智能路由策略

# 基于任务类型的智能路由
routing:
  strategies:
    coding:
      model: "claude-sonnet-4"
      fallback: "gpt-4o"
    creative_writing:
      model: "gpt-4o"
      fallback: "claude-sonnet-4"
    data_analysis:
      model: "gemini-2.5-pro"
      fallback: "gpt-4o"
    simple_tasks:
      model: "gpt-4o-mini"
      fallback: "claude-haiku-3.5"

📊 成本优化

💰 按需选型

简单任务用便宜模型,复杂任务用高端模型

📊 成本监控

实时追踪每个模型的token消耗和成本

⚡ 延迟优化

选择响应最快的可用模型

🎯 质量保证

Fallback时优先选择质量相近的模型

🔗 相关术语

🔀 LLM Routing 💰 Cost Optimization 🛡️ Agent Fault Tolerance 🎯 Token Optimization

🛠️ 相关工具

🤝 Sub-Agent配置⏰ Cron定时任务📦 ClawHub Skills

📚 相关踩坑实录

😅 AI Agent踩坑大全🧠 记忆危机故事📖 更多踩坑实录