🔄 LLM Fallback(模型降级策略)
主力模型挂了?别慌,备胎已经准备好了
📖 定义
"API限流了?模型过载了?网络断了?没关系,Agent不会因此停下来——它会优雅地切换到备用模型,继续工作。"
LLM Fallback(模型降级策略)是AI Agent在主模型不可用时(如API限流、服务宕机、超时等),自动切换到备用模型的容错机制。它确保Agent服务的高可用性,同时通过多模型路由优化成本和性能。
🎮 周星驰式比喻:LLM Fallback就像你点外卖——主餐厅(GPT-4o)爆单了,系统自动帮你切换到隔壁餐厅(Claude)。虽然菜品可能略有不同,但至少你不会饿肚子。而且OpenClaw还会记录这次切换,下次主餐厅恢复了,它又会自动切回去。
⚙️ Fallback 流程
GPT-4o
主模型
→
主模型
Claude 4
备用1
→
备用1
Gemini 2
备用2
→
备用2
本地模型
最终保障
最终保障
OpenClaw Fallback 配置
# OpenClaw 模型降级配置
model:
primary: "gpt-4o"
fallbacks:
- "claude-sonnet-4-20250514"
- "gemini-2.5-pro"
- "local:llama-3.3-70b"
fallback_triggers:
- "rate_limit" # API限流
- "timeout" # 请求超时
- "server_error" # 服务端错误
- "insufficient_quota" # 配额不足
retry_policy:
max_retries: 2
backoff: "exponential"
initial_delay: 1000 # ms
智能路由策略
# 基于任务类型的智能路由
routing:
strategies:
coding:
model: "claude-sonnet-4"
fallback: "gpt-4o"
creative_writing:
model: "gpt-4o"
fallback: "claude-sonnet-4"
data_analysis:
model: "gemini-2.5-pro"
fallback: "gpt-4o"
simple_tasks:
model: "gpt-4o-mini"
fallback: "claude-haiku-3.5"
📊 成本优化
💰 按需选型
简单任务用便宜模型,复杂任务用高端模型
📊 成本监控
实时追踪每个模型的token消耗和成本
⚡ 延迟优化
选择响应最快的可用模型
🎯 质量保证
Fallback时优先选择质量相近的模型