OpenClaw本地LLM部署教程

导读：不想为API调用付费？想在内网环境使用AI Agent？OpenClaw完美支持本地大模型部署。本教程将手把手教你用Ollama、vLLM等工具部署本地LLM，并接入OpenClaw。

🎯 为什么用本地LLM？

零API费用 - 一次部署，无限调用
数据隐私 - 数据不出内网，满足合规要求
低延迟 - 本地推理，无需网络往返
离线可用 - 断网也能正常工作

🔧 方案一：Ollama（推荐）

1. 安装Ollama

# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh

# 验证安装
ollama --version

2. 下载模型

# 推荐模型（按显存需求排序）
ollama pull qwen2.5:7b        # 8GB显存
ollama pull llama3.1:8b        # 8GB显存
ollama pull qwen2.5:14b        # 16GB显存
ollama pull deepseek-coder:16b # 16GB显存（代码专精）
ollama pull qwen2.5:32b        # 32GB显存
ollama pull llama3.1:70b       # 48GB+显存

3. 启动Ollama服务

# 默认端口11434
ollama serve

# 自定义端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# 验证服务
curl http://localhost:11434/api/tags

4. 接入OpenClaw

# OpenClaw配置文件中添加Ollama provider
# ~/.openclaw/config.yaml

models:
  providers:
    ollama:
      type: openai-compatible
      baseUrl: http://localhost:11434/v1
      apiKey: "ollama"  # Ollama不需要真实key
      
  default_model: ollama/qwen2.5:14b
  
  # 可以为不同任务配置不同模型
  overrides:
    fast: ollama/qwen2.5:7b      # 快速任务用小模型
    smart: ollama/qwen2.5:32b    # 复杂任务用大模型
    code: ollama/deepseek-coder:16b  # 代码任务用代码模型

🔧 方案二：vLLM（高性能）

# 安装vLLM
pip install vllm

# 启动API服务（兼容OpenAI格式）
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2  # 多GPU并行

# OpenClaw配置
models:
  providers:
    vllm:
      type: openai-compatible
      baseUrl: http://localhost:8000/v1
      apiKey: "not-needed"

🔧 方案三：LM Studio（桌面端）

# 1. 下载LM Studio: https://lmstudio.ai
# 2. 在GUI中下载模型
# 3. 启动本地服务器（默认端口1234）
# 4. OpenClaw配置

models:
  providers:
    lmstudio:
      type: openai-compatible
      baseUrl: http://localhost:1234/v1
      apiKey: "lm-studio"

📊 模型选择指南

显存	推荐模型	适用场景	速度
8GB	Qwen2.5-7B / Llama3.1-8B	日常对话、简单任务	~30 tok/s
16GB	Qwen2.5-14B / DeepSeek-16B	代码生成、复杂推理	~20 tok/s
24GB	Qwen2.5-32B / Llama3.1-32B	专业分析、长文写作	~12 tok/s
48GB+	Llama3.1-70B / Qwen2.5-72B	最高质量输出	~6 tok/s

        💡 量化建议：使用GGUF量化模型可以大幅降低显存需求。例如Q4_K_M量化的14B模型只需约10GB显存。
      

⚡ 性能优化

1. Ollama环境变量

# GPU层数控制
OLLAMA_NUM_GPU_LAYERS=99  # 全部放GPU

# 并发请求
OLLAMA_NUM_PARALLEL=4     # 同时处理4个请求

# 上下文长度
OLLAMA_CONTEXT_LENGTH=8192  # 8K上下文

# 模型缓存
OLLAMA_KEEP_ALIVE=5m  # 模型在内存中保持5分钟

2. 混合部署策略

# OpenClaw支持多provider混合使用
# 简单任务用本地模型，复杂任务用云端API

models:
  routing:
    - pattern: "日常对话、简单问答"
      model: ollama/qwen2.5:7b      # 本地小模型
    - pattern: "代码生成、技术分析"
      model: ollama/deepseek-coder:16b  # 本地代码模型
    - pattern: "复杂推理、长文写作"
      model: anthropic/claude-sonnet-4  # 云端大模型

⚠️ 注意事项：

本地模型的工具调用（function calling）能力可能弱于云端模型
复杂Agent任务建议使用14B以上模型
确保GPU驱动和CUDA版本兼容

🔗 相关资源

🐳 Docker部署 🔍 向量数据库 💰 成本优化 🛠️ Skills开发 🔄 工作流编排 🐝 多Agent协作

🖥️ OpenClaw 本地LLM部署教程

🎯 为什么用本地LLM？

🔧 方案一：Ollama（推荐）

1. 安装Ollama

2. 下载模型

3. 启动Ollama服务

4. 接入OpenClaw

🔧 方案二：vLLM（高性能）

🔧 方案三：LM Studio（桌面端）

📊 模型选择指南

⚡ 性能优化

1. Ollama环境变量

2. 混合部署策略

🔗 相关资源

📚 推荐阅读

推荐阅读

OpenClaw API成本追踪与分析 - Token预算管理 | 妙趣AI

OpenClaw成本优化实战指南 - Token节省/模型路由/本地模型混合 | 妙趣AI

OpenClaw 提示词工程最佳实践 - 让AI Agent更聪明 | 妙趣AI

OpenClaw + GPT 5.5 集成教程：下一代Agent模型配置指南 | 妙趣AI

OpenClaw 安全最佳实践完全指南 | 妙趣AI

LLM Token Optimization - OpenClaw Token优化完全指南 | 妙趣AI

📚 推荐阅读

🔗 相关推荐阅读