🖥️ OpenClaw 本地LLM部署教程

Ollama · vLLM · LM Studio · 零API费用

导读:不想为API调用付费?想在内网环境使用AI Agent?OpenClaw完美支持本地大模型部署。本教程将手把手教你用Ollama、vLLM等工具部署本地LLM,并接入OpenClaw。

🎯 为什么用本地LLM?

🔧 方案一:Ollama(推荐)

1. 安装Ollama

# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh

# 验证安装
ollama --version

2. 下载模型

# 推荐模型(按显存需求排序)
ollama pull qwen2.5:7b        # 8GB显存
ollama pull llama3.1:8b        # 8GB显存
ollama pull qwen2.5:14b        # 16GB显存
ollama pull deepseek-coder:16b # 16GB显存(代码专精)
ollama pull qwen2.5:32b        # 32GB显存
ollama pull llama3.1:70b       # 48GB+显存

3. 启动Ollama服务

# 默认端口11434
ollama serve

# 自定义端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# 验证服务
curl http://localhost:11434/api/tags

4. 接入OpenClaw

# OpenClaw配置文件中添加Ollama provider
# ~/.openclaw/config.yaml

models:
  providers:
    ollama:
      type: openai-compatible
      baseUrl: http://localhost:11434/v1
      apiKey: "ollama"  # Ollama不需要真实key
      
  default_model: ollama/qwen2.5:14b
  
  # 可以为不同任务配置不同模型
  overrides:
    fast: ollama/qwen2.5:7b      # 快速任务用小模型
    smart: ollama/qwen2.5:32b    # 复杂任务用大模型
    code: ollama/deepseek-coder:16b  # 代码任务用代码模型

🔧 方案二:vLLM(高性能)

# 安装vLLM
pip install vllm

# 启动API服务(兼容OpenAI格式)
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2  # 多GPU并行

# OpenClaw配置
models:
  providers:
    vllm:
      type: openai-compatible
      baseUrl: http://localhost:8000/v1
      apiKey: "not-needed"

🔧 方案三:LM Studio(桌面端)

# 1. 下载LM Studio: https://lmstudio.ai
# 2. 在GUI中下载模型
# 3. 启动本地服务器(默认端口1234)
# 4. OpenClaw配置

models:
  providers:
    lmstudio:
      type: openai-compatible
      baseUrl: http://localhost:1234/v1
      apiKey: "lm-studio"

📊 模型选择指南

显存推荐模型适用场景速度
8GBQwen2.5-7B / Llama3.1-8B日常对话、简单任务~30 tok/s
16GBQwen2.5-14B / DeepSeek-16B代码生成、复杂推理~20 tok/s
24GBQwen2.5-32B / Llama3.1-32B专业分析、长文写作~12 tok/s
48GB+Llama3.1-70B / Qwen2.5-72B最高质量输出~6 tok/s
💡 量化建议:使用GGUF量化模型可以大幅降低显存需求。例如Q4_K_M量化的14B模型只需约10GB显存。

⚡ 性能优化

1. Ollama环境变量

# GPU层数控制
OLLAMA_NUM_GPU_LAYERS=99  # 全部放GPU

# 并发请求
OLLAMA_NUM_PARALLEL=4     # 同时处理4个请求

# 上下文长度
OLLAMA_CONTEXT_LENGTH=8192  # 8K上下文

# 模型缓存
OLLAMA_KEEP_ALIVE=5m  # 模型在内存中保持5分钟

2. 混合部署策略

# OpenClaw支持多provider混合使用
# 简单任务用本地模型,复杂任务用云端API

models:
  routing:
    - pattern: "日常对话、简单问答"
      model: ollama/qwen2.5:7b      # 本地小模型
    - pattern: "代码生成、技术分析"
      model: ollama/deepseek-coder:16b  # 本地代码模型
    - pattern: "复杂推理、长文写作"
      model: anthropic/claude-sonnet-4  # 云端大模型
⚠️ 注意事项:
  • 本地模型的工具调用(function calling)能力可能弱于云端模型
  • 复杂Agent任务建议使用14B以上模型
  • 确保GPU驱动和CUDA版本兼容

🔗 相关资源