导读:不想为API调用付费?想在内网环境使用AI Agent?OpenClaw完美支持本地大模型部署。本教程将手把手教你用Ollama、vLLM等工具部署本地LLM,并接入OpenClaw。
🎯 为什么用本地LLM?
- 零API费用 - 一次部署,无限调用
- 数据隐私 - 数据不出内网,满足合规要求
- 低延迟 - 本地推理,无需网络往返
- 离线可用 - 断网也能正常工作
🔧 方案一:Ollama(推荐)
1. 安装Ollama
# Linux/macOS
curl -fsSL https://ollama.ai/install.sh | sh
# 验证安装
ollama --version
2. 下载模型
# 推荐模型(按显存需求排序)
ollama pull qwen2.5:7b # 8GB显存
ollama pull llama3.1:8b # 8GB显存
ollama pull qwen2.5:14b # 16GB显存
ollama pull deepseek-coder:16b # 16GB显存(代码专精)
ollama pull qwen2.5:32b # 32GB显存
ollama pull llama3.1:70b # 48GB+显存
3. 启动Ollama服务
# 默认端口11434
ollama serve
# 自定义端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve
# 验证服务
curl http://localhost:11434/api/tags
4. 接入OpenClaw
# OpenClaw配置文件中添加Ollama provider
# ~/.openclaw/config.yaml
models:
providers:
ollama:
type: openai-compatible
baseUrl: http://localhost:11434/v1
apiKey: "ollama" # Ollama不需要真实key
default_model: ollama/qwen2.5:14b
# 可以为不同任务配置不同模型
overrides:
fast: ollama/qwen2.5:7b # 快速任务用小模型
smart: ollama/qwen2.5:32b # 复杂任务用大模型
code: ollama/deepseek-coder:16b # 代码任务用代码模型
🔧 方案二:vLLM(高性能)
# 安装vLLM
pip install vllm
# 启动API服务(兼容OpenAI格式)
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 2 # 多GPU并行
# OpenClaw配置
models:
providers:
vllm:
type: openai-compatible
baseUrl: http://localhost:8000/v1
apiKey: "not-needed"
🔧 方案三:LM Studio(桌面端)
# 1. 下载LM Studio: https://lmstudio.ai
# 2. 在GUI中下载模型
# 3. 启动本地服务器(默认端口1234)
# 4. OpenClaw配置
models:
providers:
lmstudio:
type: openai-compatible
baseUrl: http://localhost:1234/v1
apiKey: "lm-studio"
📊 模型选择指南
| 显存 | 推荐模型 | 适用场景 | 速度 |
|---|---|---|---|
| 8GB | Qwen2.5-7B / Llama3.1-8B | 日常对话、简单任务 | ~30 tok/s |
| 16GB | Qwen2.5-14B / DeepSeek-16B | 代码生成、复杂推理 | ~20 tok/s |
| 24GB | Qwen2.5-32B / Llama3.1-32B | 专业分析、长文写作 | ~12 tok/s |
| 48GB+ | Llama3.1-70B / Qwen2.5-72B | 最高质量输出 | ~6 tok/s |
💡 量化建议:使用GGUF量化模型可以大幅降低显存需求。例如Q4_K_M量化的14B模型只需约10GB显存。
⚡ 性能优化
1. Ollama环境变量
# GPU层数控制
OLLAMA_NUM_GPU_LAYERS=99 # 全部放GPU
# 并发请求
OLLAMA_NUM_PARALLEL=4 # 同时处理4个请求
# 上下文长度
OLLAMA_CONTEXT_LENGTH=8192 # 8K上下文
# 模型缓存
OLLAMA_KEEP_ALIVE=5m # 模型在内存中保持5分钟
2. 混合部署策略
# OpenClaw支持多provider混合使用
# 简单任务用本地模型,复杂任务用云端API
models:
routing:
- pattern: "日常对话、简单问答"
model: ollama/qwen2.5:7b # 本地小模型
- pattern: "代码生成、技术分析"
model: ollama/deepseek-coder:16b # 本地代码模型
- pattern: "复杂推理、长文写作"
model: anthropic/claude-sonnet-4 # 云端大模型
⚠️ 注意事项:
- 本地模型的工具调用(function calling)能力可能弱于云端模型
- 复杂Agent任务建议使用14B以上模型
- 确保GPU驱动和CUDA版本兼容