🎬 为什么选择本地部署?
凌晨3点15分,我盯着 API 账单——上个月花了 $847。要是都跑本地,成本不到十分之一。
就像周星驰电影里的"食神"——自己做菜,既省钱又对味。本地部署 AI Agent,你说了算。
本地部署 vs 云端对比
| 维度 | 本地部署 | 云端 (API) |
|---|---|---|
| 月成本(100万 Tokens) | $20-50 | $200-500 |
| 延迟 | 50-200ms | 500-2000ms |
| 数据隐私 | 完全控制 | 受平台政策限制 |
| 可扩展性 | 受硬件限制 | 弹性伸缩 |
📦 系统要求
# 📋 最低配置(本地 LLM)
- CPU: 8核 (Intel i7 / AMD Ryzen 7)
- RAM: 32GB+
- GPU: NVIDIA RTX 3060 12GB+
- 磁盘: 100GB SSD
- 系统: Ubuntu 22.04+ / macOS 14+ / Windows 11
# 📋 推荐配置(生产环境)
- CPU: 16核 (Intel i9 / AMD Threadripper)
- RAM: 64GB+
- GPU: NVIDIA RTX 4090 24GB / A100 40GB
- 磁盘: 500GB NVMe SSD
- 系统: Ubuntu 24.04 LTS
🛠️ 安装步骤
方式1:Docker 安装(推荐)
# 前提:安装 Docker 和 Docker Compose
sudo apt-get update
sudo apt-get install docker.io docker-compose -y
# 拉取 OpenClaw 镜像
docker pull openclaw/openclaw:latest
# 创建配置文件目录
mkdir -p ~/.openclaw/config
mkdir -p ~/.openclaw/skills
mkdir -p ~/.openclaw/data
# 运行 OpenClaw
docker run -d \
--name openclaw \
--gpus all \
-p 8080:8080 \
-v ~/.openclaw:/root/.openclaw \
--restart unless-stopped \
openclaw/openclaw:latest
# 查看运行状态
docker logs -f openclaw
方式2:npm 安装
# 前提:Node.js 22+ 和 npm
node --version # 确认 >= 22
# 全局安装 OpenClaw
npm install -g openclaw
# 初始化配置
openclaw init
# 启动
openclaw start
方式3:源码编译
# 克隆仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw
# 安装依赖
npm install
# 编译
npm run build
# 启动开发模式
npm run dev
⚡ GPU 加速配置
# 确认 NVIDIA 驱动安装
nvidia-smi
# 推荐版本:CUDA 12.4+
# 安装 CUDA 支持(Docker 已自动配置)
# npm 安装需要额外配置
pip install torch --index-url https://download.pytorch.org/whl/cu124
# 配置 OpenClaw 使用 GPU
openclaw config set model.provider vllm
openclaw config set model.gpu.enabled true
openclaw config set model.gpu.devices 0,1 # 多 GPU
# 测试 GPU 推理
openclaw test --model="llama3-8b" --prompt="你好,世界" --gpu
# 性能对比
# CPU: 8 tokens/s
# GPU (RTX 4090): 85 tokens/s
# GPU (A100): 200+ tokens/s
🔧 性能优化
模型量化
# 使用量化后的模型可以大幅降低显存需求
# FP16 → 8GB (需要)
# INT8 → 4GB (推荐)
# INT4 → 2GB (轻量级)
# 配置量化
openclaw config set model.quantization int8
openclaw config set model.quantization.maxMemory "16GB"
# 支持的量化模式
# - fp16: 半精度(质量最好,显存需求最高)
# - int8: 8位量化(平衡质量和显存)
# - int4: 4位量化(显存最低,质量可接受)
缓存策略
# 配置 KV 缓存
openclaw config set cache.kv.enabled true
openclaw config set cache.kv.maxSize "8GB"
openclaw config set cache.kv.ttl 3600
# 配置前缀缓存
openclaw config set cache.prefix.enabled true
openclaw config set cache.prefix.maxStrategies 100
# 配置请求缓存
openclaw config set cache.request.enabled true
openclaw config set cache.request.ttl 300
并发优化
# 配置并发参数
openclaw config set server.maxConcurrent 10
openclaw config set server.maxQueueSize 100
openclaw config set server.requestTimeout 30000
# 批量推理
openclaw config set inference.batchSize 4
openclaw config set inference.batchTimeout 500
# 连续批处理
openclaw config set inference.continuousBatching true
💡 最佳实践: 使用 vLLM 作为推理引擎,相比默认引擎吞吐量提升 3-5 倍,特别适合高并发场景。
📊 监控与告警
# 内置监控
openclaw monitor --metrics=all
# 输出示例:
# ┌─────────────────────────────────┐
# │ OpenClaw 系统监控 (实时) │
# ├─────────────────────────────────┤
# │ CPU: 45% | RAM: 12.3GB/32GB │
# │ GPU: 78% | VRAM: 18.5GB/24GB │
# │ Tokens/s: 45.2 │
# │ 活跃请求: 5/10 │
# │ 排队请求: 2 │
# │ 平均延迟: 450ms │
# └─────────────────────────────────┘
# 设置告警
openclaw alert set --metric=ram_usage --threshold=90 --action=notify
openclaw alert set --metric=gpu_temp --threshold=85 --action=notify
# 查看日志
openclaw logs --tail=50
🌟 总结
本地部署不是"退而求其次",而是真正的"高性能自主权"。
你已经学会了:
- ✅ 三种安装方式(Docker / npm / 源码)
- ✅ GPU 加速和模型量化
- ✅ 缓存策略和并发优化
- ✅ 监控告警配置
我们的 miaoquai.com 就是跑在自托管 OpenClaw 上的——1842 页内容,50 天不间断运营。