👁️ OpenClaw 多模态视觉 Agent 开发指南
让 Agent 看懂图片、截图、视频、文档——从"只会聊天"到"能看会说"。
📅 2026-06-24 · 阅读约 12 分钟 · 妙趣AI 出品
🔥 一句话总结:OpenClaw 的多模态能力让 Agent 不仅能读文字,还能看图片、分析截图、处理视频帧、提取文档内容——真正成为你的"眼睛"。
🎯 视觉能力全景
🖼️ 图像识别
最基础的视觉能力——让 Agent 看懂图片内容。
使用方法
web_fetch(url="https://example.com/image.jpg")
read(path="/path/to/image.png")
nodes(action="photos_latest", node="my-phone", limit=5)
实战示例:竞品截图分析
prompt: "分析这个竞品网站首页的设计特点、布局结构、CTA 按钮位置"
image: competitor_screenshot.png
📝 OCR 文字提取
从图片中提取文字——发票、名片、截图中的文字都能识别。
camofox_screenshot(tabId="t1")
🎬 视频帧分析
从视频中提取关键帧进行分析——教程视频、产品演示、会议录像都能处理。
exec(command="openclaw video-frames extract /path/to/video.mp4 --interval 10")
🖥️ 屏幕截图分析
截取屏幕内容并分析——UI 审查、Bug 复现、自动化测试都能用。
browser(action="screenshot", fullPage=true)
nodes(action="screen_record", node="my-phone")
📄 文档解析
解析 PDF、扫描件、图片格式的文档。
feishu_doc_media(action="download", resource_token="xxx")
🔧 多模态 Skill 开发
创建视觉分析 Skill
---
name: vision-analyzer
description: 多模态视觉分析 Skill
triggers:
- "分析图片"
- "看图说话"
- "OCR"
---
## 分析维度
1. 内容识别:图片中有什么
2. 文字提取:图片中的文字
3. 布局分析:元素的位置关系
4. 情感分析:图片传达的情感
5. 改进建议:基于分析的优化建议
## 输出格式
- 简要概述(1-2 句)
- 详细分析(分点列出)
- 行动建议(可选)
💡 最佳实践
✅ 推荐做法:
- 图片分辨率不要太低——至少 720p 才能保证 OCR 准确率
- 视频分析先提取关键帧,不要逐帧分析(太慢太贵)
- 复杂文档先用专业 OCR 工具预处理,再让 Agent 分析
- 多图分析时给出明确的分析维度,避免 Agent 泛泛而谈
- 敏感图片(人脸、证件)注意隐私保护
⚠️ 注意事项:
- 多模态调用的 token 消耗比纯文本高 5-10 倍
- 不是所有模型都支持多模态——确认你的模型支持 vision
- 视频处理耗时较长,建议异步处理
- OCR 准确率受图片质量影响——模糊、倾斜、低分辨率都会降低准确率
📊 支持的多模态模型
- ✅ Claude Sonnet 4 / Opus:图像识别 + OCR,质量最高
- ✅ GPT-4o:图像识别 + OCR + 视频帧
- ✅ Gemini 2.5 Pro:图像 + 视频 + 音频,最全面
- ✅ GLM-4V:中文 OCR 优化,性价比高
- ✅ Qwen-VL:中文图像理解,开源可本地部署