👁️ OpenClaw 多模态视觉 Agent 开发指南

让 Agent 看懂图片、截图、视频、文档——从"只会聊天"到"能看会说"。

📅 2026-06-24 · 阅读约 12 分钟 · 妙趣AI 出品

        🔥 一句话总结：OpenClaw 的多模态能力让 Agent 不仅能读文字，还能看图片、分析截图、处理视频帧、提取文档内容——真正成为你的"眼睛"。
    

🎯 视觉能力全景

🖼️ 图像识别

识别图片内容、物体、场景

📝 OCR 提取

图片中的文字识别

🎬 视频分析

视频帧提取与分析

🖥️ 屏幕截图

截屏分析与 UI 理解

📄 文档解析

PDF/图片文档内容提取

📊 图表理解

数据图表分析解读

🖼️ 图像识别

最基础的视觉能力——让 Agent 看懂图片内容。

使用方法

# 方式 1：直接发送图片给 Agent
# 在聊天中上传图片，Agent 自动识别

# 方式 2：使用 web_fetch 获取网络图片
web_fetch(url="https://example.com/image.jpg")

# 方式 3：使用 read 工具读取本地图片
read(path="/path/to/image.png")

# 方式 4：使用 nodes 工具获取手机拍摄的照片
nodes(action="photos_latest", node="my-phone", limit=5)
    

实战示例：竞品截图分析

# Agent 可以分析竞品网站截图
prompt: "分析这个竞品网站首页的设计特点、布局结构、CTA 按钮位置"
image: competitor_screenshot.png

# Agent 会输出：
# 1. 整体布局：F 型布局，左侧导航 + 右侧内容区
# 2. 配色方案：深蓝 + 白色，专业感强
# 3. CTA 位置：首屏右上角，橙色按钮，对比度高
# 4. 改进建议：我们可以...
    

📝 OCR 文字提取

从图片中提取文字——发票、名片、截图中的文字都能识别。

# 使用浏览器截图 + OCR
# 1. 截取网页内容
camofox_screenshot(tabId="t1")

# 2. Agent 自动 OCR 识别截图中的文字
# 3. 提取结构化数据

# 实用场景：
# - 发票信息提取
# - 名片识别
# - 截图中的代码提取
# - 手写笔记数字化
    

🎬 视频帧分析

从视频中提取关键帧进行分析——教程视频、产品演示、会议录像都能处理。

# 使用 video-frames Skill
# 1. 提取视频关键帧
exec(command="openclaw video-frames extract /path/to/video.mp4 --interval 10")

# 2. Agent 分析每一帧
# 3. 生成视频摘要

# 实用场景：
# - 教程视频转文字教程
# - 产品演示视频分析
# - 会议录像摘要
# - 直播回放内容提取
    

🖥️ 屏幕截图分析

截取屏幕内容并分析——UI 审查、Bug 复现、自动化测试都能用。

# 使用 browser 工具截图
browser(action="screenshot", fullPage=true)

# 使用 nodes 工具截取手机屏幕
nodes(action="screen_record", node="my-phone")

# 实用场景：
# - UI 走查：截图后让 Agent 检查 UI 问题
# - Bug 复现：截图后让 Agent 分析错误
# - 自动化测试：截图对比验证
    

📄 文档解析

解析 PDF、扫描件、图片格式的文档。

# 使用 feishu_doc_media 下载文档
feishu_doc_media(action="download", resource_token="xxx")

# Agent 自动解析文档内容
# 支持格式：PDF、JPG、PNG、TIFF

# 实用场景：
# - 合同关键条款提取
# - 简历信息解析
# - 扫描件 OCR
# - 学术论文图表分析
    

🔧 多模态 Skill 开发

创建视觉分析 Skill

# ~/.openclaw/skills/vision-analyzer/SKILL.md

---
name: vision-analyzer
description: 多模态视觉分析 Skill
triggers:
  - "分析图片"
  - "看图说话"
  - "OCR"
---

# 视觉分析指南

## 分析维度
1. 内容识别：图片中有什么
2. 文字提取：图片中的文字
3. 布局分析：元素的位置关系
4. 情感分析：图片传达的情感
5. 改进建议：基于分析的优化建议

## 输出格式
- 简要概述（1-2 句）
- 详细分析（分点列出）
- 行动建议（可选）
    

💡 最佳实践

✅ 推荐做法：

图片分辨率不要太低——至少 720p 才能保证 OCR 准确率
视频分析先提取关键帧，不要逐帧分析（太慢太贵）
复杂文档先用专业 OCR 工具预处理，再让 Agent 分析
多图分析时给出明确的分析维度，避免 Agent 泛泛而谈
敏感图片（人脸、证件）注意隐私保护

⚠️ 注意事项：

多模态调用的 token 消耗比纯文本高 5-10 倍
不是所有模型都支持多模态——确认你的模型支持 vision
视频处理耗时较长，建议异步处理
OCR 准确率受图片质量影响——模糊、倾斜、低分辨率都会降低准确率

📊 支持的多模态模型

✅ Claude Sonnet 4 / Opus：图像识别 + OCR，质量最高
✅ GPT-4o：图像识别 + OCR + 视频帧
✅ Gemini 2.5 Pro：图像 + 视频 + 音频，最全面
✅ GLM-4V：中文 OCR 优化，性价比高
✅ Qwen-VL：中文图像理解，开源可本地部署

👁️ OpenClaw 多模态视觉 Agent 开发指南

🎯 视觉能力全景

🖼️ 图像识别

📝 OCR 提取

🎬 视频分析

🖥️ 屏幕截图

📄 文档解析

📊 图表理解

🖼️ 图像识别

使用方法

实战示例：竞品截图分析

📝 OCR 文字提取

🎬 视频帧分析

🖥️ 屏幕截图分析

📄 文档解析

🔧 多模态 Skill 开发

创建视觉分析 Skill

💡 最佳实践

📊 支持的多模态模型

📚 相关推荐