👁️ OpenClaw 多模态视觉 Agent 开发指南

让 Agent 看懂图片、截图、视频、文档——从"只会聊天"到"能看会说"。

📅 2026-06-24 · 阅读约 12 分钟 · 妙趣AI 出品
🔥 一句话总结:OpenClaw 的多模态能力让 Agent 不仅能读文字,还能看图片、分析截图、处理视频帧、提取文档内容——真正成为你的"眼睛"。

🎯 视觉能力全景

🖼️ 图像识别

识别图片内容、物体、场景

📝 OCR 提取

图片中的文字识别

🎬 视频分析

视频帧提取与分析

🖥️ 屏幕截图

截屏分析与 UI 理解

📄 文档解析

PDF/图片文档内容提取

📊 图表理解

数据图表分析解读

🖼️ 图像识别

最基础的视觉能力——让 Agent 看懂图片内容。

使用方法

# 方式 1:直接发送图片给 Agent # 在聊天中上传图片,Agent 自动识别 # 方式 2:使用 web_fetch 获取网络图片 web_fetch(url="https://example.com/image.jpg") # 方式 3:使用 read 工具读取本地图片 read(path="/path/to/image.png") # 方式 4:使用 nodes 工具获取手机拍摄的照片 nodes(action="photos_latest", node="my-phone", limit=5)

实战示例:竞品截图分析

# Agent 可以分析竞品网站截图 prompt: "分析这个竞品网站首页的设计特点、布局结构、CTA 按钮位置" image: competitor_screenshot.png # Agent 会输出: # 1. 整体布局:F 型布局,左侧导航 + 右侧内容区 # 2. 配色方案:深蓝 + 白色,专业感强 # 3. CTA 位置:首屏右上角,橙色按钮,对比度高 # 4. 改进建议:我们可以...

📝 OCR 文字提取

从图片中提取文字——发票、名片、截图中的文字都能识别。

# 使用浏览器截图 + OCR # 1. 截取网页内容 camofox_screenshot(tabId="t1") # 2. Agent 自动 OCR 识别截图中的文字 # 3. 提取结构化数据 # 实用场景: # - 发票信息提取 # - 名片识别 # - 截图中的代码提取 # - 手写笔记数字化

🎬 视频帧分析

从视频中提取关键帧进行分析——教程视频、产品演示、会议录像都能处理。

# 使用 video-frames Skill # 1. 提取视频关键帧 exec(command="openclaw video-frames extract /path/to/video.mp4 --interval 10") # 2. Agent 分析每一帧 # 3. 生成视频摘要 # 实用场景: # - 教程视频转文字教程 # - 产品演示视频分析 # - 会议录像摘要 # - 直播回放内容提取

🖥️ 屏幕截图分析

截取屏幕内容并分析——UI 审查、Bug 复现、自动化测试都能用。

# 使用 browser 工具截图 browser(action="screenshot", fullPage=true) # 使用 nodes 工具截取手机屏幕 nodes(action="screen_record", node="my-phone") # 实用场景: # - UI 走查:截图后让 Agent 检查 UI 问题 # - Bug 复现:截图后让 Agent 分析错误 # - 自动化测试:截图对比验证

📄 文档解析

解析 PDF、扫描件、图片格式的文档。

# 使用 feishu_doc_media 下载文档 feishu_doc_media(action="download", resource_token="xxx") # Agent 自动解析文档内容 # 支持格式:PDF、JPG、PNG、TIFF # 实用场景: # - 合同关键条款提取 # - 简历信息解析 # - 扫描件 OCR # - 学术论文图表分析

🔧 多模态 Skill 开发

创建视觉分析 Skill

# ~/.openclaw/skills/vision-analyzer/SKILL.md --- name: vision-analyzer description: 多模态视觉分析 Skill triggers: - "分析图片" - "看图说话" - "OCR" --- # 视觉分析指南 ## 分析维度 1. 内容识别:图片中有什么 2. 文字提取:图片中的文字 3. 布局分析:元素的位置关系 4. 情感分析:图片传达的情感 5. 改进建议:基于分析的优化建议 ## 输出格式 - 简要概述(1-2 句) - 详细分析(分点列出) - 行动建议(可选)

💡 最佳实践

✅ 推荐做法:
⚠️ 注意事项:

📊 支持的多模态模型