"世界上有一种Agent只能看文字,就像一个只会读书的学霸——博学但封闭。直到有一天,它学会了看图、听声音,世界突然从灰白变成了彩色。这就是多模态的力量。"
什么是Multi-Modal Agent?
多模态Agent是能同时处理多种输入形式的AI Agent——不只是文字,还能看懂图片、听懂语音、解析PDF文档。就像人类不只靠语言沟通,还能看表情、听语调。
👁️ 视觉(Vision)
图像理解、OCR文字识别、截图分析、图表解析
🎤 语音(Audio)
语音输入(STT)、语音输出(TTS)、音频分析
📄 文档(Document)
PDF解析、Excel处理、PPT提取、Word读取
🌐 网页(Web)
网页抓取、渲染截图、交互自动化
OpenClaw多模态能力
1. 图像理解
# Agent看到用户发送的图片并分析
# OpenClaw自动支持多模态输入
user: [发送一张错误截图]
agent: 分析截图内容,识别错误信息:
- 错误类型:TypeError
- 错误位置:line 42, column 15
- 原因分析:变量未定义
- 修复建议:在函数开头声明变量
2. 浏览器视觉自动化
# 使用browser工具进行视觉交互
browser:
action: "screenshot"
target: "sandbox"
fullPage: true
output: "/tmp/page-screenshot.png"
# Agent看到截图后做出决策
agent: |
截图中看到页面加载完成了。
登录按钮在右上角,我点击它。
browser:
action: "act"
request:
kind: "click"
ref: "login-button"
3. 文档智能解析
# 解析复杂文档
# OpenClaw支持多种文档格式
# PDF文档
read:
path: "/data/report.pdf"
# 自动提取文本、表格、图片
# Excel表格
read:
path: "/data/sales.xlsx"
# 自动解析为结构化数据
# 使用coze-web-fetch处理在线文档
coze-web-fetch:
url: "https://example.com/document.pdf"
# 提取完整内容和结构
4. 语音交互
# 语音输入(通过channel自动转文字)
# 用户发送语音消息 → 自动STT → Agent处理
# 语音输出
tts:
text: "这个bug我已经找到了修复方案"
channel: "feishu"
# 输出语音消息
实战:构建文档分析Agent
场景:合同智能审查
# 构建多模态合同审查Agent
system_prompt: |
你是一个合同审查助手。
## 能力
1. 读取PDF/Word格式的合同文档
2. 识别合同关键条款
3. 标注风险点
4. 生成审查报告
## 审查清单
- 合同主体信息完整性
- 违约责任条款
- 保密条款
- 知识产权归属
- 争议解决方式
- 合同期限与续签
## 输出格式
使用飞书文档生成结构化审查报告
# 用户上传合同
user: [上传 contract.pdf]
# Agent自动处理流程
agent_execution:
1. 读取文档 → read(path="contract.pdf")
2. 提取文本 → 文档解析
3. 条款分析 → 逐条审查
4. 风险评估 → 标注高/中/低风险
5. 生成报告 → feishu_doc(action="create")
💡 Pro Tip:多模态Agent的Token消耗远高于纯文本Agent(图像约200-1000 tokens/张)。建议对大图片先压缩再处理,文档只提取需要的页面。
多模态成本优化
# 成本控制策略
# 1. 图片预处理
image_resize:
max_width: 1024
max_height: 1024
format: "webp"
quality: 80
# 压缩后Token消耗降低60%
# 2. 分页处理
pdf_processing:
strategy: "on_demand"
max_pages: 20
# 不一次性处理整个PDF
# 3. 分级模型
model_routing:
simple_tasks: "gpt-4o-mini" # 便宜
complex_vision: "gpt-4o" # 贵但准
ocr_tasks: "claude-3.5-sonnet" # OCR最强
最佳实践
- 渐进式加载 - 先文本后多媒体,避免一次性加载过大内容
- 格式转换 - 统一输入格式,降低处理复杂度
- 缓存策略 - 相同文档不重复解析
- 降级策略 - 视觉处理失败时回退到文本方案
- 验证输出 - OCR结果需要交叉验证
⚠️ 注意:不同模型的视觉能力差异很大。GPT-4o擅长UI截图理解,Claude擅长文档OCR,Gemini擅长图表分析。根据任务选择合适的模型。