🎨 Multi-Modal Agent

看、听、读、写——让你的Agent拥有五感六识

"世界上有一种Agent只能看文字,就像一个只会读书的学霸——博学但封闭。直到有一天,它学会了看图、听声音,世界突然从灰白变成了彩色。这就是多模态的力量。"

什么是Multi-Modal Agent?

多模态Agent是能同时处理多种输入形式的AI Agent——不只是文字,还能看懂图片、听懂语音、解析PDF文档。就像人类不只靠语言沟通,还能看表情、听语调。

OpenClaw多模态能力

1. 图像理解

# Agent看到用户发送的图片并分析
# OpenClaw自动支持多模态输入

user: [发送一张错误截图]
agent: 分析截图内容,识别错误信息:
      - 错误类型:TypeError
      - 错误位置:line 42, column 15
      - 原因分析:变量未定义
      - 修复建议:在函数开头声明变量

2. 浏览器视觉自动化

# 使用browser工具进行视觉交互
browser:
  action: "screenshot"
  target: "sandbox"
  fullPage: true
  output: "/tmp/page-screenshot.png"

# Agent看到截图后做出决策
agent: |
  截图中看到页面加载完成了。
  登录按钮在右上角,我点击它。
  
browser:
  action: "act"
  request:
    kind: "click"
    ref: "login-button"

3. 文档智能解析

# 解析复杂文档
# OpenClaw支持多种文档格式

# PDF文档
read:
  path: "/data/report.pdf"
  # 自动提取文本、表格、图片

# Excel表格
read:
  path: "/data/sales.xlsx"
  # 自动解析为结构化数据

# 使用coze-web-fetch处理在线文档
coze-web-fetch:
  url: "https://example.com/document.pdf"
  # 提取完整内容和结构

4. 语音交互

# 语音输入(通过channel自动转文字)
# 用户发送语音消息 → 自动STT → Agent处理

# 语音输出
tts:
  text: "这个bug我已经找到了修复方案"
  channel: "feishu"
  # 输出语音消息

实战:构建文档分析Agent

场景:合同智能审查

# 构建多模态合同审查Agent

system_prompt: |
  你是一个合同审查助手。
  
  ## 能力
  1. 读取PDF/Word格式的合同文档
  2. 识别合同关键条款
  3. 标注风险点
  4. 生成审查报告
  
  ## 审查清单
  - 合同主体信息完整性
  - 违约责任条款
  - 保密条款
  - 知识产权归属
  - 争议解决方式
  - 合同期限与续签
  
  ## 输出格式
  使用飞书文档生成结构化审查报告

# 用户上传合同
user: [上传 contract.pdf]

# Agent自动处理流程
agent_execution:
  1. 读取文档 → read(path="contract.pdf")
  2. 提取文本 → 文档解析
  3. 条款分析 → 逐条审查
  4. 风险评估 → 标注高/中/低风险
  5. 生成报告 → feishu_doc(action="create")
💡 Pro Tip:多模态Agent的Token消耗远高于纯文本Agent(图像约200-1000 tokens/张)。建议对大图片先压缩再处理,文档只提取需要的页面。

多模态成本优化

# 成本控制策略

# 1. 图片预处理
image_resize:
  max_width: 1024
  max_height: 1024
  format: "webp"
  quality: 80
  # 压缩后Token消耗降低60%

# 2. 分页处理
pdf_processing:
  strategy: "on_demand"
  max_pages: 20
  # 不一次性处理整个PDF

# 3. 分级模型
model_routing:
  simple_tasks: "gpt-4o-mini"    # 便宜
  complex_vision: "gpt-4o"        # 贵但准
  ocr_tasks: "claude-3.5-sonnet"  # OCR最强

最佳实践

  1. 渐进式加载 - 先文本后多媒体,避免一次性加载过大内容
  2. 格式转换 - 统一输入格式,降低处理复杂度
  3. 缓存策略 - 相同文档不重复解析
  4. 降级策略 - 视觉处理失败时回退到文本方案
  5. 验证输出 - OCR结果需要交叉验证
⚠️ 注意:不同模型的视觉能力差异很大。GPT-4o擅长UI截图理解,Claude擅长文档OCR,Gemini擅长图表分析。根据任务选择合适的模型。

相关资源