在很长一段时间里,AI Agent像是一个"盲人"——它只能通过API和代码"触摸"世界,却看不到屏幕上的按钮、图片、视频。
这就好像你让人干活,但只给他一条信息:"用户页面上有些东西,你看着办吧。"
多模态Agent栈的出现,改变了这一切。Agent终于能"看见"了——而且不只是文字,它能看懂像素、分析布局、识别UI元素,然后像一个人类一样操作鼠标和键盘。
字节跳动的UI-TARS-desktop短短几周狂揽34,000+ Star,就是这个赛道最响亮的一枪。
Multimodal Agent Stack - 给AI装上眼睛和手
在很长一段时间里,AI Agent像是一个"盲人"——它只能通过API和代码"触摸"世界,却看不到屏幕上的按钮、图片、视频。
这就好像你让人干活,但只给他一条信息:"用户页面上有些东西,你看着办吧。"
多模态Agent栈的出现,改变了这一切。Agent终于能"看见"了——而且不只是文字,它能看懂像素、分析布局、识别UI元素,然后像一个人类一样操作鼠标和键盘。
字节跳动的UI-TARS-desktop短短几周狂揽34,000+ Star,就是这个赛道最响亮的一枪。
多模态Agent栈是一套完整的技术栈,让AI Agent能够同时处理文本、图像、界面截图、音频等多种输入模态,并基于这些信息做出决策和操作。
字节跳动开源的多模态AI Agent栈:
让AI Agent操控浏览器的开源框架:
OpenAI的官方方案,Agent直接操作桌面:
# OpenClaw + Multimodal Agent 集成
{
"agent": {
"skills": [
{
"name": "browser-vision",
"type": "multimodal",
"config": {
"vision_model": "UI-TARS",
"screenshot_interval": "1000ms",
"element_detection": "auto",
"action_planning": "step_by_step"
}
}
]
}
}
# 使用示例:自动填写表单
Agent看到截图 → 识别"登录按钮"位置
→ 计算点击坐标 → 执行点击 → 截图验证 → 完成
// 多模态Agent审查UI设计稿
async function reviewUI(designMockup, codeImplementation) {
// 1. 截图比对
const designAnalysis = await visionAgent.analyze(designMockup)
const codeScreenshot = await browserAgent.screenshot(codeImplementation)
// 2. 差异检测
const diffs = await compareService(designAnalysis, codeScreenshot)
// 3. 生成审查报告
return {
"颜色偏差": diffs.colors,
"间距问题": diffs.spacing,
"元素缺失": diffs.missing_elements,
"定位错误": diffs.positioning
}
}
// 这比人眼看得还仔细!
# OpenClaw Skills: 多模态数据分析
"""
用户:"这张图里的数据趋势是怎么样的?"
"""
1. Agent接收截图 + 文字问题
2. 视觉模块提取图表数据点和标签
3. 理解模块分析趋势(上升/下降/周期性)
4. 生成自然语言解释
5. 返回:"2026年Q1到Q2,用户增长呈现指数级上升趋势,
增长率从5%提升到了23%..."
# 不需要API,不需要结构化数据
# 看图说话就这么简单
// 从截图提取UI元素的流程
1. 截图输入 (1920x1080)
2. 视觉编码器提取特征图
3. 检测头识别UI元素:
{
"buttons": [{id: 1, text: "登录", bbox: [120, 340, 200, 380]}, ...],
"inputs": [{id: 2, placeholder: "请输入用户名", bbox: [100, 200, 300, 240]}, ...],
"links": [{id: 3, text: "注册", bbox: [220, 340, 280, 380]}, ...]
}
4. 行动规划器决定下一步动作
// UI-TARS 的坐标系统
1. 截图被分割成 7x7 的网格
2. Agent输出目标网格 + 精确偏移量
3. 系统自动计算实际点击坐标
输出: {
"action": "click",
"target": {"grid_row": 3, "grid_col": 2,
"offset_x": 15, "offset_y": 10}
}
妙趣建议:多模态Agent最适合的场景是"人类不想干但必须用眼睛看的事情"——比如UI自动化测试、表单填写、数据爬取。别用它来替代API调用,那就像用大炮打蚊子。
从前AI是个盲人,现在他不仅看见了,还能动手了。
但问题来了——一个能看见能动手的AI,理论上可以做任何一个实习生的工作:填表、点按钮、翻网页、整理数据...
实习生会怕吗?不。会怕的是"那些只懂得点按钮"的实习生。
AI时代最好的护城河从来不是你会点什么,而是你知道为什么要点这个。