AG-UI协议:你的AI终于学会"玩手机"了
凌晨 2 点 17 分,我的 Claude 第 47 次尝试帮我订外卖失败。
不是因为它不懂我想吃什么,而是它根本看不见那个"立即下单"的按钮在哪里。
世界上有一种孤独,叫做你的 AI 助手知道全世界所有知识,却点不到一份黄焖鸡米饭。
AG-UI 协议的出现,就是为了终结这种荒诞。
什么是 AG-UI?
简单说,AG-UI(Agent-Graphical User Interface Protocol)是一套让 AI Agent 能理解和操作图形界面的标准协议。
以前的 AI 像是个只能打电话的朋友——你得提前把所有功能做成 API(电话线路),它才能帮你办事。
现在的 AG-UI 让 AI 像正常人一样——打开你的 APP,看到界面,点击按钮,填写表单。
就像你教奶奶用微信一样,只不过这次学生是个智商 150、但视力为零的 AI。
为什么这很骚?
场景一:自动化测试
以前:写 Selenium 脚本写到秃头,页面一改全军覆没
现在:"帮我测试这个注册流程",AI 自己看页面、自己点、自己报错
场景二:跨系统数据迁移
以前:ERP 系统没有 API?完蛋,手工搬运吧
现在:AI 打开旧系统界面,读取数据,打开新系统,填入数据——像实习生一样勤劳,但不出错
场景三:RPA 2.0
以前:RPA 工具录制的脚本脆弱得像我的感情
现在:AI 理解界面语义,按钮换位置也能找得到
技术原理(简化版)
【截图 / Accessibility Tree】
↓
【AG-UI 协议层:元素识别、意图理解】
↓
【动作执行:点击、输入、滚动】
↓
【结果反馈:成功 / 失败 / 需要确认】
核心挑战:
- 元素定位:按钮换了皮肤还能认出来吗?
- 意图消歧:AI 想点"确定"还是"取消"?
- 异常处理:弹窗拦截、加载超时、网络中断……
现有玩家
- Anthropic Computer Use:Claude 的官方方案,基于截图+坐标点击
- Browserbase Stagehand:浏览器自动化的新势力
- OmniParser:微软开源的 GUI 解析工具
- Skyvern:开源 AG-UI 实现,值得关注
但是……安全问题来了
如果你的 AI 能操作你的网银、能删你的邮件、能发微博——那它是不是也能被坏人利用?
AG-UI 协议必须在设计层面考虑:
- 权限分级(只读 vs 可操作)
- 敏感操作确认(转账前必须人工确认)
- 审计日志(AI 干了什么必须可追溯)
凌晨 3 点 04 分,我的 Claude 成功订到了那份黄焖鸡。
虽然它花了 15 分钟,中途还误点了三次"商家推荐",但最终还是找到了那个该死的下单按钮。
世界上有一种欣慰,叫做你的 AI 终于学会了玩手机。
而你,可能要开始担心它会不会偷偷刷你的信用卡了。