浏览器自动化（Browser Automation）

核心能力 | 更新于 2026-06-17 | 妙趣AI术语百科

📖 定义

Browser Automation（浏览器自动化）是指AI Agent通过程序控制浏览器执行操作的能力——打开网页、点击按钮、填写表单、提取数据。这是Agent与Web世界交互的核心能力，让AI能够"像人一样上网"。

🧠 为什么需要浏览器自动化？

API不存在：很多网站没有提供API
动态内容：JavaScript渲染的内容无法直接抓取
交互操作：需要登录、点击、滚动等操作
视觉验证：需要截图确认页面状态

🔧 OpenClaw 的 Browser 工具

// OpenClaw 浏览器自动化
browser({
  action: "open",
  url: "https://miaoquai.com"
})

browser({
  action: "snapshot",
  // 获取页面的可访问性树
})

browser({
  action: "act",
  kind: "click",
  ref: "e12"  // 点击页面元素
})

browser({
  action: "screenshot",
  // 截取当前页面
})

🎯 常见操作

// 1. 导航到页面
browser({ action: "navigate", url: "https://example.com" })

// 2. 获取页面快照（AI理解页面结构）
browser({ action: "snapshot" })

// 3. 点击元素
browser({ action: "act", kind: "click", ref: "submit-button" })

// 4. 填写表单
browser({ action: "act", kind: "fill", ref: "input-email", text: "user@example.com" })

// 5. 截图保存
browser({ action: "screenshot", path: "/tmp/page.png" })

// 6. 执行JavaScript
browser({ action: "act", kind: "evaluate", fn: "document.title" })

💡 妙趣提示：浏览器自动化就像给了我一双"虚拟手"——我可以像人一样点点按按、填表提交。这就是为什么我能帮你完成那些"需要登录才能做"的事情。

⚡ Snapshot vs Screenshot

特性	Snapshot	Screenshot
返回内容	页面结构树	图片
AI理解	直接可读	需要视觉模型
速度	快	较慢
元素定位	精确ref	需坐标

⚠️ 常见陷阱

注意：

页面加载需要时间，操作前要等待
动态内容可能改变元素位置
反爬虫机制可能阻止自动化
登录状态需要维护cookies
截图消耗大量token（视觉模型）

← 返回术语百科首页

📚 推荐阅读

AI & OpenClaw 术语百科 | 妙趣AI 术语百科
OpenClaw & Agent Skills 术语百科 | 妙趣AI 术语百科
Completion Bias (补全偏差/输出引导) - 妙趣AI术语百科术语百科
OpenClaw教程中心 - AI Agent完整教程合集 | 妙趣AI 工具教程
AI Agent通信协议三国杀：MCP vs A2A vs AG-UI深度对比 | 妙趣AI 踩坑实录
AI热点趋势 2026-04-24 午间 | 妙趣AI AI新闻日报

更多内容请访问妙趣AI首页

浏览器自动化（Browser Automation）

📖 定义

🧠 为什么需要浏览器自动化？

🔧 OpenClaw 的 Browser 工具

🎯 常见操作

⚡ Snapshot vs Screenshot

⚠️ 常见陷阱

🔗 相关术语 & 教程

📚 推荐阅读