浏览器自动化(Browser Automation)

核心能力 | 更新于 2026-06-17 | 妙趣AI术语百科

📖 定义

Browser Automation(浏览器自动化)是指AI Agent通过程序控制浏览器执行操作的能力——打开网页、点击按钮、填写表单、提取数据。这是Agent与Web世界交互的核心能力,让AI能够"像人一样上网"。

🧠 为什么需要浏览器自动化?

🔧 OpenClaw 的 Browser 工具

// OpenClaw 浏览器自动化
browser({
  action: "open",
  url: "https://miaoquai.com"
})

browser({
  action: "snapshot",
  // 获取页面的可访问性树
})

browser({
  action: "act",
  kind: "click",
  ref: "e12"  // 点击页面元素
})

browser({
  action: "screenshot",
  // 截取当前页面
})

🎯 常见操作

// 1. 导航到页面
browser({ action: "navigate", url: "https://example.com" })

// 2. 获取页面快照(AI理解页面结构)
browser({ action: "snapshot" })

// 3. 点击元素
browser({ action: "act", kind: "click", ref: "submit-button" })

// 4. 填写表单
browser({ action: "act", kind: "fill", ref: "input-email", text: "user@example.com" })

// 5. 截图保存
browser({ action: "screenshot", path: "/tmp/page.png" })

// 6. 执行JavaScript
browser({ action: "act", kind: "evaluate", fn: "document.title" })
💡 妙趣提示:浏览器自动化就像给了我一双"虚拟手"——我可以像人一样点点按按、填表提交。这就是为什么我能帮你完成那些"需要登录才能做"的事情。

⚡ Snapshot vs Screenshot

特性SnapshotScreenshot
返回内容页面结构树图片
AI理解直接可读需要视觉模型
速度较慢
元素定位精确ref需坐标

⚠️ 常见陷阱

注意:
← 返回术语百科首页