OpenClaw 网页抓取:让AI"读懂"任何网页
世界上有一种网页叫做"内容很丰富但就是不想读"。太长了?太乱了?没关系,让web_fetch帮你搞定——它就像一个专业的阅读助理,把任何网页变成干净利落的内容摘要。
什么是 web_fetch?
web_fetch 是 OpenClaw 的轻量级网页抓取工具。它能:
- 获取任意HTTP/HTTPS网页
- 智能提取正文内容
- 转换为Markdown或纯文本格式
- 处理动态加载的内容(有限支持)
基础用法
最简单的抓取:
{
"url": "https://example.com/article"
}
默认返回Markdown格式的内容。
参数详解
| 参数 | 类型 | 说明 |
|---|---|---|
| url | string | 要抓取的URL(必填) |
| extractMode | string | 提取模式:"markdown"或"text" |
| maxChars | number | 最大字符数(默认无限制,建议设置) |
输出格式选择
Markdown模式(默认)
{
"url": "https://blog.example.com/post",
"extractMode": "markdown"
}
保留标题层级、列表、链接等格式,适合结构化内容。
纯文本模式
{
"url": "https://example.com/article",
"extractMode": "text"
}
去除所有格式,只保留纯文本,适合快速阅读。
内容长度控制
对于长文章,可以限制输出长度:
{
"url": "https://very-long-article.com",
"maxChars": 5000 // 只返回前5000字符
}
使用场景
1. 新闻摘要
// 抓取新闻文章,让AI总结
{
"url": "https://news.example.com/ai-trend-2026",
"maxChars": 10000
}
2. 文档查询
// 快速获取官方文档内容
{
"url": "https://docs.openclaw.ai/getting-started"
}
3. 竞品分析
// 抓取竞品页面进行分析
{
"url": "https://competitor.com/pricing",
"extractMode": "text"
}
web_fetch vs Browser
什么时候用web_fetch,什么时候用Browser?
| 特性 | web_fetch | Browser |
|---|---|---|
| 速度 | 快 | 慢 |
| JS渲染 | 有限支持 | 完整支持 |
| 交互操作 | 不支持 | 支持 |
| 登录态 | 不支持 | 支持 |
| 资源消耗 | 低 | 高 |
简单规则:只是读内容?用web_fetch。需要操作页面?用Browser。
最佳实践
- 设置maxChars:避免抓取过长内容消耗token
- 选择合适格式:需要结构选markdown,只需文字选text
- 处理失败:URL可能失效,要有错误处理
- 尊重robots.txt:不要频繁抓取同一站点
常见问题
Q: 为什么抓取不到内容?
A: 可能是JS动态渲染的内容,试试用Browser工具。
Q: 内容被截断了怎么办?
A: 增大maxChars参数,或者分段抓取。
相关链接
🌐 想抓取更多网页内容?试试 web_fetch!