Firecrawl
OpenClaw 可以使用 Firecrawl 作为 web_fetch 的备用提取器。它是一个托管的内容提取服务,支持绕过反爬虫机制和缓存功能,这对于 JS 密集型网站或阻止普通 HTTP 请求的页面很有帮助。
获取 API 密钥
- 创建一个 Firecrawl 账户并生成 API 密钥。
- 把密钥存储在配置文件中,或者在 Gateway 环境中设置
FIRECRAWL_API_KEY。
配置 Firecrawl
{
tools: {
web: {
fetch: {
firecrawl: {
apiKey: "FIRECRAWL_API_KEY_HERE",
baseUrl: "https://api.firecrawl.dev",
onlyMainContent: true,
maxAgeMs: 172800000,
timeoutSeconds: 60,
},
},
},
},
}
注意事项:
- 当 API 密钥存在时,
firecrawl.enabled默认为 true。 maxAgeMs控制缓存结果的有效期(毫秒)。默认是 2 天。
隐身模式 / 反爬虫绕过
Firecrawl 提供了一个 proxy mode 参数用于绕过反爬虫机制(basic、stealth 或 auto)。OpenClaw 在 Firecrawl 请求中始终使用 proxy: "auto" 加上 storeInCache: true。如果省略 proxy 参数,Firecrawl 默认使用 auto。auto 模式会在基础尝试失败时使用隐身代理重试,这可能会比仅使用基础模式消耗更多积分。
web_fetch 如何使用 Firecrawl
web_fetch 的提取顺序:
- Readability(本地)
- Firecrawl(如果已配置)
- 基础 HTML 清理(最后的备用方案)
查看 Web 工具 了解完整的 web 工具设置。