Firecrawl

OpenClaw có thể dùng Firecrawl làm công cụ trích xuất dự phòng cho web_fetch. Đây là dịch vụ trích xuất nội dung được host sẵn, hỗ trợ vượt qua bot detection và caching, giúp xử lý các trang web nặng JS hoặc các trang chặn HTTP fetch thông thường.

Lấy API key

  1. Tạo tài khoản Firecrawl và tạo một API key.
  2. Lưu nó vào config hoặc set biến môi trường FIRECRAWL_API_KEY trong Gateway.

Cấu hình Firecrawl

{
  tools: {
    web: {
      fetch: {
        firecrawl: {
          apiKey: "FIRECRAWL_API_KEY_HERE",
          baseUrl: "https://api.firecrawl.dev",
          onlyMainContent: true,
          maxAgeMs: 172800000,
          timeoutSeconds: 60,
        },
      },
    },
  },
}

Lưu ý:

  • firecrawl.enabled mặc định là true khi có API key.
  • maxAgeMs kiểm soát độ “cũ” tối đa của kết quả cache (tính bằng ms). Mặc định là 2 ngày.

Stealth / vượt qua bot detection

Firecrawl có tham số proxy mode để vượt qua bot detection (basic, stealth, hoặc auto). OpenClaw luôn dùng proxy: "auto" cùng với storeInCache: true cho các request tới Firecrawl. Nếu bỏ qua proxy, Firecrawl mặc định dùng auto. Chế độ auto sẽ thử lại với stealth proxy nếu lần thử basic thất bại, điều này có thể tốn nhiều credit hơn so với chỉ dùng basic.

Cách web_fetch sử dụng Firecrawl

Thứ tự trích xuất của web_fetch:

  1. Readability (local)
  2. Firecrawl (nếu đã cấu hình)
  3. Basic HTML cleanup (phương án cuối cùng)

Xem Web tools để biết cách setup đầy đủ cho web tool.