← 部落格

GPTBot / ClaudeBot / PerplexityBot — 8 大 AI 爬蟲規則差異與最佳設定

#AI bot #robots.txt #GPTBot #ClaudeBot #PerplexityBot

TL;DR

不是所有 AI 爬蟲都一樣。訓練資料型(GPTBot / ClaudeBot / Google-Extended / CCBot / cohere-ai)跟即時引用型(ChatGPT-User / PerplexityBot)權限可以分開設定。本文整理 8 大爬蟲的差異與一份實用 robots.txt。


為什麼要分開管理?

很多人把「對 AI 開放」一視同仁,但兩種爬蟲意圖完全不同:

理論上你應該優先放即時引用、選擇性放訓練。實務上多數網站直接全開或全擋,但分開設定是更聰明的策略。


8 大 AI 爬蟲一覽

User-Agent 公司 / 產品 用途 是否遵守 robots.txt 推薦設定
GPTBot OpenAI 訓練 GPT 模型 Allow(除非有版權考量)
ChatGPT-User OpenAI ChatGPT browse / 即時引用 Allow
ClaudeBot Anthropic 訓練 Claude 模型 Allow
anthropic-ai Anthropic 舊版 / 通用 Allow
PerplexityBot Perplexity AI 搜尋 + 即時引用 Allow
Google-Extended Google 訓練 Gemini / Bard / AI Overviews 訓練資料 Allow
CCBot Common Crawl 開放資料集(被多家 LLM 用作訓練源) Allow
cohere-ai Cohere 訓練 Cohere 模型 Allow

注意GooglebotBingbot 是傳統搜尋引擎爬蟲,不在 AI 爬蟲名單內,但 Google AI Overviews 用的是 Googlebot + 訓練資料來自 Google-Extended 的組合策略——擋 Googlebot 等於擋傳統搜尋。


推薦的 robots.txt(2026 年版)

把下面這份貼到 https://yoursite.com/robots.txt

# 開放所有 AI 爬蟲,但保護 /api/ 等內部端點
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/

# 主要 AI / LLM 爬蟲——明確 allow(避免某些網站把 *= disallow 連帶擋掉)
User-agent: GPTBot
Allow: /
Disallow: /api/

User-agent: ChatGPT-User
Allow: /
Disallow: /api/

User-agent: ClaudeBot
Allow: /
Disallow: /api/

User-agent: anthropic-ai
Allow: /
Disallow: /api/

User-agent: PerplexityBot
Allow: /
Disallow: /api/

User-agent: Google-Extended
Allow: /
Disallow: /api/

User-agent: CCBot
Allow: /
Disallow: /api/

User-agent: cohere-ai
Allow: /
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

Content-Signal:更細緻的權限管理

IETF 最近的 draft-ietf-aipref-content-signal 提案讓你可以分開設定三種用途:

User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no

含義: - search=yes — 允許傳統搜尋索引 - ai-input=yes — 允許 AI 即時引用(ChatGPT browse、Perplexity、AI Overviews) - ai-train=no允許用作訓練資料

geoweb.tw 自家就是這樣設定——歡迎被引用,但保留訓練權限。各 AI 廠商支援度仍在演進中,但這是未來式。


反例:一些常見的設錯

❌ 全擋

User-agent: *
Disallow: /

對 GEO 來說就是「我永遠不要被 AI 引用」。即使你的內容值得被引用,AI 拿不到就 0。

❌ 只擋 AI 訓練但忘了即時引用

User-agent: GPTBot
Disallow: /

但漏了 ChatGPT-User——使用者在 ChatGPT 問問題時,agent 還是會去爬你的網站,但你拿不到訓練語料的長期價值。最差兩頭空。

❌ Disallow 但給 AI 內容空殼

部分網站對 AI 爬蟲的 UA 回 <html></html> 空頁面想騙過去——AI 廠商已經會偵測這類「cloaking」,命中後會永久標記你的網站為「low quality」。老實一點


如何驗證設定生效

  1. curl -A "GPTBot/1.0" https://yoursite.com/ 看回應跟一般瀏覽器一樣
  2. 檢查 https://yoursite.com/robots.txt 內容正確
  3. 免費 GEO 健檢 — 第 8 維度「AI 爬蟲可達性」會逐個顯示哪些 bot 被允許

下一篇預告:什麼是 IndexNow 協議,以及為什麼 Google 沒支援。