TL;DR
不是所有 AI 爬蟲都一樣。訓練資料型(GPTBot / ClaudeBot / Google-Extended / CCBot / cohere-ai)跟即時引用型(ChatGPT-User / PerplexityBot)權限可以分開設定。本文整理 8 大爬蟲的差異與一份實用 robots.txt。
為什麼要分開管理?
很多人把「對 AI 開放」一視同仁,但兩種爬蟲意圖完全不同:
- 訓練資料爬蟲:把你的內容拿去訓練模型。模型訓練後內容會被「消化」,不一定會引用你(也不一定不引用,但弱信號)。
- 即時引用爬蟲:使用者問問題時,agent 即時來爬你的網站,把內容當作此次回答的引用來源。這個直接影響你的 GEO 引用率。
理論上你應該優先放即時引用、選擇性放訓練。實務上多數網站直接全開或全擋,但分開設定是更聰明的策略。
8 大 AI 爬蟲一覽
| User-Agent | 公司 / 產品 | 用途 | 是否遵守 robots.txt | 推薦設定 |
|---|---|---|---|---|
GPTBot |
OpenAI | 訓練 GPT 模型 | 是 | Allow(除非有版權考量) |
ChatGPT-User |
OpenAI | ChatGPT browse / 即時引用 | 是 | Allow |
ClaudeBot |
Anthropic | 訓練 Claude 模型 | 是 | Allow |
anthropic-ai |
Anthropic | 舊版 / 通用 | 是 | Allow |
PerplexityBot |
Perplexity AI | 搜尋 + 即時引用 | 是 | Allow |
Google-Extended |
訓練 Gemini / Bard / AI Overviews 訓練資料 | 是 | Allow | |
CCBot |
Common Crawl | 開放資料集(被多家 LLM 用作訓練源) | 是 | Allow |
cohere-ai |
Cohere | 訓練 Cohere 模型 | 是 | Allow |
注意:
Googlebot與Bingbot是傳統搜尋引擎爬蟲,不在 AI 爬蟲名單內,但 Google AI Overviews 用的是Googlebot+ 訓練資料來自Google-Extended的組合策略——擋 Googlebot 等於擋傳統搜尋。
推薦的 robots.txt(2026 年版)
把下面這份貼到 https://yoursite.com/robots.txt:
# 開放所有 AI 爬蟲,但保護 /api/ 等內部端點
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
# 主要 AI / LLM 爬蟲——明確 allow(避免某些網站把 *= disallow 連帶擋掉)
User-agent: GPTBot
Allow: /
Disallow: /api/
User-agent: ChatGPT-User
Allow: /
Disallow: /api/
User-agent: ClaudeBot
Allow: /
Disallow: /api/
User-agent: anthropic-ai
Allow: /
Disallow: /api/
User-agent: PerplexityBot
Allow: /
Disallow: /api/
User-agent: Google-Extended
Allow: /
Disallow: /api/
User-agent: CCBot
Allow: /
Disallow: /api/
User-agent: cohere-ai
Allow: /
Disallow: /api/
Sitemap: https://yoursite.com/sitemap.xml
Content-Signal:更細緻的權限管理
IETF 最近的 draft-ietf-aipref-content-signal 提案讓你可以分開設定三種用途:
User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
含義:
- search=yes — 允許傳統搜尋索引
- ai-input=yes — 允許 AI 即時引用(ChatGPT browse、Perplexity、AI Overviews)
- ai-train=no — 不允許用作訓練資料
geoweb.tw 自家就是這樣設定——歡迎被引用,但保留訓練權限。各 AI 廠商支援度仍在演進中,但這是未來式。
反例:一些常見的設錯
❌ 全擋
User-agent: *
Disallow: /
對 GEO 來說就是「我永遠不要被 AI 引用」。即使你的內容值得被引用,AI 拿不到就 0。
❌ 只擋 AI 訓練但忘了即時引用
User-agent: GPTBot
Disallow: /
但漏了 ChatGPT-User——使用者在 ChatGPT 問問題時,agent 還是會去爬你的網站,但你拿不到訓練語料的長期價值。最差兩頭空。
❌ Disallow 但給 AI 內容空殼
部分網站對 AI 爬蟲的 UA 回 <html></html> 空頁面想騙過去——AI 廠商已經會偵測這類「cloaking」,命中後會永久標記你的網站為「low quality」。老實一點。
如何驗證設定生效
- 用
curl -A "GPTBot/1.0" https://yoursite.com/看回應跟一般瀏覽器一樣 - 檢查
https://yoursite.com/robots.txt內容正確 - 跑 免費 GEO 健檢 — 第 8 維度「AI 爬蟲可達性」會逐個顯示哪些 bot 被允許
下一篇預告:什麼是 IndexNow 協議,以及為什麼 Google 沒支援。