有的爬蟲來引用你，有的只來搬語料——8 大 AI 爬蟲分開設定指南

#AI bot #robots.txt #GPTBot #ClaudeBot #PerplexityBot

TL;DR

不是所有 AI 爬蟲都一樣。訓練資料型（GPTBot / ClaudeBot / Google-Extended / CCBot / cohere-ai）跟即時引用型（ChatGPT-User / PerplexityBot）權限可以分開設定。本文整理 8 大爬蟲的差異與一份實用 robots.txt。

為什麼要分開管理？

很多人把「對 AI 開放」一視同仁，但兩種爬蟲意圖完全不同：

訓練資料爬蟲：把你的內容拿去訓練模型。模型訓練後內容會被「消化」，不一定會引用你（也不一定不引用，但弱信號）。
即時引用爬蟲：使用者問問題時，agent 即時來爬你的網站，把內容當作此次回答的引用來源。這個直接影響你的 GEO 引用率。

理論上你應該優先放即時引用、選擇性放訓練。實務上多數網站直接全開或全擋，但分開設定是更聰明的策略。

8 大 AI 爬蟲一覽

User-Agent	公司 / 產品	用途	是否遵守 robots.txt	推薦設定
`GPTBot`	OpenAI	訓練 GPT 模型	是	Allow（除非有版權考量）
`ChatGPT-User`	OpenAI	ChatGPT browse / 即時引用	是	Allow
`ClaudeBot`	Anthropic	訓練 Claude 模型	是	Allow
`anthropic-ai`	Anthropic	舊版 / 通用	是	Allow
`PerplexityBot`	Perplexity AI	搜尋 + 即時引用	是	Allow
`Google-Extended`	Google	訓練 Gemini 模型＋Gemini Apps／Vertex AI 的 grounding	是	Allow
`CCBot`	Common Crawl	開放資料集（被多家 LLM 用作訓練源）	是	Allow
`cohere-ai`	Cohere	訓練 Cohere 模型	是	Allow

注意：Googlebot 與 Bingbot 是傳統搜尋引擎爬蟲，不在 AI 爬蟲名單內，但 Google AI Overviews 的引用走的是 Googlebot＋片段控制指令那條線；Google-Extended 只管 Gemini 訓練與 grounding，不是 AI Overviews 的開關（詳見片段控制拆解）——擋 Googlebot 等於同時擋掉傳統搜尋與 AI Overviews。

Content-Signal：更細緻的權限管理

IETF 最近的 draft-ietf-aipref-content-signal 提案讓你可以分開設定三種用途：

User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no

含義： - search=yes — 允許傳統搜尋索引 - ai-input=yes — 允許 AI 即時引用（ChatGPT browse、Perplexity、AI Overviews） - ai-train=no — 不允許用作訓練資料

geoweb.tw 自家就是這樣設定——歡迎被引用，但保留訓練權限。各 AI 廠商支援度仍在演進中，但這是未來式。

反例：一些常見的設錯

❌ 全擋

User-agent: *
Disallow: /

對 GEO 來說就是「我永遠不要被 AI 引用」。即使你的內容值得被引用，AI 拿不到就 0。

❌ 只擋 AI 訓練但忘了即時引用

User-agent: GPTBot
Disallow: /

但漏了 ChatGPT-User——使用者在 ChatGPT 問問題時，agent 還是會去爬你的網站，但你拿不到訓練語料的長期價值。最差兩頭空。

❌ Disallow 但給 AI 內容空殼

部分網站對 AI 爬蟲的 UA 回 <html></html> 空頁面想騙過去——AI 廠商已經會偵測這類「cloaking」，命中後會永久標記你的網站為「low quality」。老實一點。

如何驗證設定生效

用 curl -A "GPTBot/1.0" https://yoursite.com/ 看回應跟一般瀏覽器一樣
檢查 https://yoursite.com/robots.txt 內容正確
跑免費 GEO 健檢 — 第 8 維度「AI 爬蟲可達性」會逐個顯示哪些 bot 被允許

延伸閱讀

這篇有共鳴嗎？

221 人回應了這篇

討論 27

區
區域行銷SamVIP7 個月前
先收藏robots.txt那段直接複製貼上謝謝
威
威廉Liu會員1 個月前
google-extended跟googlebot要分開那段有點繞我重看三次才懂意思是擋google-extended不影響傳統seo但擋googlebot連ai overviews一起死對吧
威
威廉Liu會員4 個月前
我們是做電商的商品頁如果全開給訓練爬蟲會不會哪天我的產品描述就變成別人AI回答的內容了這樣到底算引流還是被白嫖有點掙扎
牙
牙醫診所小編會員6 個月前
原來ChatGPT-User跟GPTBot是兩隻不一樣的東西==我之前以為擋一隻就全擋了難怪我們診所網站擋了GPTBot結果還是有ChatGPT流量進來orz
P
PM打雜王會員3 個月前
問個蠢問題我照文章那份robots.txt貼了然後跑文末那個健檢第8維度結果還是顯示某幾隻bot沒被允許是我哪裡設錯嗎
- 路
  路過的會員3 個月前
  你檢查一下是不是robots.txt放錯位置一定要在根目錄yoursite.com/robots.txt不能放子目錄。還有大小寫User-agent: GPTBot那個bot名稱別打錯。我之前也是踩到CDN快取舊版robots.txt清一下快取就對了你curl -A那招測一下回應就知道
M
Momo會員1 週前
Content-Signal那段ai-input=yes / ai-train=no看起來很理想但下面自己也寫『各AI廠商支援度仍在演進中』那不就等於現在寫了大部分廠商也不甩== 感覺是未來式畫餅
威
威廉Liu會員2 個月前
說個冷知識curl -A那招我拿來測自己公司網站結果發現工程師根本沒設robots.txt直接404嚇死
竹
竹科工程師會員6 個月前
工程師路過補充一個robots.txt那份如果你網站是SSR才有用純CSR的SPA就算bot進得來抓到的也是空的div#root這個本文沒提到
無
無名氏會員8 個月前
純路過但忍不住問一句這篇是不是最後又要導去geoweb.tw做健檢文末第8維度那個連結==
A
Anna｜品牌行銷會員3 個月前
我們公司法務超緊張一定要ai-train=no不准內容被訓練但又想被即時引用文章那個Content-Signal寫法現在貼上去就生效了嗎
- C
  策略長 Clarence作者2 個月前
  誠實說：那個 `draft-ietf-aipref-content-signal` 還是ietf草案，目前各主流ai引擎支援度不一致，你貼上去不代表每一家都會乖乖照做 😅 所以實務上我會兩條都設，content-signal寫ai-train=no表態，同時robots.txt該擋訓練ua（gptbot/google-extended那些）就直接disallow，別只靠還沒普及的標準。文章那段是給你看方向的，不是說現在貼了就萬無一失
志
志哥會員2 個月前
那個回空殼 <html></html> 騙crawler然後被標low quality笑死想騙ai結果被ai記仇ㄏㄏ
竹
竹科工程師會員2 週前
表格那欄『是否遵守robots.txt』全部都寫『是』但我記得以前有些AI爬蟲根本不甩robots.txt直接硬爬現在真的都乖了嗎
- C
  策略長 Clarence作者2 週前
  現在表上這8隻主流的官方ua是有宣稱遵守沒錯所以本文用robots.txt管它們是有效的。但你的擔心也成立，市面上還有一堆沒掛官方ua、或冒名的爬蟲，robots.txt對那些是君子協定擋不住，要靠waf / 防火牆層級去處理。本文範圍只談會守規矩的那幾隻，不守規矩的是另一個題目了
D
data_nerd_tw會員7 個月前
cohere-ai跟CCBot老實說我從來沒在log看過這兩隻流量超少真的有必要特別列Allow嗎還是只是表格湊八隻好看
學
學校坐牢QQ會員1 個月前
想請教作者文章建議『訓練型爬蟲也Allow』可是如果內容被拿去訓練模型消化完又不一定會引用你那開放訓練到底有什麼好處不是白送嗎還是這種事本來就沒有穩賺不賠的選擇
- C
  策略長 Clarence作者3 週前
  好問題這其實是本文沒講太細的取捨。短答：即時引用（ChatGPT-User / PerplexityBot那欄）一定要開，那個直接決定你會不會被引用；訓練型是弱信號，不保證引用你，但長期模型對你這個品牌/主題有沒有印象，多少有差。我自己的看法是訓練型可開可不開，看你內容有沒有版權壓力，沒有的話我傾向開。逐隻算投報率真的沒必要,記住這個簡化版判斷就夠用:即時引用類全開、訓練型看版權壓力決定,不用把每隻bot都拆開算。
N
newbie2026會員4 個月前
想問一下文章說『擋掉 = 永久從ai推薦消失』這個永久是真的永久嗎還是改回allow之後過一陣子就會重新被收有人實測過嗎qq
路
路過的會員4 個月前
推一個那張兩欄的svg圖（訓練語料vs即時引用）超直覺一看就懂哪些該優先放行
路
路過的會員8 個月前
本文一直強調即時引用爬蟲要放行可是我網站是React純前端bot進來只看到空殼那我robots.txt開好開滿也沒用吧這篇好像預設大家都SSR？
- C
  策略長 Clarence作者5 個月前
  你抓到重點了這篇主軸是"權限"層，沒展開到"渲染"層，但你說的完全對：robots.txt放行只是讓crawler進得來，進來抓到空div#root一樣等於0。純CSR要嘛上SSR / 預渲染，要嘛確保關鍵內容在初始HTML就有。這題值得單獨寫一篇拆retrieval前的渲染問題,先記住這個判斷法:檢視原始碼看得到內文就過關,只看到空殼div就代表這關還沒過。
小
小編會員3 個月前
反例那段說回空殼頁面會被標low quality永久標記這個『永久』有點重是AI廠商官方說的還是你推測的想知道來源
- C
  策略長 Clarence作者2 個月前
  我把話收一下：用詞我寫得太斬釘截鐵了 😅 我沒有官方白皮書背書說永久。實務觀察是各主流AI引擎確實有反cloaking的偵測，命中後信任度會掉、要再爬回來的成本變高，但會不會一輩子翻不了身我不敢保證。重點不變，別對bot跟一般使用者回不同內容，老實做就不用煩惱這個
M
Momo會員1 週前
電商樓上那位+1我也在想商品頁開放訓練的事但我比較好奇即時引用型如果抓我的價格結果我改價了AI還回舊價怎麼辦
- P
  PM打雜王會員1 週前
  電商樓上那位+1，我也在想一樣的事，價格改了AI引用還顯示舊的，客訴要算誰的鍋==有沒有人知道這個延遲大概是多久，還是要看每家引擎自己的節奏，完全沒個準
N
newbie2026會員3 週前
預告說下一篇要寫indexnow為什麼google不支援這個我等很久了拜託快寫

區

區域行銷SamVIP7 個月前

先收藏robots.txt那段直接複製貼上謝謝

威

威廉Liu會員1 個月前

google-extended跟googlebot要分開那段有點繞我重看三次才懂意思是擋google-extended不影響傳統seo但擋googlebot連ai overviews一起死對吧

威廉Liu會員4 個月前

我們是做電商的商品頁如果全開給訓練爬蟲會不會哪天我的產品描述就變成別人AI回答的內容了這樣到底算引流還是被白嫖有點掙扎

牙

牙醫診所小編會員6 個月前

原來ChatGPT-User跟GPTBot是兩隻不一樣的東西==我之前以為擋一隻就全擋了難怪我們診所網站擋了GPTBot結果還是有ChatGPT流量進來orz

PM打雜王會員3 個月前

問個蠢問題我照文章那份robots.txt貼了然後跑文末那個健檢第8維度結果還是顯示某幾隻bot沒被允許是我哪裡設錯嗎

路
路過的會員3 個月前
你檢查一下是不是robots.txt放錯位置一定要在根目錄yoursite.com/robots.txt不能放子目錄。還有大小寫User-agent: GPTBot那個bot名稱別打錯。我之前也是踩到CDN快取舊版robots.txt清一下快取就對了你curl -A那招測一下回應就知道

Momo會員1 週前

Content-Signal那段ai-input=yes / ai-train=no看起來很理想但下面自己也寫『各AI廠商支援度仍在演進中』那不就等於現在寫了大部分廠商也不甩== 感覺是未來式畫餅

威廉Liu會員2 個月前

說個冷知識curl -A那招我拿來測自己公司網站結果發現工程師根本沒設robots.txt直接404嚇死

竹

竹科工程師會員6 個月前

工程師路過補充一個robots.txt那份如果你網站是SSR才有用純CSR的SPA就算bot進得來抓到的也是空的div#root這個本文沒提到

無

無名氏會員8 個月前

純路過但忍不住問一句這篇是不是最後又要導去geoweb.tw做健檢文末第8維度那個連結==

Anna｜品牌行銷會員3 個月前

我們公司法務超緊張一定要ai-train=no不准內容被訓練但又想被即時引用文章那個Content-Signal寫法現在貼上去就生效了嗎

C
策略長 Clarence作者2 個月前
誠實說：那個 `draft-ietf-aipref-content-signal` 還是ietf草案，目前各主流ai引擎支援度不一致，你貼上去不代表每一家都會乖乖照做 😅 所以實務上我會兩條都設，content-signal寫ai-train=no表態，同時robots.txt該擋訓練ua（gptbot/google-extended那些）就直接disallow，別只靠還沒普及的標準。文章那段是給你看方向的，不是說現在貼了就萬無一失

志

志哥會員2 個月前

那個回空殼 <html></html> 騙crawler然後被標low quality笑死想騙ai結果被ai記仇ㄏㄏ

竹科工程師會員2 週前

表格那欄『是否遵守robots.txt』全部都寫『是』但我記得以前有些AI爬蟲根本不甩robots.txt直接硬爬現在真的都乖了嗎

C
策略長 Clarence作者2 週前
現在表上這8隻主流的官方ua是有宣稱遵守沒錯所以本文用robots.txt管它們是有效的。但你的擔心也成立，市面上還有一堆沒掛官方ua、或冒名的爬蟲，robots.txt對那些是君子協定擋不住，要靠waf / 防火牆層級去處理。本文範圍只談會守規矩的那幾隻，不守規矩的是另一個題目了

data_nerd_tw會員7 個月前

cohere-ai跟CCBot老實說我從來沒在log看過這兩隻流量超少真的有必要特別列Allow嗎還是只是表格湊八隻好看

學

學校坐牢QQ會員1 個月前

想請教作者文章建議『訓練型爬蟲也Allow』可是如果內容被拿去訓練模型消化完又不一定會引用你那開放訓練到底有什麼好處不是白送嗎還是這種事本來就沒有穩賺不賠的選擇

C
策略長 Clarence作者3 週前
好問題這其實是本文沒講太細的取捨。短答：即時引用（ChatGPT-User / PerplexityBot那欄）一定要開，那個直接決定你會不會被引用；訓練型是弱信號，不保證引用你，但長期模型對你這個品牌/主題有沒有印象，多少有差。我自己的看法是訓練型可開可不開，看你內容有沒有版權壓力，沒有的話我傾向開。逐隻算投報率真的沒必要,記住這個簡化版判斷就夠用:即時引用類全開、訓練型看版權壓力決定,不用把每隻bot都拆開算。

newbie2026會員4 個月前

想問一下文章說『擋掉 = 永久從ai推薦消失』這個永久是真的永久嗎還是改回allow之後過一陣子就會重新被收有人實測過嗎qq

路

路過的會員4 個月前

推一個那張兩欄的svg圖（訓練語料vs即時引用）超直覺一看就懂哪些該優先放行

路過的會員8 個月前

本文一直強調即時引用爬蟲要放行可是我網站是React純前端bot進來只看到空殼那我robots.txt開好開滿也沒用吧這篇好像預設大家都SSR？

C
策略長 Clarence作者5 個月前
你抓到重點了這篇主軸是"權限"層，沒展開到"渲染"層，但你說的完全對：robots.txt放行只是讓crawler進得來，進來抓到空div#root一樣等於0。純CSR要嘛上SSR / 預渲染，要嘛確保關鍵內容在初始HTML就有。這題值得單獨寫一篇拆retrieval前的渲染問題,先記住這個判斷法:檢視原始碼看得到內文就過關,只看到空殼div就代表這關還沒過。

小

小編會員3 個月前

反例那段說回空殼頁面會被標low quality永久標記這個『永久』有點重是AI廠商官方說的還是你推測的想知道來源

C
策略長 Clarence作者2 個月前
我把話收一下：用詞我寫得太斬釘截鐵了 😅 我沒有官方白皮書背書說永久。實務觀察是各主流AI引擎確實有反cloaking的偵測，命中後信任度會掉、要再爬回來的成本變高，但會不會一輩子翻不了身我不敢保證。重點不變，別對bot跟一般使用者回不同內容，老實做就不用煩惱這個

電商樓上那位+1我也在想商品頁開放訓練的事但我比較好奇即時引用型如果抓我的價格結果我改價了AI還回舊價怎麼辦

P
PM打雜王會員1 週前
電商樓上那位+1，我也在想一樣的事，價格改了AI引用還顯示舊的，客訴要算誰的鍋==有沒有人知道這個延遲大概是多久，還是要看每家引擎自己的節奏，完全沒個準

newbie2026會員3 週前

預告說下一篇要寫indexnow為什麼google不支援這個我等很久了拜託快寫