過去 robots.txt 的二元局限
robots.txt 自 1994 年存在到現在,30 年沒變過核心模型:
User-agent: SomeBot
Allow: / 或 Disallow: /
對單一 bot 只能「完全允許」或「完全禁止」。但 AI 時代有三種完全不同的爬蟲意圖:
- 傳統搜尋(Googlebot、Bingbot)—索引給排名用
- AI 即時引用(ChatGPT-User、PerplexityBot)—使用者問問題時即時抓
- AI 訓練(GPTBot、ClaudeBot、Google-Extended)—餵下一代模型訓練語料
對品牌來說,三者的策略可能完全不同:
- 完全歡迎傳統搜尋(影響 SEO)
- 歡迎 AI 即時引用(直接影響 GEO 引用率)
- 不希望內容被當訓練語料(智財考量、品牌想保留控制權)
舊 robots.txt 沒辦法精細區分。要嘛全允許(連訓練都送出去),要嘛全擋(連即時引用都進不來)。
Content-Signal 協議怎麼解這個問題
IETF 在 2025 年提出的 draft-ietf-aipref-content-signal 是這個問題的標準化嘗試。
它在 robots.txt 中加入新指令 Content-Signal:
User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /
三個獨立旗標:
search— 允許傳統搜尋索引(Google、Bing 等)ai-input— 允許作為 AI 引擎即時引用來源(ChatGPT browse、Perplexity)ai-train— 允許作為 AI 訓練資料
每個旗標可獨立設 yes 或 no,Allow / Disallow 仍然有效——是疊加而非取代。
geoweb.tw 自家 robots.txt 怎麼寫
我們自家的策略是:歡迎被引用,但保留訓練權限。完整 robots.txt 公開在 https://geoweb.tw/robots.txt:
User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /
Disallow: /api/
User-agent: GPTBot
Allow: /
Disallow: /api/
User-agent: ChatGPT-User
Allow: /
Disallow: /api/
# ...其他 AI bot 同樣設定...
Sitemap: https://geoweb.tw/sitemap.xml
注意:
*行設了 Content-Signal——這是「對所有 bot 的預設」- 個別 AI bot 行不設 Content-Signal——繼承上面的
*預設 Disallow: /api/保護內部端點不被任何 bot 抓
廠商支援度(2026 年 4 月現況)
| 廠商 | 支援 Content-Signal? | 備註 |
|---|---|---|
| Microsoft (Bing) | 🟡 有限支援 | search 旗標被遵守;ai-train 仍在實驗 |
| OpenAI | 🟡 部分 | ai-train=no 對 GPTBot 有效;ai-input 對 ChatGPT-User 暫無明確聲明 |
| Anthropic | 🟡 部分 | 對 ClaudeBot 訓練意圖尊重 robots.txt + Content-Signal |
| ❌ 未支援 | 仍走 Google-Extended user-agent 二元控制 |
|
| Perplexity | 🟡 試驗中 | 公司聲明會逐步加入 |
| 其他 | 不確定 | 多數新爬蟲跟 spec 進度 |
結論:Content-Signal 仍是過渡期協議——支援率不高但持續成長。做了不會錯——支援的廠商會遵守,不支援的廠商會 fallback 到 user-agent 級規則(你 robots.txt 仍有 GPTBot / ClaudeBot 等明確 allow/disallow)。
實作建議
1. 雙保險
不要只靠 Content-Signal,也要在 user-agent 層級寫明確規則:
User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /
# 對未來新出現的 AI bot 雙保險
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# ...
2. ai-train 的策略選擇
選 yes 還是 no 視品牌情況:
| 情境 | 建議 |
|---|---|
| B2C 想最大化曝光 | ai-train=yes(被訓練 = 進 LLM 內隱知識,長期推薦力強) |
| B2B 內容是核心競爭力 | ai-train=no(保留版權,讓客戶找你而非看 AI 摘要) |
| 媒體 / 出版業 | ai-train=no(多家媒體已對 AI 廠商集體興訟) |
| 個人品牌 | 通常 yes(被訓練成 LLM 知識的一部分對個人品牌長期有利) |
3. 監控
每季檢查一次:
- robots.txt 裡的 user-agent 規則是否含括所有新出現的 AI bot
- AI 廠商有沒有更新 Content-Signal 支援
- 你的網站是否被某些 bot 「忽視 Content-Signal」(透過 server log 觀察)
健檢能告訴你什麼
GeoWeb 的「AI 爬蟲可達性」維度會:
- 偵測你 robots.txt 是否含 Content-Signal 指令
- 列出每個主流 AI bot 對你網站的存取權限
- 提示是否有 bot 被誤擋
- 提示 IndexNow / sitemap 配套是否齊全
如果你想完整部署 Content-Signal + 持續維護 + 季度更新,這是 GEO 顧問服務涵蓋範圍:[email protected]
GEO 深度系列 #16。前一篇:「12 維度逐項拆解:語言自然度的 7 個子指標」