← 部落格

Content-Signal 協議:在 robots.txt 裡分開設定 search / ai-input / ai-train 權限

#GEO #robots.txt #IETF #Content-Signal #AI training

過去 robots.txt 的二元局限

robots.txt 自 1994 年存在到現在,30 年沒變過核心模型:

User-agent: SomeBot
Allow: /  或  Disallow: /

對單一 bot 只能「完全允許」或「完全禁止」。但 AI 時代有三種完全不同的爬蟲意圖:

  1. 傳統搜尋(Googlebot、Bingbot)—索引給排名用
  2. AI 即時引用(ChatGPT-User、PerplexityBot)—使用者問問題時即時抓
  3. AI 訓練(GPTBot、ClaudeBot、Google-Extended)—餵下一代模型訓練語料

對品牌來說,三者的策略可能完全不同:

舊 robots.txt 沒辦法精細區分。要嘛全允許(連訓練都送出去),要嘛全擋(連即時引用都進不來)。

Content-Signal 協議怎麼解這個問題

IETF 在 2025 年提出的 draft-ietf-aipref-content-signal 是這個問題的標準化嘗試。

它在 robots.txt 中加入新指令 Content-Signal

User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /

三個獨立旗標:

每個旗標可獨立設 yesnoAllow / Disallow 仍然有效——是疊加而非取代。

geoweb.tw 自家 robots.txt 怎麼寫

我們自家的策略是:歡迎被引用,但保留訓練權限。完整 robots.txt 公開在 https://geoweb.tw/robots.txt:

User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /
Disallow: /api/

User-agent: GPTBot
Allow: /
Disallow: /api/

User-agent: ChatGPT-User
Allow: /
Disallow: /api/

# ...其他 AI bot 同樣設定...

Sitemap: https://geoweb.tw/sitemap.xml

注意:

廠商支援度(2026 年 4 月現況)

廠商 支援 Content-Signal? 備註
Microsoft (Bing) 🟡 有限支援 search 旗標被遵守;ai-train 仍在實驗
OpenAI 🟡 部分 ai-train=no 對 GPTBot 有效;ai-input 對 ChatGPT-User 暫無明確聲明
Anthropic 🟡 部分 對 ClaudeBot 訓練意圖尊重 robots.txt + Content-Signal
Google ❌ 未支援 仍走 Google-Extended user-agent 二元控制
Perplexity 🟡 試驗中 公司聲明會逐步加入
其他 不確定 多數新爬蟲跟 spec 進度

結論:Content-Signal 仍是過渡期協議——支援率不高但持續成長。做了不會錯——支援的廠商會遵守,不支援的廠商會 fallback 到 user-agent 級規則(你 robots.txt 仍有 GPTBot / ClaudeBot 等明確 allow/disallow)。

實作建議

1. 雙保險

不要只靠 Content-Signal,也要在 user-agent 層級寫明確規則:

User-agent: *
Content-Signal: search=yes, ai-input=yes, ai-train=no
Allow: /

# 對未來新出現的 AI bot 雙保險
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# ...

2. ai-train 的策略選擇

yes 還是 no 視品牌情況:

情境 建議
B2C 想最大化曝光 ai-train=yes(被訓練 = 進 LLM 內隱知識,長期推薦力強)
B2B 內容是核心競爭力 ai-train=no(保留版權,讓客戶找你而非看 AI 摘要)
媒體 / 出版業 ai-train=no(多家媒體已對 AI 廠商集體興訟)
個人品牌 通常 yes(被訓練成 LLM 知識的一部分對個人品牌長期有利)

3. 監控

每季檢查一次:

健檢能告訴你什麼

GeoWeb 的「AI 爬蟲可達性」維度會:

👉 免費跑一次健檢

如果你想完整部署 Content-Signal + 持續維護 + 季度更新,這是 GEO 顧問服務涵蓋範圍:[email protected]


GEO 深度系列 #16。前一篇:「12 維度逐項拆解:語言自然度的 7 個子指標」