← 技術文章 別擋錯一隻 bot——你可能正親手把自己從 AI 答案裡刪掉
2 分鐘閱讀417 次閱讀

別擋錯一隻 bot——你可能正親手把自己從 AI 答案裡刪掉

#GEO #AI crawler #robots.txt #GPTBot #AI visibility

一個最貴的誤會:「擋 AI」不是只有一個開關

「我不想讓 AI 拿我的內容去訓練」——這個念頭很合理,於是很多人去 robots.txt 裡把 AI 相關的爬蟲一律封掉。問題是:同一家 AI 公司,往往派出不只一隻爬蟲,而且各自做完全不同的事。 一刀全擋,常常連「讓你被 AI 引用」的那隻也一起砍了。

結果是最諷刺的一種失敗:你以為自己只是拒絕被訓練,實際上是把自己從 AI 的答案裡刪掉——而且因為看不到,你完全不知道。

訓練 bot 和搜尋 bot,是兩隻不同的爬蟲

主流 AI 公司大多把爬蟲拆成兩類用途:一類抓內容去訓練模型,一類在使用者當下提問時即時去抓、然後引用你。擋前者不影響能見度;擋後者,等於退出那家引擎的答案。

AI 公司 訓練用(擋了影響小) 搜尋/即時引用用(擋了你會消失)
OpenAI GPTBot OAI-SearchBotChatGPT-User
Anthropic ClaudeBotanthropic-ai Claude-UserClaude-SearchBot
Perplexity PerplexityBot Perplexity-User
Google Google-Extended(退出 Gemini 訓練) Googlebot(擋了連搜尋一起沒)
Apple Applebot-Extended Applebot

重點不是背下這張表,而是理解「擋訓練」和「保留能見度」可以同時做到——前提是你分得清哪隻是哪隻。

擋錯的代價:從 AI 答案裡「被消失」

傳統 SEO 擋錯爬蟲,你還會在排名掉的時候警覺。但 AI 引用是看不到的:使用者問了問題、AI 給了答案、裡面沒有你——你不會收到任何通知,後台也不會有那筆「沒發生的曝光」。

這就是為什麼擋錯 AI bot 特別危險:它沒有警報。等你發現「怎麼同業在 ChatGPT 被提到、我都沒有」,往往已經錯過很久。

noai 跟 robots.txt 不是同一件事

順帶澄清一個常見混淆:頁面上的 noai / noimageai meta 標籤、和 robots.txt 的爬蟲規則,是兩套不同機制。前者是請求「別拿這頁去訓練」,後者是控制「哪隻爬蟲能不能抓哪些路徑」。兩者都靠爬蟲自願遵守、都不是強制標準,而且都可能因為設定太粗而誤傷你的能見度

那到底該怎麼設

原則一句話:擋訓練、放行搜尋

各家完整的爬蟲清單與規則差異,見前篇:8 大 AI 爬蟲規則差異與最佳設定

為什麼這件事不能「設一次就忘」

AI 公司會新增、改名爬蟲(這兩年已經換過好幾輪),robots.txt 一個字打錯、或 Cloudflare 的一個預設選項,就可能讓整站對某隻 bot 關門。加上 AI 引用的失分沒有警報,這不是「設定一次」的工作,而是要持續對照最新爬蟲清單、定期驗證的體質維護——也正是這種「看不到、又會慢慢流血」的問題,最需要有人固定盯著,而不是等出事才查。

這篇有共鳴嗎?

24 人回應了這篇

討論 23