一個最貴的誤會:「擋 AI」不是只有一個開關
「我不想讓 AI 拿我的內容去訓練」——這個念頭很合理,於是很多人去 robots.txt 裡把 AI 相關的爬蟲一律封掉。問題是:同一家 AI 公司,往往派出不只一隻爬蟲,而且各自做完全不同的事。 一刀全擋,常常連「讓你被 AI 引用」的那隻也一起砍了。
結果是最諷刺的一種失敗:你以為自己只是拒絕被訓練,實際上是把自己從 AI 的答案裡刪掉——而且因為看不到,你完全不知道。
訓練 bot 和搜尋 bot,是兩隻不同的爬蟲
主流 AI 公司大多把爬蟲拆成兩類用途:一類抓內容去訓練模型,一類在使用者當下提問時即時去抓、然後引用你。擋前者不影響能見度;擋後者,等於退出那家引擎的答案。
| AI 公司 | 訓練用(擋了影響小) | 搜尋/即時引用用(擋了你會消失) |
|---|---|---|
| OpenAI | GPTBot |
OAI-SearchBot、ChatGPT-User |
| Anthropic | ClaudeBot、anthropic-ai |
Claude-User、Claude-SearchBot |
| Perplexity | PerplexityBot |
Perplexity-User |
Google-Extended(退出 Gemini 訓練) |
Googlebot(擋了連搜尋一起沒) |
|
| Apple | Applebot-Extended |
Applebot |
重點不是背下這張表,而是理解「擋訓練」和「保留能見度」可以同時做到——前提是你分得清哪隻是哪隻。
擋錯的代價:從 AI 答案裡「被消失」
傳統 SEO 擋錯爬蟲,你還會在排名掉的時候警覺。但 AI 引用是看不到的:使用者問了問題、AI 給了答案、裡面沒有你——你不會收到任何通知,後台也不會有那筆「沒發生的曝光」。
這就是為什麼擋錯 AI bot 特別危險:它沒有警報。等你發現「怎麼同業在 ChatGPT 被提到、我都沒有」,往往已經錯過很久。
noai 跟 robots.txt 不是同一件事
順帶澄清一個常見混淆:頁面上的 noai / noimageai meta 標籤、和 robots.txt 的爬蟲規則,是兩套不同機制。前者是請求「別拿這頁去訓練」,後者是控制「哪隻爬蟲能不能抓哪些路徑」。兩者都靠爬蟲自願遵守、都不是強制標準,而且都可能因為設定太粗而誤傷你的能見度。
那到底該怎麼設
原則一句話:擋訓練、放行搜尋。
- 想退出訓練,就針對訓練用的 UA(
GPTBot、ClaudeBot、Google-Extended、Applebot-Extended…)設規則; - 務必放行搜尋/即時引用用的 UA(
OAI-SearchBot、Claude-User、Perplexity-User…),否則你等於主動退出 AI 答案; - 改完用各家的爬蟲文件對照一次,確認你擋的是你以為的那隻。
各家完整的爬蟲清單與規則差異,見前篇:8 大 AI 爬蟲規則差異與最佳設定。
為什麼這件事不能「設一次就忘」
AI 公司會新增、改名爬蟲(這兩年已經換過好幾輪),robots.txt 一個字打錯、或 Cloudflare 的一個預設選項,就可能讓整站對某隻 bot 關門。加上 AI 引用的失分沒有警報,這不是「設定一次」的工作,而是要持續對照最新爬蟲清單、定期驗證的體質維護——也正是這種「看不到、又會慢慢流血」的問題,最需要有人固定盯著,而不是等出事才查。
等等 那如果我亂寫一通然後一直發文 crawler不就抓到一堆垃圾 google不是會擋嗎 我有點不信光靠這個就會被AI引用欸 感覺沒這麼簡單 有人實際做出成績的嗎想看case
對啊量產垃圾現在反而扣分,不是發越多越好。我們公司試過狂發,AI 引用率根本沒動,後來砍量、改成把幾個核心問題寫深寫清楚才有差。不是亂寫就會中這點我可以作證==。
推 先收藏 之後再看(已收藏第87篇 然後都沒看ㄏㄏ
我們公司大概搞了快一年才有一點點感覺,前面半年完全看不出效果差點被砍預算,老實說沒有文章講得那麼快那麼神。不是說沒用,是真的要熬,期待管理一下比較好,不然客戶被你們前面那種美好敘事騙進來後面落差很大又要罵人 QQ
幫補一個工程面的點給樓上工程師看:如果你站是純 CSR 的 SPA,很多 AI 的 crawler 根本拿不到 render 後的內容,抓到一包空 div 就走了,這跟 google 早就會跑 JS 是兩回事,目前不少 bot 還是只吃 initial HTML。所以該上 SSR 還是要上,不然你 schema 寫再漂亮人家根本沒看到。這也是為什麼有些人覺得自己明明都有做卻完全沒被引用,先去看 view-source 比較實在
欸不是 那如果我們連官網都沒有是不是先別談這個ㄏㄏ
說真的啦 每隔幾年就一個新名詞出來,前幾年喊SEO、後來喊內容行銷、再來什麼私域流量,現在又GEO。小弟在房仲業待二十年了看太多了,到最後還不是叫你花錢做服務ㄏㄏ 不是說文章不好,寫得是有條理,但這種「黑帽會失效」的講法每篇都馬這樣寫,看看就好
欸不是,所以我到底要怎麼讓ChatGPT講到我?文章看完還是不知道實際要幹嘛,每段都很有道理但都很抽象。可以給個具體一點的例子嗎 像我是賣手工皂的那種小店要從哪開始
欸不是 我認真問 那像我們這種做工業零件的 b2b 客戶根本不會去問 chatgpt 吧 這種還有差嗎 還是說只有 b2c 用得到==
額…所以結構化資料到底是要工程師弄還是行銷自己能搞
欸不是 每次看到這種文章最後都會導到 不如交給專業託管 ㄏㄏ 是不是又要賣服務了 不過寫得是真的有料啦 這點我服 標記一下我老闆叫他出錢
QQ 看完覺得我們SEO白做了
欸不是 樓上酸歸酸 但我覺得這篇講structured data那段是真的有料。我自己3C開箱寫了五六年痞客邦+自架wordpress,去年開始發現有些長尾的問題AI會直接引用我的內容(雖然沒掛我名字氣死)後來查了一下就是因為我有亂搞schema標記product跟review。所以方向我認同,只是文章把它講得太輕鬆,實際弄超級麻煩
笑死 留言區一半都在問是不是業配 一半在哭沒人力 我懂你們 但講真的有些東西早點做總比晚做好 我健身房去年沒理這塊 今年新開的同行直接在AI推薦名單把我蓋過去 那種感覺才是真的QQ orz
母湯喔 哪有那麼神 我自己亂寫一寫chatgpt也會提到我的店啊 是要花錢請人幹嘛
你會被提到是好事,代表你已經有一些信號了 👍 但「偶爾被提到」跟「在關鍵問題上穩定被選為答案」是兩回事。現在亂寫也會中,是因為競爭者還少;等你同業都開始整理、雜訊一多,沒整理過體質的就會先被洗掉。不是要嚇你花錢,是想說別把單次結果當成穩定。
笑死 我老闆昨天才轉這篇給我說我們也要做GEO 結果他連我們官網https都還沒裝好是在哈囉
是在哈囉 整篇看完才發現我連官網都沒有 orz 先去生一個再說
笑死 看到留言一堆人在工商自己的服務 是在哈囉
schema 那段 make sense 但提醒一下 JSON-LD 你 mark 了不代表會被採信,跟內容對不上反而扣分,別把它當成填表格交差就好
我以為這篇要教我怎麼讓我的IG被推爆 結果不是喔 是講官網的 那我沒網站是不是就end了
推 先收藏 改天再看
沒那麼絕對吧==我覺得還是要看產業欸,B2B跟電商完全兩個世界