別擋錯一隻 bot——你可能正親手把自己從 AI 答案裡刪掉

一個最貴的誤會：「擋 AI」不是只有一個開關

「我不想讓 AI 拿我的內容去訓練」——這個念頭很合理，於是很多人去 robots.txt 裡把 AI 相關的爬蟲一律封掉。問題是：同一家 AI 公司，往往派出不只一隻爬蟲，而且各自做完全不同的事。 一刀全擋，常常連「讓你被 AI 引用」的那隻也一起砍了。

結果是最諷刺的一種失敗：你以為自己只是拒絕被訓練，實際上是把自己從 AI 的答案裡刪掉——而且因為看不到，你完全不知道。

訓練 bot 和搜尋 bot，是兩隻不同的爬蟲

主流 AI 公司大多把爬蟲拆成兩類用途：一類抓內容去訓練模型，一類在使用者當下提問時即時去抓、然後引用你。擋前者不影響能見度；擋後者，等於退出那家引擎的答案。

AI 公司	訓練用（擋了影響小）	搜尋／即時引用用（擋了你會消失）
OpenAI	`GPTBot`	`OAI-SearchBot`、`ChatGPT-User`
Anthropic	`ClaudeBot`、`anthropic-ai`	`Claude-User`、`Claude-SearchBot`
Perplexity	`PerplexityBot`	`Perplexity-User`
Google	`Google-Extended`（名義上退出 Gemini 訓練——例外，見下段）	`Googlebot`（擋了連搜尋一起沒）
Apple	`Applebot-Extended`	`Applebot`

重點不是背下這張表，而是理解「擋訓練」和「保留能見度」可以同時做到——前提是你分得清哪隻是哪隻。

例外：Google-Extended 不是乾淨的「訓練開關」

上表有一格要特別拉出來講。Google 官方的說法是：Google-Extended 只控制內容能不能拿去訓練 Gemini，擋掉它不影響已被索引的內容出現在 AI Overviews。但一份大規模量測研究（SIGIR 2026，arXiv:2604.27790，2025 年 12 月資料）比對了上萬則查詢後發現：封鎖 Google-Extended 的網站，實際上明顯較不容易被 AI Overviews 引用——與官方說法相反。

原因沒有定論，但對你的意義很清楚：把 Google-Extended 當成「擋了影響小」的純訓練開關，是拿自己的 AIO 能見度在賭。只要你在乎 AI 能見度，Google-Extended 建議放行；真的要退出訓練，從其他家的訓練 UA 下手。

擋錯的代價：從 AI 答案裡「被消失」

傳統 SEO 擋錯爬蟲，你還會在排名掉的時候警覺。但 AI 引用是看不到的：使用者問了問題、AI 給了答案、裡面沒有你——你不會收到任何通知，後台也不會有那筆「沒發生的曝光」。

這就是為什麼擋錯 AI bot 特別危險：它沒有警報。等你發現「怎麼同業在 ChatGPT 被提到、我都沒有」，往往已經錯過很久。

`noai` 跟 robots.txt 不是同一件事

順帶澄清一個常見混淆：頁面上的 noai / noimageai meta 標籤、和 robots.txt 的爬蟲規則，是兩套不同機制。前者是請求「別拿這頁去訓練」，後者是控制「哪隻爬蟲能不能抓哪些路徑」。兩者都靠爬蟲自願遵守、都不是強制標準，而且都可能因為設定太粗而誤傷你的能見度。

那到底該怎麼設

原則一句話：擋訓練、放行搜尋。

想退出訓練，就針對訓練用的 UA（GPTBot、ClaudeBot、Applebot-Extended…）設規則——Google-Extended 是例外，擋它實測會傷 AIO 能見度（見上段）；
務必放行搜尋／即時引用用的 UA（OAI-SearchBot、Claude-User、Perplexity-User…），否則你等於主動退出 AI 答案；
改完用各家的爬蟲文件對照一次，確認你擋的是你以為的那隻。

各家完整的爬蟲清單與規則差異，見前篇：8 大 AI 爬蟲規則差異與最佳設定。

為什麼這件事不能「設一次就忘」

AI 公司會新增、改名爬蟲（這兩年已經換過好幾輪），robots.txt 一個字打錯、或 Cloudflare 的一個預設選項，就可能讓整站對某隻 bot 關門。加上 AI 引用的失分沒有警報，這不是「設定一次」的工作，而是要持續對照最新爬蟲清單、定期驗證的體質維護——也正是這種「看不到、又會慢慢流血」的問題，最需要有人固定盯著，而不是等出事才查。