為什麼有些網站，AI 永遠不引用？拆開挑選來源的 4 道關卡

#GEO #AI search #RAG #citation

AI 不是「閱讀」你的網站，而是在「萃取」它

多數人以為 AI 搜尋的引用流程是：

「AI 看完整篇文章 → 評估品質 → 決定要不要引用」

錯。真實流程不是這樣。AI 不會「讀」整篇——它在四個獨立步驟中篩出你的內容能不能用。如果中間任何一步出局，後面再怎麼好都白搭。

下面把這四個步驟拆給你看。

步驟 1：取得內容（Retrieval）

當使用者問「最佳跑步手錶推薦」時，AI 系統會：

對自家訓練語料做向量相似度搜尋（vector search）
對即時索引（Bing Index、自家爬蟲快取）做關鍵字檢索
即時觸發爬蟲去掃幾個高排名網站

關鍵點：你必須先進入這三類資料源至少一個。如果你的網站從未被訓練語料收錄、不在 Bing 索引、又擋掉 ChatGPT-User 即時爬蟲——你根本沒進這個池子。

常見出局原因：robots.txt 擋掉所有 AI bot、網站太新沒進訓練語料、Bing 還沒收錄。

步驟 2：拆解內容（Chunking）

進入池子後，你的網頁會被切成「chunk」——通常 200–500 字的片段。AI 不引用整篇文章，只引用其中某一兩個 chunk。

關鍵點：你的網頁能被切成幾個「獨立可讀」的 chunk？

如果你的文章是長段散文，AI 切出來的 chunk 可能語意破碎、不能獨立成立
如果你的文章有清楚的 H2/H3 段落、答案優先段落、條列重點——每個段落都能成為自洽的 chunk

常見出局原因：整篇沒有結構、答案藏在第 5 段中間、段落太長 chunk 後變語意碎片。

步驟 3：相關性排序（Reranking）

從成千上萬個 chunk 裡，AI 用 reranking 模型打分，挑出對這個查詢最相關的 5–10 個。

判斷標準包含：

語意相似度（這段內容跟使用者問題的對應度）
結構化線索（這段是不是「標題式答案」「Q&A 結構」「步驟式列表」）
權威信號（作者署名、引用標記、JSON-LD schema）
語言自然度（不是 LLM 套式 SEO 灌水文）

常見出局原因：相關但用語太抽象、看起來像 AI 生成的灌水文、缺少權威信號。

步驟 4：合成回答 + 標註引用（Generation）

最後 LLM 把選中的 chunk 重新組合成自然語言回答，並（可能）標註引用來源。

但這一步未必每次都標註你：

有的 AI 會合併多個來源寫一段，只標其中最權威的那個
即時引用會標連結，訓練語料的引用通常不標
如果同主題有多個來源，AI 會挑「最像權威」的標出來

常見出局原因：你的內容被合併進某個泛泛回答，但沒被點名。曝光等於 0。

為什麼理解這個流程很重要？

很多 SEO 顧問還在用「優化關鍵字、累積反向連結」的舊思維對付 GEO。但你看完上面 4 步就會發現：

步驟 1 主要看爬蟲存取設定（robots.txt、User-Agent 規則）
步驟 2 主要看內容結構化（H2/H3、答案優先段落、JSON-LD）
步驟 3 主要看權威信號 + 自然度（E-E-A-T、語言自然度）
步驟 4 主要看內容獨特性（被引用而非被合併）

這四個關注點跟傳統 SEO 不重疊。優化 SEO 完全不會自動解決 GEO 問題。

實作層面該檢查什麼？

GeoWeb 的 12 維度健檢，每個維度都對應上面某個步驟：

步驟	對應維度
1. Retrieval	AI 爬蟲可達性、傳輸安全
2. Chunking	語意結構、FAQ/Q&A 就緒度、AEO 就緒度
3. Reranking	E-E-A-T、語言自然度、結構化資料、內容可引用性
4. Generation	片段控制策略、SEO 技術分析（避免被合併）

👉 跑一次免費健檢看你網站在 4 個步驟分別卡哪

如果你看完報告希望系統性優化這 4 個層面，我們提供 GEO 顧問服務：[email protected]

GEO 進階系列 #7。前一篇：「為什麼 SEO 強的網站，在 AI 搜尋時代仍然找不到？」

這篇有共鳴嗎？

210 人回應了這篇

討論 24

路
路過的會員4 個月前
工程師路過。我們商品頁全是js render出來的，照步驟1來看是不是crawler根本抓不到內容啊慘
K
Kevin_Hsu會員3 個月前
笑死那張圖最後一句『多數seo顧問只認識第1、4步』是在內涵誰ㄏㄏ
做
做SEO的阿宏會員1 週前
你文章說『優化SEO完全不會自動解決GEO問題』，可是步驟2講的H2/H3結構、答案優先段落，這些不就是SEO老早在講的東西嗎？哪裡不重疊了
- C
  策略長 Clarence作者1 週前
  好問題，這確實是最容易誤會的地方。H2/H3是有重疊沒錯，但SEO要的是"讓Google理解整頁主題"，GEO要的是"每個段落單獨拉出來都還讀得懂"，這兩個目標常常打架。SEO寫法很愛鋪陳、前情提要，對排名沒差；但那種段落被切成chunk後就是語意碎片。再加上步驟1的爬蟲存取、步驟4的避免被合併，這些SEO根本不碰。重疊的部分有，但你照SEO那套做完，4步裡大概只順了半步。
無
無名氏會員2 個月前
半信半疑。所謂『即時觸發爬蟲去掃高排名網站』有來源嗎還是純推測感覺講得很篤定但沒附證據
無
無名氏會員3 個月前
這篇是不是想引導大家去跑那個免費健檢然後賣顧問服務倒數第二段cta有點明顯不過內容本身是真的有料啦
A
Anna｜品牌行銷會員4 個月前
想問一下200，500字一個chunk這個數字是哪來的？每家引擎切法應該不一樣吧還是有個業界共識
T
Tina_行銷會員1 個月前
想確認一下：表格裡步驟1對應『AI爬蟲可達性、傳輸安全』，那如果我網站根本沒擋任何bot、robots.txt全開，是不是步驟1就穩了？還是還有別的眉角
- C
  策略長 Clarence作者1 個月前
  robots.txt全開只是"沒主動擋"，離"進得去池子"還有距離😅 步驟1真正卡的常常不是robots，而是你壓根沒被Bing收錄、或站太新沒進訓練語料、或內容靠JS才render出來爬蟲拿到空殼。傳輸安全那塊也有人栽在憑證設定。三類資料源至少要進一個，全開只是門沒鎖、不代表客人會走進來。先去Bing Webmaster Tools查自己有沒有真的被收錄,這個免費工具就能直接驗證,比自己猜有沒有進池子準確得多。
做
做內容的小郭會員3 小時前
步驟3說reranking會看『權威信號（作者署名、引用標記、json-ld schema）』，那是不是我把schema塞好塞滿分數就會往上拉？
- C
  策略長 Clarence作者2 小時前
  schema比較像是"把你已經有的權威翻譯成機器看得懂的格式"，不是憑空加分的外掛哈哈。你內容本身沒料、沒署名沒實績，schema標再漂亮rerank模型一樣覺得你是套式灌水文。順序是先有e-e-a-t的本體，schema負責讓它別被埋沒。本末倒置去硬刷schema我看過不少，效果都很微妙。
D
data_nerd_tw會員2 週前
酸一下四步拆得是清楚但看完只知道『理論上』分四關我要怎麼知道自己的內容死在哪一關啊沒工具沒log根本抓不出來是被robots擋掉還是進去了不被點名這篇比較像診斷手冊的目錄不是診斷本身
- 威
  威廉Liu會員1 週前
  知道『要寫好』跟知道『卡在哪一步所以白寫』是兩回事啦。重點不是這四步多新，是它告訴你：你內容明明很好但robots擋掉就是步驟1出局，後面寫再好都進不去；或是你進去了卻每次被合併不被點名(步驟4)。以前大家是『反正寫好就對了』然後石沉大海不知道為什麼，這篇至少讓你知道屍體掉在哪一關我覺得這個就有價值了
學
學校坐牢QQ會員3 週前
問個蠢問題步驟2 chunk跟步驟3 rerank到底差在哪不都是在挑段落嗎==
- 志
  志哥會員2 週前
  chunk是『切』，rerank是『排』。先把你整頁切成一塊塊200，500字的片段（這步不管好不好，只管切），然後再從成千上萬塊裡面用模型打分挑出最相關的那5~10塊。一個是切香腸一個是評審打分是兩件事啦
志
志哥會員6 個月前
做B2B工業設備的，我們產品很冷門，使用者問AI的問句跟我們官網用詞差超多（他們講白話、我們寫規格術語），這樣是不是卡在步驟3語意相似度那關？
- C
  策略長 Clarence作者4 個月前
  對，你直覺很準，多半卡在步驟3。冷門B2B最常見就是"使用者的問法"跟"你網站的寫法"對不上，語意相似度拉不起來。方向上是要在內容裡把客戶的口語問法跟你的規格術語"接起來"，譬如用Q&A段落直接把白話問句寫成標題、底下用術語回答。不過冷門產業還有個前提是步驟1你得先進得了池子，不然語意再準也沒用。你這案子就先確認步驟1有沒有過關,過關了再回頭把客戶常問的口語問法整理成FAQ標題,這兩步做完通常就能看到明顯改善。
N
newbie2026會員3 個月前
tier L2是什麼意思系列文有分級喔
小
小編會員5 天前
step2那段點到我了。我們官網就是那種一個h2底下塞五六百字散文，難怪切出來都語意破碎qq
竹
竹科工程師會員5 個月前
工程師視角：reranking那段講的『結構化線索』其實就是讓chunk有self-contained的語意吧加schema是幫retrieval還是幫rerank比較有感？這篇沒講清楚
電
電商苦主會員2 個月前
原來不是『讀完整篇再評分』喔==一直以為ai是把我文章看完才決定要不要引用看到開頭那句直接被打臉
威
威廉Liu會員3 個月前
步驟4那段最戳被合併進去但沒被點名=曝光0我們大概就是這種整天以為自己有貢獻其實ai根本沒標==
D
data_nerd_tw會員6 個月前
94狂這篇把retrieval / chunking / reranking / generation講人話了之前看英文paper看得很痛苦
竹
竹科工程師會員1 個月前
補一個本文沒提的：robots.txt擋AI bot之外，很多人是被Cloudflare的bot fight mode順手擋掉的自己還不知道orz

路

路過的會員4 個月前

工程師路過。我們商品頁全是js render出來的，照步驟1來看是不是crawler根本抓不到內容啊慘

Kevin_Hsu會員3 個月前

笑死那張圖最後一句『多數seo顧問只認識第1、4步』是在內涵誰ㄏㄏ

做

做SEO的阿宏會員1 週前

你文章說『優化SEO完全不會自動解決GEO問題』，可是步驟2講的H2/H3結構、答案優先段落，這些不就是SEO老早在講的東西嗎？哪裡不重疊了

C
策略長 Clarence作者1 週前
好問題，這確實是最容易誤會的地方。H2/H3是有重疊沒錯，但SEO要的是"讓Google理解整頁主題"，GEO要的是"每個段落單獨拉出來都還讀得懂"，這兩個目標常常打架。SEO寫法很愛鋪陳、前情提要，對排名沒差；但那種段落被切成chunk後就是語意碎片。再加上步驟1的爬蟲存取、步驟4的避免被合併，這些SEO根本不碰。重疊的部分有，但你照SEO那套做完，4步裡大概只順了半步。

無

無名氏會員2 個月前

半信半疑。所謂『即時觸發爬蟲去掃高排名網站』有來源嗎還是純推測感覺講得很篤定但沒附證據

無名氏會員3 個月前

這篇是不是想引導大家去跑那個免費健檢然後賣顧問服務倒數第二段cta有點明顯不過內容本身是真的有料啦

Anna｜品牌行銷會員4 個月前

想問一下200，500字一個chunk這個數字是哪來的？每家引擎切法應該不一樣吧還是有個業界共識

Tina_行銷會員1 個月前

想確認一下：表格裡步驟1對應『AI爬蟲可達性、傳輸安全』，那如果我網站根本沒擋任何bot、robots.txt全開，是不是步驟1就穩了？還是還有別的眉角

C
策略長 Clarence作者1 個月前
robots.txt全開只是"沒主動擋"，離"進得去池子"還有距離😅 步驟1真正卡的常常不是robots，而是你壓根沒被Bing收錄、或站太新沒進訓練語料、或內容靠JS才render出來爬蟲拿到空殼。傳輸安全那塊也有人栽在憑證設定。三類資料源至少要進一個，全開只是門沒鎖、不代表客人會走進來。先去Bing Webmaster Tools查自己有沒有真的被收錄,這個免費工具就能直接驗證,比自己猜有沒有進池子準確得多。

做內容的小郭會員3 小時前

步驟3說reranking會看『權威信號（作者署名、引用標記、json-ld schema）』，那是不是我把schema塞好塞滿分數就會往上拉？

C
策略長 Clarence作者2 小時前
schema比較像是"把你已經有的權威翻譯成機器看得懂的格式"，不是憑空加分的外掛哈哈。你內容本身沒料、沒署名沒實績，schema標再漂亮rerank模型一樣覺得你是套式灌水文。順序是先有e-e-a-t的本體，schema負責讓它別被埋沒。本末倒置去硬刷schema我看過不少，效果都很微妙。

data_nerd_tw會員2 週前

酸一下四步拆得是清楚但看完只知道『理論上』分四關我要怎麼知道自己的內容死在哪一關啊沒工具沒log根本抓不出來是被robots擋掉還是進去了不被點名這篇比較像診斷手冊的目錄不是診斷本身

威
威廉Liu會員1 週前
知道『要寫好』跟知道『卡在哪一步所以白寫』是兩回事啦。重點不是這四步多新，是它告訴你：你內容明明很好但robots擋掉就是步驟1出局，後面寫再好都進不去；或是你進去了卻每次被合併不被點名(步驟4)。以前大家是『反正寫好就對了』然後石沉大海不知道為什麼，這篇至少讓你知道屍體掉在哪一關我覺得這個就有價值了

學

學校坐牢QQ會員3 週前

問個蠢問題步驟2 chunk跟步驟3 rerank到底差在哪不都是在挑段落嗎==

志
志哥會員2 週前
chunk是『切』，rerank是『排』。先把你整頁切成一塊塊200，500字的片段（這步不管好不好，只管切），然後再從成千上萬塊裡面用模型打分挑出最相關的那5~10塊。一個是切香腸一個是評審打分是兩件事啦

志

志哥會員6 個月前

做B2B工業設備的，我們產品很冷門，使用者問AI的問句跟我們官網用詞差超多（他們講白話、我們寫規格術語），這樣是不是卡在步驟3語意相似度那關？

C
策略長 Clarence作者4 個月前
對，你直覺很準，多半卡在步驟3。冷門B2B最常見就是"使用者的問法"跟"你網站的寫法"對不上，語意相似度拉不起來。方向上是要在內容裡把客戶的口語問法跟你的規格術語"接起來"，譬如用Q&A段落直接把白話問句寫成標題、底下用術語回答。不過冷門產業還有個前提是步驟1你得先進得了池子，不然語意再準也沒用。你這案子就先確認步驟1有沒有過關,過關了再回頭把客戶常問的口語問法整理成FAQ標題,這兩步做完通常就能看到明顯改善。

newbie2026會員3 個月前

tier L2是什麼意思系列文有分級喔

小

小編會員5 天前

step2那段點到我了。我們官網就是那種一個h2底下塞五六百字散文，難怪切出來都語意破碎qq

竹

竹科工程師會員5 個月前

工程師視角：reranking那段講的『結構化線索』其實就是讓chunk有self-contained的語意吧加schema是幫retrieval還是幫rerank比較有感？這篇沒講清楚

電

電商苦主會員2 個月前

原來不是『讀完整篇再評分』喔==一直以為ai是把我文章看完才決定要不要引用看到開頭那句直接被打臉

威

威廉Liu會員3 個月前

步驟4那段最戳被合併進去但沒被點名=曝光0我們大概就是這種整天以為自己有貢獻其實ai根本沒標==

data_nerd_tw會員6 個月前

94狂這篇把retrieval / chunking / reranking / generation講人話了之前看英文paper看得很痛苦

竹科工程師會員1 個月前

補一個本文沒提的：robots.txt擋AI bot之外，很多人是被Cloudflare的bot fight mode順手擋掉的自己還不知道orz