← 部落格

為什麼 Wikipedia 收錄是 GEO 的最強信號之一?

#GEO #Wikipedia #training data #brand authority

LLM 訓練語料中,Wikipedia 是「第一公民」

研究 LLM 訓練資料的人都知道一個共識:

Wikipedia 在主流大型語言模型的訓練語料中,比重遠高於其他單一網站。

OpenAI、Anthropic、Google、Meta 等廠商在訓練 GPT、Claude、Gemini、Llama 時都大量使用 Wikipedia 內容。理由:

這代表:被 Wikipedia 收錄的品牌,在 LLM 的「腦袋裡」有一個專屬條目。當使用者問相關問題時,LLM 直接從這個條目產生回答。

一個直觀對比

打開 ChatGPT,問兩家公司的差別:

「介紹一下 OpenAI 跟 Apple」

LLM 會給出豐富的回答——因為兩家都有 Wikipedia 條目,訓練時 LLM 已經把它們的歷史、產品、創辦人、主要事件都「記下來」。

換成:

「介紹一下我朋友的咖啡店『慢意手作 coffee』」

LLM 會說「我沒這個品牌的資訊」——因為它從來沒在訓練語料中看過這個品牌

差別不是「品牌好不好」,是「進不進得了 LLM 的訓練腦」。

為什麼 GeoWeb 把 Wikipedia 列為站外能見度的第一信號

GeoWeb 的「站外能見度」(不計入 GEO 體質總分,獨立計算)有 5 個子信號:

信號 權重 為什麼重要
Wikipedia 收錄 25% LLM 訓練語料最大來源
Wayback Machine 歷史 20% 網站長期存在的證據
Domain 註冊年資 20% 品牌年資與穩定性
DuckDuckGo 知識圖譜 15% 公開知識庫的實體匹配
AI 平台回測度(規劃中) 20% 直接量測 LLM 引用率

Wikipedia 是權重最高的信號——因為它的影響跨「訓練資料」與「即時引用」兩個層面,且難以造假。

你不能「買」Wikipedia 條目

Wikipedia 是反商業化最徹底的網站之一:

這代表 Wikipedia 收錄不能花錢買,只能慢慢建立顯著性 + 等社群編輯來寫

建立 Wikipedia 條目的合法路徑

不能自己寫,那能做什麼?

1. 累積媒體報導(基礎工程)

獲得 3–5 篇以上獨立媒體(不是付費業配)的報導。Wikipedia 編輯查 notability 時會找這些當引用。

媒體類型:

避免:付費置入、品牌公關稿、自家部落格、個人 KOL 業配。

2. 累積客觀第三方提及

3. 等社群編輯來寫,或請他們協助

當前面兩項累積到一定量,常會自然有編輯者注意到品牌並建立條目。也可以參與相關 WikiProject 社群,誠實揭露利益關係(COI)後請第三方編輯協助。

4. 提供高品質媒體資源

維護一頁「媒體與學術引用」(Press / About)列出所有報導與學術提及——這是編輯者建立條目時的第一手資料。

短期 vs 長期策略

短期(6 個月內無法達成):

長期(1–3 年):

健檢看你的站外能見度起點

👉 免費 GEO 健檢 — 站外能見度區塊會逐項顯示:

這 4 個信號決定你品牌在 AI 訓練語料中的「身分」是否成立。

如果你需要長期媒體公關 + Wikipedia 條目策略規劃,我們提供 GEO 顧問服務含這部分執行:[email protected]


GEO 進階系列 #11。前一篇:「內容可引用性:什麼樣的段落 AI 才願意拿來用?」