LLM 訓練語料中,Wikipedia 是「第一公民」
研究 LLM 訓練資料的人都知道一個共識:
Wikipedia 在主流大型語言模型的訓練語料中,比重遠高於其他單一網站。
OpenAI、Anthropic、Google、Meta 等廠商在訓練 GPT、Claude、Gemini、Llama 時都大量使用 Wikipedia 內容。理由:
- 內容經過編輯共識(多人審查)
- 結構化(有 infobox、citation)
- 持續更新
- 完全免費可商用(CC BY-SA)
- 多語言齊全
這代表:被 Wikipedia 收錄的品牌,在 LLM 的「腦袋裡」有一個專屬條目。當使用者問相關問題時,LLM 直接從這個條目產生回答。
一個直觀對比
打開 ChatGPT,問兩家公司的差別:
「介紹一下 OpenAI 跟 Apple」
LLM 會給出豐富的回答——因為兩家都有 Wikipedia 條目,訓練時 LLM 已經把它們的歷史、產品、創辦人、主要事件都「記下來」。
換成:
「介紹一下我朋友的咖啡店『慢意手作 coffee』」
LLM 會說「我沒這個品牌的資訊」——因為它從來沒在訓練語料中看過這個品牌。
差別不是「品牌好不好」,是「進不進得了 LLM 的訓練腦」。
為什麼 GeoWeb 把 Wikipedia 列為站外能見度的第一信號
GeoWeb 的「站外能見度」(不計入 GEO 體質總分,獨立計算)有 5 個子信號:
| 信號 | 權重 | 為什麼重要 |
|---|---|---|
| Wikipedia 收錄 | 25% | LLM 訓練語料最大來源 |
| Wayback Machine 歷史 | 20% | 網站長期存在的證據 |
| Domain 註冊年資 | 20% | 品牌年資與穩定性 |
| DuckDuckGo 知識圖譜 | 15% | 公開知識庫的實體匹配 |
| AI 平台回測度(規劃中) | 20% | 直接量測 LLM 引用率 |
Wikipedia 是權重最高的信號——因為它的影響跨「訓練資料」與「即時引用」兩個層面,且難以造假。
你不能「買」Wikipedia 條目
Wikipedia 是反商業化最徹底的網站之一:
- 編輯利益衝突政策:自己(或受雇)編輯自家品牌條目會被反查、條目被刪
- 可信來源原則:條目內容必須有第三方可信來源支持,不能引用品牌官網
- 顯著性原則(notability):品牌必須達到某種「值得收錄」的門檻——通常需要多家獨立媒體報導
這代表 Wikipedia 收錄不能花錢買,只能慢慢建立顯著性 + 等社群編輯來寫。
建立 Wikipedia 條目的合法路徑
不能自己寫,那能做什麼?
1. 累積媒體報導(基礎工程)
獲得 3–5 篇以上獨立媒體(不是付費業配)的報導。Wikipedia 編輯查 notability 時會找這些當引用。
媒體類型:
- 主流新聞(聯合報、自由時報、商業周刊、天下、數位時代等)
- 產業專業媒體
- 學術期刊或會議
避免:付費置入、品牌公關稿、自家部落格、個人 KOL 業配。
2. 累積客觀第三方提及
- 政府公開資料(公司登記、產業統計)
- 行業協會出版品
- 學術論文引用
- 相關書籍提到的章節
3. 等社群編輯來寫,或請他們協助
當前面兩項累積到一定量,常會自然有編輯者注意到品牌並建立條目。也可以參與相關 WikiProject 社群,誠實揭露利益關係(COI)後請第三方編輯協助。
4. 提供高品質媒體資源
維護一頁「媒體與學術引用」(Press / About)列出所有報導與學術提及——這是編輯者建立條目時的第一手資料。
短期 vs 長期策略
短期(6 個月內無法達成):
- Wikipedia 條目通常需要 6–24 個月累積
- 但同一時間可以做的:補強其他 4 個站外能見度信號
- Wayback Machine:主動提交 archive
- DuckDuckGo:透過 Wikidata 條目(門檻較低)建立實體
長期(1–3 年):
- 持續媒體公關
- 累積學術引用
- 建立行業協會 / 論壇 / 開放資料貢獻
健檢看你的站外能見度起點
👉 免費 GEO 健檢 — 站外能見度區塊會逐項顯示:
- Wikipedia 是否有條目(含名稱衝突偵測)
- Wayback 首次存檔時間
- Domain 註冊年資
- DuckDuckGo 是否識別此實體
這 4 個信號決定你品牌在 AI 訓練語料中的「身分」是否成立。
如果你需要長期媒體公關 + Wikipedia 條目策略規劃,我們提供 GEO 顧問服務含這部分執行:[email protected]
GEO 進階系列 #11。前一篇:「內容可引用性:什麼樣的段落 AI 才願意拿來用?」