灌水的字騙得過客戶，騙不過 AI——語言自然度的 7 個破綻

#GEO #content quality #language naturalness #anti-AI-slop

為什麼「語言自然度」會獨立成一個維度？

過去兩年 LLM 大量自動生成「為了排名而寫」的灌水內容——同質化嚴重、套話密度高、缺乏具體性。AI 廠商很快開始反制：訓練 reranking 模型時加入「自然度判讀」，把疑似 LLM 套式的內容降權。

直接結論：即使內容主題相關、結構正確，但語氣套式被偵測到，引用機率會大幅降低。

GeoWeb 在 M3-14 加入「語言自然度」維度（6% 權重），用 7 個子指標模擬 AI 廠商的判讀邏輯。下面逐項說明。

子指標 1：套話密度（18% 權重）

偵測什麼

預定義一份「LLM 套話 phrase bank」，包含中英雙語約 80 個常見短語：

中文：「在當今這個」「綜上所述」「值得注意的是」「至關重要」「不可忽視」「眾所周知」「毋庸置疑」「讓我們深入了解」「在這個快速變化的環境中」…
英文：「In today’s digital landscape」「It’s important to note」「In conclusion」「leverage cutting-edge」「unlock the full potential」…

計算每千字命中數。

評分邏輯

< 1 次/千字：100 分（自然）
1–2 次/千字：80 分
2–4 次/千字：60 分
4–8 次/千字：35 分
8 次/千字：10 分（高度疑似 LLM 套式）

為什麼權重最高

這是最強的單一信號——一個自然寫作的人不會在每段都用這些套話。命中率高 = 高度疑似生成內容。

子指標 2：段落開頭重複度（15%）

偵測什麼

連續段落是否用相同 transition 詞開頭：「首先…其次…再者…最後…」「另外…此外…再者…最後…」。

為什麼重要

AI 生成內容很愛這種「教科書式硬結構」。真人專家寫文章時會混用問句、案例、引述、定義等多種開頭——多樣性是真人特徵。

評分標準

最常見開頭詞的出現比例：

< 8%：自然（多樣化）
8–15%：稍微單調
15–30%：明顯重複
30%：教科書式硬結構

子指標 3：句法多樣性（15%）

偵測什麼

三個獨立子指標合成：

句長變異係數（CV）：句子長度的標準差/平均。CV 高 = 長短交錯
句末標點熵（entropy）：「。！？」分布的 Shannon entropy
長句比例：> 50 字句子的占比

為什麼重要

LLM 生成內容的句長分布常呈現「集中化」——多數句子長度落在某個窄區間（通常 25–35 字）。真人寫作會有極短句（強調用）和極長句（複合論述）混雜。

子指標 4：局部詞彙循環（12%）

偵測什麼

用 100 字滑動視窗，計算每個視窗內的「unique 詞數 / 總詞數」（type-token ratio）。

為什麼重要

LLM 在生成時容易在小範圍內反覆用同義詞——「提供 / 提升 / 改善 / 優化 / 強化」會在同一段內各出現一次。真人較少這樣。

為什麼用滑動視窗而不是全文統計

全文 TTR 在長文章中天然偏低（因為總詞彙會循環使用）。滑動視窗的局部 TTR 更能精準偵測「同段反覆」這個 LLM 特徵。

子指標 5：具體 vs 抽象（18% 權重，與套話並列最高）

偵測什麼

具體標記：數字、日期、引述符號（「」”」’）、命名實體
抽象標記（hedge words）：「許多」「一些」「significantly」「possibly」「generally」「relatively」

計算「具體標記密度 / 抽象標記密度」的比例。

為什麼權重高

這是最能分辨「真實研究 / 案例分享」 vs 「AI 灌水」的信號之一：

真實內容：「2024 年 3 月我們服務的 12 家客戶中…」「Princeton GEO 研究在 KDD 2024 提出…」（前提：研究 / 數據真實存在）
AI 灌水：「許多公司在面臨挑戰時…」「研究顯示這對企業有幫助…」

Hedge words 多 = 沒落點的轉述 = 高度疑似生成。

子指標 6：連接詞分布（12%）

偵測什麼

預定義的連接詞詞表（「然而」「因此」「不過」「另外」「此外」「再者」…）出現分布的 Shannon entropy。

為什麼重要

LLM 喜歡反覆用 1–2 個連接詞（最常見：「然而」「因此」「另外」）。真人會自然用各種同義替代，分布更均勻 = entropy 更高。

子指標 7：第一人稱適度性（10%）

偵測什麼

「我們」「In our experience」「我發現」這類第一人稱經驗 marker 的密度。

評分邏輯（parabolic 倒 U 曲線）

太少（< 0.5/千字）：50 分以下——疏離、像 generic LLM 輸出
適中（1–5/千字）：100 分——展現 Experience（E-E-A-T 的 E）
太多（> 8/千字）：50 分以下——自我推銷感過重

不是越多越好。中道才好。

7 個子指標的綜合判讀

GeoWeb 的「語言自然度」分數是這 7 項加權平均。常見組合：

真人專家文：套話低 + 具體高 + 第一人稱適中 → 90+
SEO 灌水文：套話高 + 抽象高 + 段落開頭單調 → 30–
混合文（部分 AI 修飾）：套話中 + 具體中 → 60–70

為什麼這個維度權重「只有」6%？

LLM 的反 slop 偵測仍在演進中——目前主要 AI 平台對「結構化準備度」的權重高於「語言自然度」。但這個權重會隨時間提高。

我們建議：內容真的是真人專家寫的比「故意把指標調漂亮」重要。靠 prompt engineering 把 LLM 文章調得更像真人——短期可能過得了偵測，但 AI 廠商的偵測模型也在更新。長期靠真人寫作 + 真實案例 + 具體數據才安全。

健檢看你的語言自然度

👉 免費 GEO 健檢 — 「語言自然度」維度會逐項列出 7 個子指標分數，並指出哪幾項拖累整體。

如果你的網站內容需要批量調整以達到自然度標準（含內容重寫策略、寫手指引、自動化偵測流程），我們提供 GEO 顧問服務：[email protected]

GEO 深度系列 #15。前一篇：「12 維度逐項拆解：FAQ/Q&A 就緒度的 5 個檢查點」

這篇有共鳴嗎？

257 人回應了這篇

討論 27

區
區域行銷SamVIP3 個月前
局部詞彙循環用100字滑動視窗TTR而不是全文TTR這段沒看懂但直覺猜跟現場感覺很像，客戶那種老早餐店網站十年沒動、內容一直反覆講差不多的話，讀起來就是膩，這篇算是把那個「膩感」講出學理版本了==
路
路過的會員6 個月前
第一人稱那個倒u曲線我覺得是全篇最反直覺的點。一般都想說多放"我們的經驗"展現專業，結果 >8/千字反而被當自我推銷扣到50以下，這個setting蠻細的
路
路過的會員2 週前
局部詞彙循環那段，為什麼不直接算全文TTR要搞100字滑動視窗？我看一般文本分析不都用全文type-token ratio嗎
- C
  策略長 Clarence作者1 週前
  因為全文TTR在長文有個天生的坑：文章越長，總詞彙一定會重複使用（你不可能整篇3000字每個詞都不一樣），所以長文的全文TTR天然就偏低，拿它當信號會把正常的長文跟LLM同段反覆混在一起，分不出來。LLM的特徵是很局部的，同一段內提供/提升/改善/優化/強化連發，但拉到全文看又被稀釋掉。滑動視窗就是專門盯這個局部現象，全文統計會把它平均掉。
小
小編會員5 個月前
笑死看到套話phrase bank那串在當今這個綜上所述值得注意的是整個冷汗，我上週發的文每一段都中標QQ
T
Tina_行銷會員1 個月前
6% 權重這段我反而有疑問。既然你們自己都說現在主流引擎對結構化準備度的權重比語言自然度高，那花力氣優化這6% 的cp值會不會很低？感覺先把schema、faq那些弄好比較實際
- C
  策略長 Clarence作者1 個月前
  你的判斷順序完全對，我自己也是這樣排優先級的：結構化準備度（schema、FAQ、可被retrieval切塊）先做，那個CP值現在最高。語言自然度這6% 我會說它比較像保險而不是衝分，它的價值不在現在幫你加分，而在於你哪天用LLM大量產內容時，它是那個會先扣你分的閘門。所以與其說花力氣優化它，不如說別去踩它的雷（套話狂刷、整篇hedge words）。真的要排程，結構化排前面沒錯。
做
做內容的小郭會員2 個月前
套話phrase bank那80個短語有公開清單嗎？我想先自己ctrl+F全站掃一遍看有沒有中槍，值得注意的是綜上所述這種我好像超愛用orz
- D
  data_nerd_tw會員1 個月前
  清單我也沒看到完整版公開啦，文章只列了範例。不過你不用真的逐字比對80個，抓那幾個最常見的pattern自己掃就有八成效果了：在當今/在這個快速變化的開場、值得注意的是不可忽視綜上所述眾所周知毋庸置疑這幾隻是重災區。你說你超愛用值得注意的是其實還好，重點是密度，它算的是每千字命中數，偶爾一次落在80分區，整段每句都來才會掉到35以下。
無
無名氏會員5 個月前
講真的這種文看多了會懷疑是不是想賣健檢服務，結尾就是丟一個免費健檢 +顧問信箱ㄏㄏ。不過技術內容是真的有寫東西啦不是純廣告，這點還行
小
小編會員5 個月前
連接詞分布用shannon entropy算然而/因此/另外的均勻度…這已經有點nlp課的味道了，給工程師看的密度比較高，行銷同事大概看到entropy就關掉了哈哈
無
無名氏會員2 個月前
樓上冷靜換寫手前先看是不是套話密度的問題，搞不好只是你家寫手太愛用綜上所述結尾而已XD
志
志哥會員5 個月前
句法多樣性那項，CV（句長變異係數）+ 標點熵 + 長句比三個合成。我寫東西習慣短句，整篇都短句乾淨俐落，那CV不就很低被當LLM？短句也有錯逆==
- H
  Howard_T會員4 個月前
  短句不是錯，但整篇都同一種長度才是它在抓的東西，不管你是統一短還是統一中等。CV抓的是變異不是長度本身，你全短句但偶爾來一個長複合句解釋細節，CV一樣會起來。它真正盯的是LLM那種多數句子都擠在25，35字窄區間的集中化。所以你愛短句沒差，重點是該長的時候敢放長，長短交錯就過了。
喵
喵會員1 個月前
拿我們電商產品描述套一下：寫手交來的稿十句有八句打造極致/引領潮流/不可錯過這種，照這篇的標準套話密度直接爆表，難怪一直進不了AI回答。要回去重寫了
牙
牙醫診所小編會員3 週前
具體vs抽象那段你舉例2024年3月我們服務的12家客戶中…算具體加分，那我如果寫根據我們內部數據，超過80% 的客戶…這種有數字但沒講清楚來源的，是算具體還是算hedge？分界在哪
- C
  策略長 Clarence作者2 週前
  好問題，這正好踩在分界線上 😅 你那句其實是混的：80%這個數字會被當具體標記命中，但根據我們內部數據超過這種沒落點的包裝偏hedge。指標是算密度比例不是單句判定，所以一句裡有具體也有抽象不會怎樣。真正掉分的是整篇都是許多/一些/significantly/研究顯示這種沒有任何可驗證落點的轉述。提醒一句：文章那個範例有寫前提研究/數據真實存在，你那個80% 如果是真的就用，掰一個漂亮數字騙過具體指標但被讀者抓到，得不償失。
N
newbie2026會員7 個月前
7項權重那張圖滿清楚的，套話跟具體vs抽象並列18% 最高這個排序滿合理，畢竟一眼就能看出是不是罐頭文。先收藏回頭拿去掃自己的舊文orz
路
路過的會員2 個月前
句法多樣性說llm句長集中在25，35字，這個數字哪來的？是你們跑出來的還是引用的，文裡沒給出處有點懸
威
威廉Liu會員8 個月前
想戰一下這篇的前提。你說AI廠商會用reranking加入自然度判讀把LLM套式降權，但這個自然度判讀模型本身不也是LLM嗎？拿AI去抓AI寫的東西，這不是左手打右手？而且偵測器更新、生成器也會更新，最後不就軍備競賽
- C
  策略長 Clarence作者7 個月前
  你這個質疑很合理，而且我大致同意，這確實是個會持續拉鋸的軍備競賽，文章結尾那段靠prompt把文章調得像真人，短期過得了但偵測模型也在更新講的就是這件事。但拿AI抓AI不必然是左手打右手：判別任務本來就比生成任務容易，分類器要的是抓統計特徵（套話密度、句長集中、局部TTR偏低），不用自己會寫得多好。所以短期內偵測方是佔上風的。我的結論也不是去贏這場軍備競賽，是乾脆別進場，真人寫 + 真實案例，本來就在分布的另一邊，不用追著偵測器跑。
做
做SEO的阿宏會員2 個月前
半信半疑。所謂「真人專家文90+ / SEO灌水文30-」這個分數區間是你們自己定的對吧？有沒有拿主流引擎實際引用率去對照驗證過，還是純粹內部模擬廠商邏輯的推測值
王
王宏哲VIP1 個月前
等等6% 而已？我還以為語言自然度多重要，結果整個維度權重比我想像低欸。看到結尾才知道是因為現在引擎還比較吃結構化準備度，這段算誠實啦
學
學校坐牢QQ會員2 個月前
M3-14這個編號是內部spec代號嗎，外面看不到的話寫在文章裡對讀者其實沒意義，不如直接講它是第幾個維度
K
Kevin_Hsu會員3 個月前
想問一下，第一人稱那個parabolic倒U曲線我有點不懂。我們太多會扣分我理解（自我推銷），但太少也扣分這個邏輯是？我寫純技術教學文常常整篇都沒講到我啊，那不就被當generic LLM輸出==
- C
  策略長 Clarence作者1 個月前
  哈哈這題問得好，純技術教學文確實是這條曲線最容易誤傷的類型。背後邏輯是：第一人稱經驗marker是E-E-A-T裡那個Experience的代理信號，完全沒有我們實際遇到我發現的痕跡，模型很難跟把公開資料重新排列的內容區分開。但你講的情境真的存在，所以這項只佔10%，不是一票否決，純教學文就算這項拿低分，靠具體（數字/步驟/實例）跟低套話一樣能把總分拉上去。實務上你不用硬塞我，補一兩句真實踩坑經驗就夠了，不用為了指標去演。
蝦
蝦皮賣家小美會員3 個月前
推一個務實結論：與其調指標不如真的找人寫。文章最後那句靠prompt把LLM調得像真人短期過得了但偵測也在更新直接戳破很多人的小聰明

區

區域行銷SamVIP3 個月前

局部詞彙循環用100字滑動視窗TTR而不是全文TTR這段沒看懂但直覺猜跟現場感覺很像，客戶那種老早餐店網站十年沒動、內容一直反覆講差不多的話，讀起來就是膩，這篇算是把那個「膩感」講出學理版本了==

路

路過的會員6 個月前

第一人稱那個倒u曲線我覺得是全篇最反直覺的點。一般都想說多放"我們的經驗"展現專業，結果 >8/千字反而被當自我推銷扣到50以下，這個setting蠻細的

路過的會員2 週前

局部詞彙循環那段，為什麼不直接算全文TTR要搞100字滑動視窗？我看一般文本分析不都用全文type-token ratio嗎

C
策略長 Clarence作者1 週前
因為全文TTR在長文有個天生的坑：文章越長，總詞彙一定會重複使用（你不可能整篇3000字每個詞都不一樣），所以長文的全文TTR天然就偏低，拿它當信號會把正常的長文跟LLM同段反覆混在一起，分不出來。LLM的特徵是很局部的，同一段內提供/提升/改善/優化/強化連發，但拉到全文看又被稀釋掉。滑動視窗就是專門盯這個局部現象，全文統計會把它平均掉。

小

小編會員5 個月前

笑死看到套話phrase bank那串在當今這個綜上所述值得注意的是整個冷汗，我上週發的文每一段都中標QQ

Tina_行銷會員1 個月前

6% 權重這段我反而有疑問。既然你們自己都說現在主流引擎對結構化準備度的權重比語言自然度高，那花力氣優化這6% 的cp值會不會很低？感覺先把schema、faq那些弄好比較實際

C
策略長 Clarence作者1 個月前
你的判斷順序完全對，我自己也是這樣排優先級的：結構化準備度（schema、FAQ、可被retrieval切塊）先做，那個CP值現在最高。語言自然度這6% 我會說它比較像保險而不是衝分，它的價值不在現在幫你加分，而在於你哪天用LLM大量產內容時，它是那個會先扣你分的閘門。所以與其說花力氣優化它，不如說別去踩它的雷（套話狂刷、整篇hedge words）。真的要排程，結構化排前面沒錯。

做

做內容的小郭會員2 個月前

套話phrase bank那80個短語有公開清單嗎？我想先自己ctrl+F全站掃一遍看有沒有中槍，值得注意的是綜上所述這種我好像超愛用orz

D
data_nerd_tw會員1 個月前
清單我也沒看到完整版公開啦，文章只列了範例。不過你不用真的逐字比對80個，抓那幾個最常見的pattern自己掃就有八成效果了：在當今/在這個快速變化的開場、值得注意的是不可忽視綜上所述眾所周知毋庸置疑這幾隻是重災區。你說你超愛用值得注意的是其實還好，重點是密度，它算的是每千字命中數，偶爾一次落在80分區，整段每句都來才會掉到35以下。

無

無名氏會員5 個月前

講真的這種文看多了會懷疑是不是想賣健檢服務，結尾就是丟一個免費健檢 +顧問信箱ㄏㄏ。不過技術內容是真的有寫東西啦不是純廣告，這點還行

連接詞分布用shannon entropy算然而/因此/另外的均勻度…這已經有點nlp課的味道了，給工程師看的密度比較高，行銷同事大概看到entropy就關掉了哈哈

無名氏會員2 個月前

樓上冷靜換寫手前先看是不是套話密度的問題，搞不好只是你家寫手太愛用綜上所述結尾而已XD

志

志哥會員5 個月前

句法多樣性那項，CV（句長變異係數）+ 標點熵 + 長句比三個合成。我寫東西習慣短句，整篇都短句乾淨俐落，那CV不就很低被當LLM？短句也有錯逆==

H
Howard_T會員4 個月前
短句不是錯，但整篇都同一種長度才是它在抓的東西，不管你是統一短還是統一中等。CV抓的是變異不是長度本身，你全短句但偶爾來一個長複合句解釋細節，CV一樣會起來。它真正盯的是LLM那種多數句子都擠在25，35字窄區間的集中化。所以你愛短句沒差，重點是該長的時候敢放長，長短交錯就過了。

喵

喵會員1 個月前

拿我們電商產品描述套一下：寫手交來的稿十句有八句打造極致/引領潮流/不可錯過這種，照這篇的標準套話密度直接爆表，難怪一直進不了AI回答。要回去重寫了

牙

牙醫診所小編會員3 週前

具體vs抽象那段你舉例2024年3月我們服務的12家客戶中…算具體加分，那我如果寫根據我們內部數據，超過80% 的客戶…這種有數字但沒講清楚來源的，是算具體還是算hedge？分界在哪

C
策略長 Clarence作者2 週前
好問題，這正好踩在分界線上 😅 你那句其實是混的：80%這個數字會被當具體標記命中，但根據我們內部數據超過這種沒落點的包裝偏hedge。指標是算密度比例不是單句判定，所以一句裡有具體也有抽象不會怎樣。真正掉分的是整篇都是許多/一些/significantly/研究顯示這種沒有任何可驗證落點的轉述。提醒一句：文章那個範例有寫前提研究/數據真實存在，你那個80% 如果是真的就用，掰一個漂亮數字騙過具體指標但被讀者抓到，得不償失。

newbie2026會員7 個月前

7項權重那張圖滿清楚的，套話跟具體vs抽象並列18% 最高這個排序滿合理，畢竟一眼就能看出是不是罐頭文。先收藏回頭拿去掃自己的舊文orz

路過的會員2 個月前

句法多樣性說llm句長集中在25，35字，這個數字哪來的？是你們跑出來的還是引用的，文裡沒給出處有點懸

威

威廉Liu會員8 個月前

想戰一下這篇的前提。你說AI廠商會用reranking加入自然度判讀把LLM套式降權，但這個自然度判讀模型本身不也是LLM嗎？拿AI去抓AI寫的東西，這不是左手打右手？而且偵測器更新、生成器也會更新，最後不就軍備競賽

C
策略長 Clarence作者7 個月前
你這個質疑很合理，而且我大致同意，這確實是個會持續拉鋸的軍備競賽，文章結尾那段靠prompt把文章調得像真人，短期過得了但偵測模型也在更新講的就是這件事。但拿AI抓AI不必然是左手打右手：判別任務本來就比生成任務容易，分類器要的是抓統計特徵（套話密度、句長集中、局部TTR偏低），不用自己會寫得多好。所以短期內偵測方是佔上風的。我的結論也不是去贏這場軍備競賽，是乾脆別進場，真人寫 + 真實案例，本來就在分布的另一邊，不用追著偵測器跑。

做SEO的阿宏會員2 個月前

半信半疑。所謂「真人專家文90+ / SEO灌水文30-」這個分數區間是你們自己定的對吧？有沒有拿主流引擎實際引用率去對照驗證過，還是純粹內部模擬廠商邏輯的推測值

王

王宏哲VIP1 個月前

等等6% 而已？我還以為語言自然度多重要，結果整個維度權重比我想像低欸。看到結尾才知道是因為現在引擎還比較吃結構化準備度，這段算誠實啦

學

學校坐牢QQ會員2 個月前

M3-14這個編號是內部spec代號嗎，外面看不到的話寫在文章裡對讀者其實沒意義，不如直接講它是第幾個維度

Kevin_Hsu會員3 個月前

想問一下，第一人稱那個parabolic倒U曲線我有點不懂。我們太多會扣分我理解（自我推銷），但太少也扣分這個邏輯是？我寫純技術教學文常常整篇都沒講到我啊，那不就被當generic LLM輸出==

C
策略長 Clarence作者1 個月前
哈哈這題問得好，純技術教學文確實是這條曲線最容易誤傷的類型。背後邏輯是：第一人稱經驗marker是E-E-A-T裡那個Experience的代理信號，完全沒有我們實際遇到我發現的痕跡，模型很難跟把公開資料重新排列的內容區分開。但你講的情境真的存在，所以這項只佔10%，不是一票否決，純教學文就算這項拿低分，靠具體（數字/步驟/實例）跟低套話一樣能把總分拉上去。實務上你不用硬塞我，補一兩句真實踩坑經驗就夠了，不用為了指標去演。

蝦

蝦皮賣家小美會員3 個月前

推一個務實結論：與其調指標不如真的找人寫。文章最後那句靠prompt把LLM調得像真人短期過得了但偵測也在更新直接戳破很多人的小聰明