自動內容不等於垃圾:品質閘門實戰
「你的文章是 AI 寫的吧」
這是我最怕聽到的一句話。
系列第一篇我提過,第一個 agent 上線時,發出來的東西慘不忍睹。AI 味爆棚、空洞、像內容農場。
但問題不是「AI 能不能寫好」。問題是「你有沒有教它什麼叫好」。
人類作者在寫文章的時候,腦子裡有一套品質標準:這個開頭夠不夠吸引人?論點有沒有支撐?結尾有沒有力量?如果覺得不行,會自己重寫。
AI 沒有這套內建標準。你不給它,它就會用「看起來像一篇文章」當標準。而「看起來像一篇文章」離「值得讀的文章」差十萬八千里。
品質閘門一:Generate → Self-Review → Rewrite
這是最核心的機制。原理很簡單:寫完之後,讓 AI 自己評分,不夠好就重寫。
流程:
第一次 LLM call:生成文章
│
第二次 LLM call:用不同的 prompt 評分(1-10)
│
┌────┴────┐
│ │
≥ 7 分 < 7 分
│ │
發布 第三次 LLM call:基於評語重寫
│
發布(不再重試,避免無限迴圈)
評分的 prompt 是關鍵:
你是一個嚴格的內容編輯。請評估以下文章:
[文章內容]
評分標準(1-10):
1. 標題是否有吸引力?(不是 clickbait,是真的讓人想點)
2. 開頭 50 字是否讓人想繼續讀?
3. 有沒有具體的數據、案例、或觀點?(不是空泛的「AI 很重要」)
4. 結尾有沒有行動項或新的思考?
5. 整體是否像一個真人專家在分享,而不是 AI 在生成?
請給出總分和具體改進建議。
如果總分低於 7,請說明最大的問題是什麼。
為什麼用 7 分當門檻?因為:
- 5-6 分:「能看但沒特色」—— 這正是 AI 內容農場的水平
- 7 分以上:「有觀點、有深度、值得分享」
- 9-10 分:很少出現,追求這個會導致無限重寫
成本:每篇文章 2-3 次 LLM call(生成 + 評分 + 可能的重寫)。比只生成一次貴 2 倍,但品質差距巨大。
品質閘門二:Pillar Rotation
品質不只是單篇文章好不好。還有一個很容易被忽略的問題:多樣性。
如果你的 agent 連續三天都在寫「AI 安全趨勢」,讀者會覺得這帳號是壞掉了嗎?就算每篇品質都不錯,重複的主題也會讓人取消追蹤。
我的解法是 Pillar Rotation——把內容分成 5 個主題支柱,用公式保證輪替:
# 5 個 content pillars
PILLARS=("agent-ops" "tool-comparison" "case-study"
"industry-insight" "tutorial")
# 計算今天應該寫哪個
DAY=$(date +%j) # 一年中的第幾天
HOUR=$(date +%H) # 幾點
PILLAR_INDEX=$(( (DAY * 2 + HOUR / 12) % 5 ))
TODAY_PILLAR="${PILLARS[$PILLAR_INDEX]}"
為什麼不用簡單的 DAY % 5?
因為我們每天發兩次(早上和晚上)。如果只用天數,同一天的兩篇會是同一個 pillar。加入 HOUR / 12 之後,早上和晚上會是不同的 pillar。
再乘以 2 是因為:如果只用 DAY % 5,連續五天的 pillar 是 0,1,2,3,4,0,1,2,3,4... 很規律。乘以 2 之後變成 0,2,4,1,3,0,2,4,1,3... 看起來更自然。
這個小小的公式解決了「AI Groundhog Day」問題——agent 不會卡在同一個主題裡轉圈。
品質閘門三:Peer Review(跨 Agent 審稿)
這是我最喜歡的機制。
在人類團隊裡,好文章通常都經過同事 review。AI 團隊為什麼不行?
peer-review.sh 做的事:
# Probe agent 寫了一篇安全分析
# 發布前,讓 Main agent(CEO)review
reviewer_feedback=$(ask_agent "main" \
"你的隊友 Probe 寫了以下文章,準備發布:
$article_content
從品牌策略角度檢查:
1. 有沒有跟公司定位矛盾的地方?
2. 有沒有可能引起誤解的措辭?
3. 品質是否達到發布標準?
回答 APPROVE 或 REVISE + 原因")
如果 reviewer 說 REVISE,文章會帶著 feedback 回去重寫。
這不是每篇都做(太貴了)。我設定在特定條件下才觸發:
- 文章長度超過 500 字(短文不值得 review)
- 文章涉及品牌定位或競品比較(敏感內容)
- 隨機 20% 的文章(抽檢)
實際效果:Before vs After
讓我拿真實案例比較。
Before(沒有品質閘門)
標題:AI Agent 的五大優勢
內容:AI Agent 可以提高效率、降低成本、24 小時運作、
減少人為錯誤、擴展性強...(以下省略 500 字通用內容)
問題: 任何人都能寫出這個。沒有觀點、沒有數據、沒有個性。
After(三道品質閘門)
標題:我讓 4 個 AI Agent 跑了 30 天,這是它們教我的事
內容:第一週,Probe agent 抓到了一個我沒注意到的趨勢——
OWASP 發布了新版 Agentic Top 10,而我們的掃描器
只覆蓋了其中 6 項。這不是 AI 「發現」的,是因為
它每天讀 HN 趨勢,比我更早看到這個消息...
差別: 有具體數據(30 天、6/10 項)、有故事(agent 比我先看到)、有觀點(不是 AI 發現,是系統設計的結果)。
不該做的事:追求完美
品質閘門很好用,但有一個陷阱:過度優化。
我一開始把評分門檻設在 8 分。結果:
- 70% 的文章被退回重寫
- 重寫後很多還是拿不到 8 分
- 大量 LLM call 被浪費在「把 7.5 分磨成 8 分」上
- 最後產出量暴跌,一天只能發一篇
後來我降到 7 分,產出量和品質找到了甜蜜點。
原則是:7 分的文章穩定產出,比偶爾一篇 9 分但其他時候沒東西要好得多。
一致性 > 偶爾的高峰。這也是人類內容團隊的道理——你不會要求每篇文章都是神作,你要的是穩定的品質水準。
成本分析
| 機制 | 額外 LLM calls | 效果 |
|---|---|---|
| Self-Review | +1 per post | 品質從 5/10 → 7/10 |
| Rewrite | +1 per ~30% posts | 把低分文章救回來 |
| Pillar Rotation | 0 | 避免主題重複 |
| Peer Review | +1 per ~20% posts | 捕捉定位錯誤 |
| 平均每篇 | ~2.5 calls | 品質穩定在 7-8 分 |
以 Gemini 免費額度來說,每天 8 篇文章 × 2.5 calls = 20 RPD。
佔 1,500 RPD 配額的 1.3%。
用 1.3% 的配額換「不被認為是 AI 垃圾」,這筆帳怎麼算都划算。
你也能用的品質 checklist
不管你用不用 OpenClaw,這些原則適用於任何 AI 內容生產:
✅ 發布前檢查
- 標題是否有具體的數字或觀點?(不是「5 個方法」而是「我用 $0 跑了 105 個自動化任務」)
- 開頭 50 字是否有 hook?(問題、數據、或反直覺的觀點)
- 有沒有至少一個真實數據或案例?
- 文章跟最近 10 篇有沒有主題重複?
- 讀起來像人寫的,還是 AI 生成的?
🚫 AI 內容的常見問題
- 「在這個快速變化的世界裡...」→ 刪掉,直接講重點
- 「以下是五個重要的...」→ 不要列清單,講故事
- 「總結來說...」→ 結尾要有行動項,不是重述
- 空泛的「AI 可以...」→ 換成「我們用 AI 做了...結果是...」
下一篇
這個系列我們講了:為什麼需要 AI 團隊、踩了什麼坑、怎麼收集情報、怎麼讓 agent 協作、怎麼控制品質。
最後一篇,我要把所有真實數據攤開——半年下來,4 個 agent、35 個排程、$0 月費,到底做到了什麼?哪些超出預期,哪些讓我失望?一人公司用 AI 團隊的極限在哪裡?
下一篇:半年回顧:$0、4 個 Agent、35 個排程