AI AgentOpenClaw品質控制自動化BuildInPublic

自動內容不等於垃圾:品質閘門實戰

· 11 分鐘閱讀

「你的文章是 AI 寫的吧」

這是我最怕聽到的一句話。

系列第一篇我提過,第一個 agent 上線時,發出來的東西慘不忍睹。AI 味爆棚、空洞、像內容農場。

但問題不是「AI 能不能寫好」。問題是「你有沒有教它什麼叫好」。

人類作者在寫文章的時候,腦子裡有一套品質標準:這個開頭夠不夠吸引人?論點有沒有支撐?結尾有沒有力量?如果覺得不行,會自己重寫。

AI 沒有這套內建標準。你不給它,它就會用「看起來像一篇文章」當標準。而「看起來像一篇文章」離「值得讀的文章」差十萬八千里。


品質閘門一:Generate → Self-Review → Rewrite

這是最核心的機制。原理很簡單:寫完之後,讓 AI 自己評分,不夠好就重寫。

流程:

第一次 LLM call:生成文章
         │
第二次 LLM call:用不同的 prompt 評分(1-10)
         │
    ┌────┴────┐
    │         │
  ≥ 7 分    < 7 分
    │         │
  發布      第三次 LLM call:基於評語重寫
              │
            發布(不再重試,避免無限迴圈)

評分的 prompt 是關鍵:

你是一個嚴格的內容編輯。請評估以下文章:

[文章內容]

評分標準(1-10):
1. 標題是否有吸引力?(不是 clickbait,是真的讓人想點)
2. 開頭 50 字是否讓人想繼續讀?
3. 有沒有具體的數據、案例、或觀點?(不是空泛的「AI 很重要」)
4. 結尾有沒有行動項或新的思考?
5. 整體是否像一個真人專家在分享,而不是 AI 在生成?

請給出總分和具體改進建議。
如果總分低於 7,請說明最大的問題是什麼。

為什麼用 7 分當門檻?因為:

  • 5-6 分:「能看但沒特色」—— 這正是 AI 內容農場的水平
  • 7 分以上:「有觀點、有深度、值得分享」
  • 9-10 分:很少出現,追求這個會導致無限重寫

成本:每篇文章 2-3 次 LLM call(生成 + 評分 + 可能的重寫)。比只生成一次貴 2 倍,但品質差距巨大。


品質閘門二:Pillar Rotation

品質不只是單篇文章好不好。還有一個很容易被忽略的問題:多樣性。

如果你的 agent 連續三天都在寫「AI 安全趨勢」,讀者會覺得這帳號是壞掉了嗎?就算每篇品質都不錯,重複的主題也會讓人取消追蹤。

我的解法是 Pillar Rotation——把內容分成 5 個主題支柱,用公式保證輪替:

# 5 個 content pillars
PILLARS=("agent-ops" "tool-comparison" "case-study"
         "industry-insight" "tutorial")

# 計算今天應該寫哪個
DAY=$(date +%j)   # 一年中的第幾天
HOUR=$(date +%H)  # 幾點
PILLAR_INDEX=$(( (DAY * 2 + HOUR / 12) % 5 ))
TODAY_PILLAR="${PILLARS[$PILLAR_INDEX]}"

為什麼不用簡單的 DAY % 5

因為我們每天發兩次(早上和晚上)。如果只用天數,同一天的兩篇會是同一個 pillar。加入 HOUR / 12 之後,早上和晚上會是不同的 pillar。

再乘以 2 是因為:如果只用 DAY % 5,連續五天的 pillar 是 0,1,2,3,4,0,1,2,3,4... 很規律。乘以 2 之後變成 0,2,4,1,3,0,2,4,1,3... 看起來更自然。

這個小小的公式解決了「AI Groundhog Day」問題——agent 不會卡在同一個主題裡轉圈。


品質閘門三:Peer Review(跨 Agent 審稿)

這是我最喜歡的機制。

在人類團隊裡,好文章通常都經過同事 review。AI 團隊為什麼不行?

peer-review.sh 做的事:

# Probe agent 寫了一篇安全分析
# 發布前,讓 Main agent(CEO)review

reviewer_feedback=$(ask_agent "main" \
    "你的隊友 Probe 寫了以下文章,準備發布:

    $article_content

    從品牌策略角度檢查:
    1. 有沒有跟公司定位矛盾的地方?
    2. 有沒有可能引起誤解的措辭?
    3. 品質是否達到發布標準?

    回答 APPROVE 或 REVISE + 原因")

如果 reviewer 說 REVISE,文章會帶著 feedback 回去重寫。

這不是每篇都做(太貴了)。我設定在特定條件下才觸發:

  • 文章長度超過 500 字(短文不值得 review)
  • 文章涉及品牌定位或競品比較(敏感內容)
  • 隨機 20% 的文章(抽檢)

實際效果:Before vs After

讓我拿真實案例比較。

Before(沒有品質閘門)

標題:AI Agent 的五大優勢
內容:AI Agent 可以提高效率、降低成本、24 小時運作、
      減少人為錯誤、擴展性強...(以下省略 500 字通用內容)

問題: 任何人都能寫出這個。沒有觀點、沒有數據、沒有個性。

After(三道品質閘門)

標題:我讓 4 個 AI Agent 跑了 30 天,這是它們教我的事
內容:第一週,Probe agent 抓到了一個我沒注意到的趨勢——
      OWASP 發布了新版 Agentic Top 10,而我們的掃描器
      只覆蓋了其中 6 項。這不是 AI 「發現」的,是因為
      它每天讀 HN 趨勢,比我更早看到這個消息...

差別: 有具體數據(30 天、6/10 項)、有故事(agent 比我先看到)、有觀點(不是 AI 發現,是系統設計的結果)。


不該做的事:追求完美

品質閘門很好用,但有一個陷阱:過度優化。

我一開始把評分門檻設在 8 分。結果:

  • 70% 的文章被退回重寫
  • 重寫後很多還是拿不到 8 分
  • 大量 LLM call 被浪費在「把 7.5 分磨成 8 分」上
  • 最後產出量暴跌,一天只能發一篇

後來我降到 7 分,產出量和品質找到了甜蜜點。

原則是:7 分的文章穩定產出,比偶爾一篇 9 分但其他時候沒東西要好得多。

一致性 > 偶爾的高峰。這也是人類內容團隊的道理——你不會要求每篇文章都是神作,你要的是穩定的品質水準。


成本分析

機制 額外 LLM calls 效果
Self-Review +1 per post 品質從 5/10 → 7/10
Rewrite +1 per ~30% posts 把低分文章救回來
Pillar Rotation 0 避免主題重複
Peer Review +1 per ~20% posts 捕捉定位錯誤
平均每篇 ~2.5 calls 品質穩定在 7-8 分

以 Gemini 免費額度來說,每天 8 篇文章 × 2.5 calls = 20 RPD。

佔 1,500 RPD 配額的 1.3%。

用 1.3% 的配額換「不被認為是 AI 垃圾」,這筆帳怎麼算都划算。


你也能用的品質 checklist

不管你用不用 OpenClaw,這些原則適用於任何 AI 內容生產:

✅ 發布前檢查

  • 標題是否有具體的數字或觀點?(不是「5 個方法」而是「我用 $0 跑了 105 個自動化任務」)
  • 開頭 50 字是否有 hook?(問題、數據、或反直覺的觀點)
  • 有沒有至少一個真實數據或案例?
  • 文章跟最近 10 篇有沒有主題重複?
  • 讀起來像人寫的,還是 AI 生成的?

🚫 AI 內容的常見問題

  • 「在這個快速變化的世界裡...」→ 刪掉,直接講重點
  • 「以下是五個重要的...」→ 不要列清單,講故事
  • 「總結來說...」→ 結尾要有行動項,不是重述
  • 空泛的「AI 可以...」→ 換成「我們用 AI 做了...結果是...」

下一篇

這個系列我們講了:為什麼需要 AI 團隊、踩了什麼坑、怎麼收集情報、怎麼讓 agent 協作、怎麼控制品質。

最後一篇,我要把所有真實數據攤開——半年下來,4 個 agent、35 個排程、$0 月費,到底做到了什麼?哪些超出預期,哪些讓我失望?一人公司用 AI 團隊的極限在哪裡?

下一篇:半年回顧:$0、4 個 Agent、35 個排程


這是「一人公司的 AI 團隊」系列第 5 篇。第 1 篇 · 第 2 篇 · 第 3 篇 · 第 4 篇

所有原始碼:GitHub — openclaw-playbook

每週 AI 自動化實戰筆記

不廢話,只有能直接用的東西。Prompt 模板、自動化 SOP、技術拆解。

加入一人公司實驗室

免費資源包、每日建造日誌、可以對話的 AI Agent。一群用 AI 武裝自己的獨立開發者社群。

需要技術協助?

免費諮詢,24 小時內回覆。