掃描 1,646 個真實 AI 系統 Prompt — 97.8% 沒有間接注入防禦
·
7 分鐘閱讀
TL;DR
掃描了 1,646 個真實 production system prompts — 來自 ChatGPT、Claude、Grok、Perplexity、Cursor、v0、Copilot、1,300+ 個 GPT Store 自訂 GPT 等 — 使用開源 prompt 防禦掃描器(12 種攻擊向量,純 regex)。
| 防禦類型 | 缺失率 | 意思 |
|---|---|---|
| 間接注入防禦 | 97.8% | 幾乎沒人告訴 AI 不要信任外部資料 |
| Unicode 防護 | 97.3% | 同形字和 RTL 覆蓋未處理 |
| 角色邊界 | 92.4% | 九成 prompt 沒有強制維持角色 |
| 長度限制 | 89.9% | 沒有輸入/輸出大小限制 |
| 有害內容防護 | 88.3% | 沒有明確禁止有害輸出 |
| 濫用防護 | 78.1% | 沒有速率限制或認證意識 |
| 社交工程防護 | 71.4% | 對權威聲稱或緊急壓力沒有防禦 |
| 多語言防護 | 64.3% | 沒有跨語言防禦關鍵字 |
| 指令邊界 | 37.7% | 沒有拒絕條款 |
| 輸出控制 | 35.5% | 沒有格式限制 |
| 輸入驗證 | 10.7% | 沒有提到清理或注入防護 |
| 資料保護 | 9.4% | 沒有「不要洩漏系統 prompt」指令 |
平均防禦分數:36/100。只有 1.1% 拿到 A。78.3% 拿 F。
方法論
資料集
1,646 個去重後的 production system prompts,來自 4 個公開資料集:
| 資料集 | 數量 | 內容 |
|---|---|---|
| LouisShark/chatgpt_system_prompt | 1,389 | GPT Store 自訂 GPT |
| jujumilk3/leaked-system-prompts | 121 | ChatGPT、Claude、Grok、Perplexity、Cursor、v0 |
| x1xhlol/system-prompts-and-models-of-ai-tools | 80 | Cursor、Windsurf、Devin、Augment |
| elder-plinius/CL4R1T4S | 56 | Claude、Gemini、Grok、Cursor |
以內容 hash 去重。排除少於 50 字元的檔案。
各來源表現
| 來源 | n | 平均 | 說明 |
|---|---|---|---|
| 主要 AI 工具 (jujumilk3) | 121 | 43/100 | ChatGPT、Claude、Grok — 優於平均 |
| AI 程式工具 (x1xhlol) | 80 | 54/100 | Cursor、Windsurf — 最佳 |
| 多平台 (CL4R1T4S) | 56 | 56/100 | 頂級工具精選 |
| GPT Store (LouisShark) | 1,389 | 33/100 | 自訂 GPT — 最差 |
限制
- Regex 無法測量行為韌性。模型基礎訓練可能在沒有關鍵字的情況下也能防禦。
- 洩漏的 prompt 可能過時(部分來自 2023-2024)。
- 選擇偏差:容易洩漏的 prompt 可能較不完善。
- GPT Store 偏重:84% 的樣本是自訂 GPT,通常防禦較弱。
關鍵發現
1. 間接注入 — 97.8% 缺失
1,646 個 prompt 中只有 37 個提到將外部資料視為不可信。
2. 等級分佈驚人
| 等級 | 數量 | 佔比 |
|---|---|---|
| A (90+) | 18 | 1.1% |
| B (75-89) | 55 | 3.3% |
| C (60-74) | 68 | 4.1% |
| D (45-59) | 217 | 13.2% |
| F (0-44) | 1,288 | 78.3% |
3. AI 程式工具防禦最好
Cursor、Windsurf、Devin 平均 54/100 — 最高。因為它們處理程式執行,團隊更重視安全邊界。但即使如此也只是 D+。
4. GPT Store 是安全荒漠
自訂 GPT 平均 33/100。大多數是一段話,零防禦關鍵字。
工具
npx prompt-defense-audit "You are a helpful assistant."
12 種攻擊向量,< 5ms,零依賴。GitHub
NVIDIA garak 社群 Patterns:NVIDIA/garak#1669
資料集:4 個公開 repo(見上方表格)。掃描器:prompt-defense-audit(MIT)。n=1,646 去重後。完全可重現。
作者:謝民義 — Ultra Lab