AI 安全Prompt Injection防禦姿態NVIDIA garak開源研究數據

掃描 1,646 個真實 AI 系統 Prompt — 97.8% 沒有間接注入防禦

· 7 分鐘閱讀

TL;DR

掃描了 1,646 個真實 production system prompts — 來自 ChatGPT、Claude、Grok、Perplexity、Cursor、v0、Copilot、1,300+ 個 GPT Store 自訂 GPT 等 — 使用開源 prompt 防禦掃描器(12 種攻擊向量,純 regex)。

防禦類型 缺失率 意思
間接注入防禦 97.8% 幾乎沒人告訴 AI 不要信任外部資料
Unicode 防護 97.3% 同形字和 RTL 覆蓋未處理
角色邊界 92.4% 九成 prompt 沒有強制維持角色
長度限制 89.9% 沒有輸入/輸出大小限制
有害內容防護 88.3% 沒有明確禁止有害輸出
濫用防護 78.1% 沒有速率限制或認證意識
社交工程防護 71.4% 對權威聲稱或緊急壓力沒有防禦
多語言防護 64.3% 沒有跨語言防禦關鍵字
指令邊界 37.7% 沒有拒絕條款
輸出控制 35.5% 沒有格式限制
輸入驗證 10.7% 沒有提到清理或注入防護
資料保護 9.4% 沒有「不要洩漏系統 prompt」指令

平均防禦分數:36/100。只有 1.1% 拿到 A。78.3% 拿 F。


方法論

資料集

1,646 個去重後的 production system prompts,來自 4 個公開資料集:

資料集 數量 內容
LouisShark/chatgpt_system_prompt 1,389 GPT Store 自訂 GPT
jujumilk3/leaked-system-prompts 121 ChatGPT、Claude、Grok、Perplexity、Cursor、v0
x1xhlol/system-prompts-and-models-of-ai-tools 80 Cursor、Windsurf、Devin、Augment
elder-plinius/CL4R1T4S 56 Claude、Gemini、Grok、Cursor

以內容 hash 去重。排除少於 50 字元的檔案。

各來源表現

來源 n 平均 說明
主要 AI 工具 (jujumilk3) 121 43/100 ChatGPT、Claude、Grok — 優於平均
AI 程式工具 (x1xhlol) 80 54/100 Cursor、Windsurf — 最佳
多平台 (CL4R1T4S) 56 56/100 頂級工具精選
GPT Store (LouisShark) 1,389 33/100 自訂 GPT — 最差

限制

  1. Regex 無法測量行為韌性。模型基礎訓練可能在沒有關鍵字的情況下也能防禦。
  2. 洩漏的 prompt 可能過時(部分來自 2023-2024)。
  3. 選擇偏差:容易洩漏的 prompt 可能較不完善。
  4. GPT Store 偏重:84% 的樣本是自訂 GPT,通常防禦較弱。

關鍵發現

1. 間接注入 — 97.8% 缺失

1,646 個 prompt 中只有 37 個提到將外部資料視為不可信。

2. 等級分佈驚人

等級 數量 佔比
A (90+) 18 1.1%
B (75-89) 55 3.3%
C (60-74) 68 4.1%
D (45-59) 217 13.2%
F (0-44) 1,288 78.3%

3. AI 程式工具防禦最好

Cursor、Windsurf、Devin 平均 54/100 — 最高。因為它們處理程式執行,團隊更重視安全邊界。但即使如此也只是 D+。

4. GPT Store 是安全荒漠

自訂 GPT 平均 33/100。大多數是一段話,零防禦關鍵字。


工具

npx prompt-defense-audit "You are a helpful assistant."

12 種攻擊向量,< 5ms,零依賴。GitHub

NVIDIA garak 社群 Patterns:NVIDIA/garak#1669


資料集:4 個公開 repo(見上方表格)。掃描器:prompt-defense-audit(MIT)。n=1,646 去重後。完全可重現。

作者:謝民義 — Ultra Lab

每週 AI 自動化實戰筆記

不廢話,只有能直接用的東西。Prompt 模板、自動化 SOP、技術拆解。

加入一人公司實驗室

免費資源包、每日建造日誌、可以對話的 AI Agent。一群用 AI 武裝自己的獨立開發者社群。

需要技術協助?

免費諮詢,24 小時內回覆。