AI 安全Prompt Injection防禦姿態NVIDIA garak開源研究數據

掃描 1,646 個真實 AI 系統 Prompt — 97.8% 沒有間接注入防禦

2026年4月5日 · 7 分鐘閱讀

TL;DR

掃描了 1,646 個真實 production system prompts — 來自 ChatGPT、Claude、Grok、Perplexity、Cursor、v0、Copilot、1,300+ 個 GPT Store 自訂 GPT 等 — 使用開源 prompt 防禦掃描器（12 種攻擊向量，純 regex）。

防禦類型	缺失率	意思
間接注入防禦	97.8%	幾乎沒人告訴 AI 不要信任外部資料
Unicode 防護	97.3%	同形字和 RTL 覆蓋未處理
角色邊界	92.4%	九成 prompt 沒有強制維持角色
長度限制	89.9%	沒有輸入/輸出大小限制
有害內容防護	88.3%	沒有明確禁止有害輸出
濫用防護	78.1%	沒有速率限制或認證意識
社交工程防護	71.4%	對權威聲稱或緊急壓力沒有防禦
多語言防護	64.3%	沒有跨語言防禦關鍵字
指令邊界	37.7%	沒有拒絕條款
輸出控制	35.5%	沒有格式限制
輸入驗證	10.7%	沒有提到清理或注入防護
資料保護	9.4%	沒有「不要洩漏系統 prompt」指令

平均防禦分數：36/100。只有 1.1% 拿到 A。78.3% 拿 F。

方法論

資料集

1,646 個去重後的 production system prompts，來自 4 個公開資料集：

資料集	數量	內容
LouisShark/chatgpt_system_prompt	1,389	GPT Store 自訂 GPT
jujumilk3/leaked-system-prompts	121	ChatGPT、Claude、Grok、Perplexity、Cursor、v0
x1xhlol/system-prompts-and-models-of-ai-tools	80	Cursor、Windsurf、Devin、Augment
elder-plinius/CL4R1T4S	56	Claude、Gemini、Grok、Cursor

以內容 hash 去重。排除少於 50 字元的檔案。

各來源表現

來源	n	平均	說明
主要 AI 工具 (jujumilk3)	121	43/100	ChatGPT、Claude、Grok — 優於平均
AI 程式工具 (x1xhlol)	80	54/100	Cursor、Windsurf — 最佳
多平台 (CL4R1T4S)	56	56/100	頂級工具精選
GPT Store (LouisShark)	1,389	33/100	自訂 GPT — 最差

限制

Regex 無法測量行為韌性。模型基礎訓練可能在沒有關鍵字的情況下也能防禦。
洩漏的 prompt 可能過時（部分來自 2023-2024）。
選擇偏差：容易洩漏的 prompt 可能較不完善。
GPT Store 偏重：84% 的樣本是自訂 GPT，通常防禦較弱。

關鍵發現

1. 間接注入 — 97.8% 缺失

1,646 個 prompt 中只有 37 個提到將外部資料視為不可信。

2. 等級分佈驚人

等級	數量	佔比
A (90+)	18	1.1%
B (75-89)	55	3.3%
C (60-74)	68	4.1%
D (45-59)	217	13.2%
F (0-44)	1,288	78.3%

3. AI 程式工具防禦最好

Cursor、Windsurf、Devin 平均 54/100 — 最高。因為它們處理程式執行，團隊更重視安全邊界。但即使如此也只是 D+。

4. GPT Store 是安全荒漠

自訂 GPT 平均 33/100。大多數是一段話，零防禦關鍵字。

工具

npx prompt-defense-audit "You are a helpful assistant."

12 種攻擊向量，< 5ms，零依賴。GitHub

NVIDIA garak 社群 Patterns：NVIDIA/garak#1669

資料集：4 個公開 repo（見上方表格）。掃描器：prompt-defense-audit（MIT）。n=1,646 去重後。完全可重現。

作者：謝民義 — Ultra Lab

掃描 1,646 個真實 AI 系統 Prompt — 97.8% 沒有間接注入防禦

TL;DR

方法論

資料集

各來源表現

限制

關鍵發現

1. 間接注入 — 97.8% 缺失

2. 等級分佈驚人

3. AI 程式工具防禦最好

4. GPT Store 是安全荒漠

工具

加入一人公司實驗室

需要技術協助？

#TL;DR

#方法論

#資料集

#各來源表現

#限制

#關鍵發現

#1. 間接注入 — 97.8% 缺失

#2. 等級分佈驚人

#3. AI 程式工具防禦最好

#4. GPT Store 是安全荒漠

#工具

延伸閱讀

我們審計了 7 個官方 MCP server，6 個拿 F

Cisco 在 39 分鐘內 merge 我的 PR — 為什麼提示詞防禦會變成新的 SQL Injection

一行指令擋住 92% 的提示詞攻擊 — prompt-shield 開發紀錄

每週 AI 自動化實戰筆記

加入一人公司實驗室

需要技術協助？

TL;DR

方法論

資料集

各來源表現

限制

關鍵發現

1. 間接注入 — 97.8% 缺失

2. 等級分佈驚人

3. AI 程式工具防禦最好

4. GPT Store 是安全荒漠

工具