本地 GPU 推論 vs 雲端 API:30 天真實成本分析
本地 GPU 推論 vs 雲端 API:30 天真實成本分析
「最便宜的 API 呼叫,是你從沒打過的那一通。」
每間 AI 新創都會面對這個問題:推論要跑在本地 GPU,還是用雲端 API?答案取決於你的工作負載、資料敏感度、和規模。
我們兩邊都跑過。30 天內,我們追蹤了每一筆費用 — 硬體攤提、電費、API 費用、和沒人提到的隱藏成本。以下是我們的發現。
我們的工作負載
比較成本之前,先了解我們在跑什麼:
| 指標 | 數值 |
|---|---|
| AI Agents | 4 隻自治 Agent |
| 每日推論請求 | ~105 |
| 每月請求 | ~3,150 |
| 平均每次輸出 token | ~200 |
| 每月總輸出 token | ~630,000 |
| 每月總輸入 token | ~2,500,000 |
| 任務類型 | 社群貼文、互動回覆、研究摘要、策略備忘錄 |
這是低到中量的工作負載。不是服務數千用戶的高吞吐量 API — 而是一組自治 Agent 做內部自動化。
方案一:NVIDIA RTX 3060 Ti(本地)
硬體成本
| 項目 | 費用 | 攤提(36 個月) |
|---|---|---|
| RTX 3060 Ti(二手) | $300 | $8.33/月 |
| 其他硬體不需額外購買 | $0 | — |
| 硬體合計 | $300 | $8.33/月 |
我們已有 Windows 桌機。GPU 是唯一的採購。如果要買整套系統,加約 $500-800 買基本工作站。
營運成本
| 項目 | 月費 |
|---|---|
| 電費(閒置 ~15W、滿載 ~200W、平均 ~25W) | ~$5 |
| 網路(已有) | $0 |
| 維護(systemd 自動化) | $0 |
| 營運合計 | ~$5/月 |
每月總成本
硬體攤提: $8.33
電費: $5.00
─────────────────
合計: $13.33/月
GPU 攤提完(第 37 個月起):$5/月。
方案二:雲端 API
以我們的精確工作負載計算(3,150 請求/月,250 萬輸入 + ~63 萬輸出 token):
第一層:平價 API
| 供應商 | 模型 | 輸入費用 | 輸出費用 | 月費合計 |
|---|---|---|---|---|
| Google Gemini Flash | 2.5 Flash | 免費(1,500 RPD) | 免費 | $0 |
| OpenAI | GPT-4o-mini | $0.375 | $0.945 | $1.32 |
| Anthropic | Haiku 4.5 | $2.00 | $6.30 | $8.30 |
第二層:中階 API
| 供應商 | 模型 | 輸入費用 | 輸出費用 | 月費合計 |
|---|---|---|---|---|
| OpenAI | GPT-4o | $6.25 | $6.30 | $12.55 |
| Anthropic | Sonnet 4.6 | $7.50 | $9.45 | $16.95 |
| Gemini Pro | $3.13 | $6.30 | $9.43 |
第三層:前沿 API
| 供應商 | 模型 | 輸入費用 | 輸出費用 | 月費合計 |
|---|---|---|---|---|
| OpenAI | o3 | $25.00 | $63.00 | $88.00 |
| Anthropic | Opus 4.6 | $37.50 | $94.50 | $132.00 |
真正的比較
乍看之下,雲端 API 贏了。GPT-4o-mini 每月 $1.32,比我們本地 $13.33 便宜。
但有些隱藏成本不會出現在定價頁面上:
隱藏成本 1:帳單意外
我們學到慘痛教訓。一個從啟用計費的 Google Cloud 專案建立的 Gemini API key,7 天花了 $127.80。思考 token 計費 $3.50/1M — 比輸入 token 貴 47 倍。啟用計費後沒有速率限制上限。
本地推論:你的成本就是電費。就這樣。不會有意外。
隱藏成本 2:速率限制
Gemini 免費方案:1,500 RPD。聽起來很多,直到你的 Agent 艦隊成長。我們在忙碌的一天(4 隻 Agent + 手動測試)就撞到上限。生產環境停擺 6 小時,等每日配額重置。
本地推論:沒有速率限制。你的 GPU 隨時可用。
隱藏成本 3:隱私合規
如果你處理敏感資料(客戶資訊、商業策略、財務數據),送到第三方 API 可能需要:
- 資料處理協議(企業方案 $2,000-10,000/年)
- 合規稽核($5,000-20,000/年)
- 各供應商條款的法律審查
本地推論:資料永遠不離開你的網路。不需要任何協議。
隱藏成本 4:延遲稅
雲端 API 延遲:每次請求 300-800ms。3,150 個月請求下來,就是每月 15-42 分鐘的等待。即時 Agent 互動下,這會累積。
本地推論:首 token ~200ms。穩定。沒有網路變異。
隱藏成本 5:供應商綁定
如果 OpenAI 改價格(他們改過好幾次),你只能接受。如果 Anthropic 淘汰某個模型,你就得遷移。每次遷移都有工程成本。
本地推論:你掌控模型。想升級就升級,不是供應商逼你升級。
損益平衡分析
什麼時候本地 GPU 變得比雲端 API 便宜?
vs. GPT-4o-mini($1.32/月)
本地成本: $13.33/月(前 36 個月),之後 $5/月
API 成本: $1.32/月
損益平衡: 永遠不會(純成本比較)
對超便宜 API,本地推論永遠贏不了成本。但你買的是隱私、穩定性和獨立性 — 不只是 token。
vs. GPT-4o($12.55/月)
累計本地(36 月):$480
累計 API(36 月):$452
損益平衡: 第 38 個月
vs. 前沿模型($88-132/月)
損益平衡: 第 3-4 個月
關鍵洞察:本地 GPU 推論對中階和前沿模型很快就能回本。對平價 API,價值主張是隱私和控制,不是成本。
規模因素
以上分析基於 ~3,150 請求/月。規模擴大會怎樣?
| 月請求量 | 本地成本 | GPT-4o-mini | GPT-4o | Haiku |
|---|---|---|---|---|
| 3,150 | $13.33 | $1.32 | $12.55 | $8.30 |
| 10,000 | $13.33 | $4.19 | $39.84 | $26.35 |
| 30,000 | $13.33 | $12.57 | $119.52 | $79.05 |
| 100,000 | $13.33 | $41.90 | $398.40 | $263.50 |
本地推論成本是固定的。 不管跑 3,000 或 100,000 個請求 — 電費幾乎不變。雲端 API 成本線性增長。
30,000+ 請求/月時,本地推論打贏除了免費方案以外的所有選項。
我們的建議
| 情境 | 建議 |
|---|---|
| 原型開發 / 低量 | 雲端 API(更便宜、零設定) |
| 隱私敏感資料 | 本地 GPU(資料不出網路) |
| 10K+ 請求/月 | 本地 GPU(成本優勢越來越大) |
| 需要前沿推理能力 | 雲端 API(本地 7B 無法匹敵 GPT-4/Claude) |
| 生產級自治 Agent | 混合模式(例行用本地、複雜用 API) |
我們實際怎麼做
我們用混合方案:
- Ollama(本地):所有 4 隻 Agent 的日常任務 — 社群貼文、互動、研究摘要。約 95% 的請求。
- Gemini Flash(API):UltraProbe 深度弱點分析 — 需要更大的上下文和更強的推理能力。約 5% 的請求。
這讓我們兩邊的優勢都拿到:例行工作有可預測的成本,需要時有前沿能力。
硬體推薦
如果你考慮本地推論:
| GPU | VRAM | 最大模型 | 速度(7B) | 二手價格 | 最適合 |
|---|---|---|---|---|---|
| RTX 3060 Ti | 8GB | 7B(Q4) | 13 tok/s | $300 | 個人/小團隊 |
| RTX 3090 | 24GB | 32B(Q4) | 20 tok/s | $700 | 中量工作負載 |
| RTX 4090 | 24GB | 32B(Q4) | 40 tok/s | $1,600 | 高吞吐量 |
| 2x RTX 3090 | 48GB | 70B(Q4) | 15 tok/s | $1,400 | 大型模型 |
RTX 3060 Ti 是入門點。需要更大模型或更高吞吐量,RTX 3090(二手)的 VRAM 性價比最高。
結論
本地 GPU 推論不一定比雲端 API 便宜。低量工作負載搭配平價模型,API 贏純成本。
但成本不是唯一變數。隱私、穩定性、控制權、和可預測性都很重要。把帳單意外、速率限制、和合規開銷算進去,本地推論常常贏 — 尤其在規模化之後。
真正的問題不是「GPU 還是 API?」而是「你在優化什麼?」
Ultra Lab 造 AI 產品,用 NVIDIA GPU 推論驅動。我們在一張 RTX 3060 Ti 上跑 4 隻自治 Agent。了解更多:ultralab.tw