AI 成本GeminiClaudeOllama本地 LLM免費方案Benchmark

免費方案大亂鬥 2026:Gemini vs Claude vs Ollama 誰最划算?

· 15 分鐘閱讀

免費方案大亂鬥 2026:Gemini vs Claude vs Ollama 誰最划算?

「省錢不是選最便宜的工具,而是讓每一塊錢打在正確的模型上。」

2026 年 Q1,我們在 Ultra Lab 同時營運了三套 LLM 基礎設施:

  • Google Gemini 2.5 Flash(免費方案)— 驅動 4 隻 AI Agent,每天 1,500 個請求
  • Claude Opus 4.6(Pro 方案,US$20/月)— 處理所有核心開發、程式碼審查、文件撰寫
  • Ollama + ultralab:7b(RTX 3060 Ti 本地推理)— 跑內容產製和批次任務

經過 90 天的平行運行,我們有了一組真實的成本效能數據——不是官方白皮書上的數字,是我們每天看著帳單和 dashboard 得出的結論。

這篇文章把它們攤開來比。


1. 免費到底能拿到什麼?

先看三個選項的「紙面規格」:

項目 Gemini 2.5 Flash (Free) Claude Pro (US$20/mo) Ollama ultralab:7b (Local)
月費 NT$0 ~NT$650 NT$0(軟體免費)
每日請求上限 1,500 RPD 依用量動態調整 無限
模型等級 Flash(快但淺) Opus 4.6(頂級推理) 7B 參數(輕量)
上下文長度 1M tokens 200K tokens(1M 可用) 16,384 tokens
推理速度 ~80 tok/s ~40 tok/s 13.2 tok/s
程式碼能力 ★★★☆ ★★★★★ ★★☆☆☆
中文能力 ★★★★ ★★★★★ ★★★★(qwen2.5 底)
離線可用

看起來各有千秋。但紙面規格和實際體驗是兩回事。


2. 隱藏成本:我們踩過的每一個坑

Gemini 的坑:「免費」可以瞬間變 NT$4,000

Gemini 免費方案最大的問題不是額度不夠——是帳單地雷

2026 年 3 月 7 日,我們的一個 Gemini API key 被綁到了一個啟用計費的 GCP 專案上。免費額度在當天耗盡後,系統沒有任何警告,直接開始按量計費。一個晚上醒來,帳單上多了 NT$4,000(~US$127.80)

教訓

⚠️ NEVER create API keys from billing-enabled GCP projects
⚠️ 永遠在「無計費」的專案下建立 API key
⚠️ reasoning 參數必須設為 false(不然每次請求 token 用量暴增 3-5 倍)

另外,reasoning: true 會讓每個請求的 token 消耗暴增。我們把它關掉後,相同任務的 token 用量降了 70%。以 1,500 RPD 的免費額度來說,這等於把有效產能提升到 3 倍以上。

Claude 的坑:用量上限是動態的「黑盒」

Claude Pro 的定價看似簡單——每月 US$20,用到飽。但實際上:

  • 用量上限隨需求動態調整,尖峰時段會被限制
  • Opus 4.6 模型消耗的額度是 Sonnet 的 5 倍
  • 沒有官方的 token 用量儀表板,你不知道自己還剩多少

好處是:台灣白天是美國離峰。UTC-8 的凌晨 3 點到下午 3 點(台灣上午 11 點到凌晨 7 點),用量上限會加倍。我們把大型任務(長篇文件、完整程式碼審查)排在白天執行,等於用 US$20 的價格拿到接近 US$40 的產能。

Ollama 的坑:「免費推理」的電費帳單

本地跑 LLM 不用付 API 費用,但 GPU 不是靠愛發電的。

我們的實測數據(RTX 3060 Ti,8GB VRAM):

項目 數值
推理時 GPU 功耗 ~180W
閒置功耗 ~15W
每天推理時間 ~6 小時
月電費(台灣電價 NT$3.5/kWh) ~NT$340
模型載入時間 2-3 秒(冷啟動)
13.2 tok/s 的實際體驗 可用,但等待感明顯

另外一個隱藏成本:你不能同時做別的 GPU 密集任務。我們曾經在 Ollama 推理時下載新模型,速度從 13.2 tok/s 暴跌到 0.1 tok/s——幾乎等於不能用。


3. 真實場景成本:每 1,000 次請求要多少錢?

我們把三個月的使用數據整理成單位成本:

假設條件

  • 每次請求平均 input 800 tokens + output 400 tokens
  • 每天 500 次有效請求(排除失敗、重試)
  • 計算月度總成本

成本對比表

指標 Gemini Free Claude Pro Ollama Local
月費 NT$0 NT$650 NT$340(電費)
月可用請求數 ~45,000 ~15,000*(動態) 無上限
每千次請求成本 NT$0 ~NT$43 ~NT$3**(電費分攤)
品質分數(我們主觀評分) 72/100 95/100 58/100
每品質分成本 NT$0 NT$0.45/分 NT$0.05/分
失敗率(超限/錯誤) 3.2% 1.1% 0.4%

*Claude 用量上限因模型和時段不同,此為 Opus 4.6 估計值 **以每月 ~100,000 次推理計算,電費 NT$340 ÷ 100 千次

注意:Gemini 的「每千次請求成本 NT$0」是建立在你沒有踩到計費地雷的前提下。一旦踩到,單月成本可能暴增 10 倍以上。


4. 什麼場景該用什麼?決策樹

經過三個月的實戰,我們總結出這套決策邏輯:

你要處理什麼任務?
│
├─ 需要頂級推理能力(程式碼、架構設計、複雜寫作)
│  └─→ Claude Opus 4.6
│      排在台灣白天執行(離峰時段)
│
├─ 大量重複性任務(社群發文、互動回覆、分類標記)
│  └─→ Gemini 2.5 Flash (Free)
│      設定 reasoning: false
│      API key 綁定無計費專案
│
├─ 需要離線 / 隱私 / 無限額度
│  └─→ Ollama 本地推理
│      適合:內容草稿、資料清理、批次處理
│
├─ 長上下文(>100K tokens)
│  └─→ Gemini(1M context window)
│      Claude 也行但會吃更多配額
│
└─ 即時性要求高(<2 秒回應)
   └─→ Gemini Flash > Claude Sonnet > Ollama
       本地推理的 13.2 tok/s 不適合即時場景

一句話版本

場景 最佳選擇 原因
寫程式 / 架構設計 Claude 推理品質差距太大
社群 Agent 自動化 Gemini Free 1,500 RPD 免費,量大
內容批次產製 Ollama 無限額度,不需即時性
長文件分析 Gemini 1M context 無對手
客戶面對的即時回應 Gemini Flash 速度快、免費
機密資料處理 Ollama 資料不出本機

5. 組合拳策略:三個一起用才是最佳解

我們現在的架構長這樣:

┌─────────────────────────────────────────────────┐
│              Ultra Lab LLM 架構                  │
├─────────────────────────────────────────────────┤
│                                                  │
│  ┌──────────┐   高品質任務    ┌──────────────┐  │
│  │          │ ──────────────→ │ Claude Opus  │  │
│  │          │   (開發/寫作)    │ US$20/月     │  │
│  │          │                 └──────────────┘  │
│  │          │                                    │
│  │  任務     │   大量自動化    ┌──────────────┐  │
│  │  路由器   │ ──────────────→ │ Gemini Flash │  │
│  │          │   (Agent Fleet)  │ NT$0/月      │  │
│  │          │                 └──────────────┘  │
│  │          │                                    │
│  │          │   批次/離線     ┌──────────────┐  │
│  │          │ ──────────────→ │ Ollama 7B    │  │
│  └──────────┘   (內容產製)    │ NT$340/月    │  │
│                               └──────────────┘  │
├─────────────────────────────────────────────────┤
│  月總成本:NT$990(~US$30)                      │
│  月總產能:~60,000+ 有效請求                      │
│  等效純 Claude 成本:~US$600+                     │
└─────────────────────────────────────────────────┘

實際月成本拆解

項目 成本 佔比 請求數
Claude Pro NT$650 66% ~15,000
Gemini Free NT$0 0% ~45,000
Ollama 電費 NT$340 34% ~100,000+
月總計 NT$990 100% 160,000+

如果全部用 Claude API(不是 Pro 訂閱,是 pay-per-token)跑同樣的量,月成本大約是 US$600-800(~NT$19,000-26,000)。

我們的組合策略,成本是純雲端方案的 4-5%。


6. 三個月後的結論

Gemini 免費方案

適合:量大、品質要求中等的自動化任務 不適合:任何需要精準推理的場景 存活條件:你必須 100% 確定 API key 沒有綁到計費專案

Claude Pro

適合:核心開發、高品質內容、任何你不想出錯的任務 不適合:大量重複性的批次任務(配額會被快速消耗) 加分項:台灣時區讓你天生享受離峰紅利

Ollama 本地推理

適合:批次內容產製、資料清理、離線場景、隱私敏感任務 不適合:即時回應、複雜推理、GPU 已被其他任務佔用時 前提:你有一張還算 OK 的獨顯(至少 8GB VRAM)

終極答案

沒有「最划算的單一選項」。只有「最划算的組合」。

如果你只能選一個:

  • 預算 NT$0 → Gemini Free(小心計費地雷)
  • 預算 NT$650 → Claude Pro(品質無可替代)
  • 已有 GPU → Ollama(邊際成本趨近於零)

如果你三個都用:

  • 月成本 NT$990,產能抵得上 NT$20,000+ 的純雲端方案。

想知道你的網站被 AI 怎麼看?

UltraProbe 免費掃描你的網站——看看 AI 搜尋引擎如何理解你的品牌。5 種掃描模式,SEO + AEO 模式完全免費,零成本。

不想自己動手?UltraGrowth 代操方案 讓我們幫你從掃描到優化一條龍搞定。


本文數據基於 Ultra Lab 2026 年 Q1(1-3 月)的實際營運記錄。硬體環境:RTX 3060 Ti / 32GB RAM / Windows 11 + WSL2。所有成本以新台幣計算,匯率以 1 USD ≈ 32.5 TWD 估算。

每週 AI 自動化實戰筆記

不廢話,只有能直接用的東西。Prompt 模板、自動化 SOP、技術拆解。

加入一人公司實驗室

免費資源包、每日建造日誌、可以對話的 AI Agent。一群用 AI 武裝自己的獨立開發者社群。

需要技術協助?

免費諮詢,24 小時內回覆。