技術報告 · 2026-04-30
本機 LLM 與 Mac 採購完整 技術報告
Gemma 4 · Apple Silicon · Claude Code / Copilot CLI 整合分析
tokens/sec、KV Cache、能耗等實測數據來自 llama.cpp、Unsloth、LLMCheck、Hardware Corner、Reddit r/LocalLLaMA 等社群來源。對未實測之組合會明確標註「估算值」。內容不構成購買建議。
前情提要 · 命名差異
Gemma 4 命名與你問的規格不同
! 你的研究指定
「Gemma 4 模型尺寸:1B、4B、12B、27B」
x 實際發布
2026-04-02 Google DeepMind 發布的 Gemma 4,採用 E2B / E4B / 26B-A4B / 31B 命名,與上述尺寸完全不對應。
blog.google · huggingface.co/unsloth
+ 對應關係
1B / 4B / 12B / 27B 實際對應的是 Gemma 3 (2025/2026 上半年),現仍可從 Ollama 取得。下文表格將同時列出兩個世代。
前情提要 · SKU 對應
你問的尺寸 → 實際 SKU
你提問 Gemma 4 SKU 架構 最大 ctx
1B E2B Dense + PLE 128K
4B E4B Dense + PLE 128K
12B — 無對應 — 最近為 26B-A4B 256K
27B 31B Dense Dense(旗艦) 256K
Gemma 4 額外 MoE 款
26B-A4B MoE,128 experts / 8 active · 活躍參數僅 4B · 256K ctx
PLE = Per-Layer Embeddings。E2B/E4B 在效能上等同 Dense 模型,但實際參數量較大;以「有效參數」計大致為 2.3B / 4.5B。
主題一 · 1.1 模型權重
GGUF 權重大小(Unsloth Dynamic 2.0)
模型 Q4_K_M Q8_0 BF16
Gemma 4 E2B~2.3B 有效 ~1.6 GB ~2.6 GB ~4.6 GB
Gemma 4 E4B~4.5B 有效 ~3.0 ~5.0 ~9.0
Gemma 4 26B-A4BMoE 16.9 26.9 50.5
Gemma 4 31BDense 旗艦 18.3 32.6 61.4
Gemma 3 1B 0.5 ~1.0 2.0
Gemma 3 4B 2.6 ~4.5 8.0
Gemma 3 12B 6.6 ~13 24
Gemma 3 27B 14.1–15.1 ~28 54
來源 unsloth/gemma-4-26B-A4B-it-GGUF · unsloth/gemma-4-31B-it-GGUF · developers.googleblog.com。E2B/E4B 為估算(依 BF16 對半推算)。
主題一 · 1.2 KV Cache
KV Cache 與 Gemma 5:1 attention
60–70%
KV Cache 減量
Gemma 3/4 採用 5:1 local-to-global attention(local sliding window=1024)相對於純 global attention
×0.5
Q8_0 KV 量化
啟用 cache-type-k q8_0 直接砍半 KV 大小
~30%
Flash Attention
降低 activation buffer;Gemma 4 hybrid local/global 仰賴 FA sliding window
+ 實測壓縮
啟用 --cache-type-k q8_0 -fa on (llama.cpp)或 OLLAMA_KV_CACHE_TYPE=q8_0 (Ollama),32K context KV 從 ~15 GB 壓到 ~5 GB。
Gemma4.wiki · Gemma 3 Tech Report 圖 6
KV (bytes) = 2 × L × H_kv × T × d_head × bytes_per_element · bytes_per_element:FP16=2 / Q8_0=1 / Q4_0=0.5
主題一 · 1.3 macOS 記憶體
統一記憶體需求(Gemma 4 旗艦)
量化(權重) 8K 32K 128K 256K
26B-A4B Q4 (16.9 G) 24 24 32 32
26B-A4B Q5 (21.2 G) 32 32 32 48
26B-A4B Q8 (26.9 G) 32 48 48 64
31B Q4 (18.3 G) 24 32 32 48
31B Q5 (21.7 G) 32 32 48 48
31B Q8 (32.6 G) 48 48 64 96
31B BF16 (61.4 G) 96 96 128 192
數字 = Mac 統一記憶體(GB) · 綠 完全 GPU offload · 琥 吃緊但可行 · 含權重 + KV(FP16, FA on) + OS 4–6 GB。
主題一 · 1.4 Apple Silicon 速度
M4 Pro / Max / M5 Max 雷達比較
E4B 速度
14B 速度
26B-MoE
31B Dense
256K ctx
記憶體頻寬
M4 Pro 24 GB
16/30
M4 Max 36–128 GB
25/30
M5 Max
27/30
tokens/sec @ Q4_K_M, 4–8K ctx,1–5 評分。來源 LLMCheck.net · ollama.com/blog/mlx · Hardware Corner · Daniel Vaughan (Medium) · llama.cpp Discussion #4167。
主題一 · 1.5 已知陷阱
Apple Silicon Metal / FA 注意事項
x Ollama + Gemma 4 + FA hang
v0.20.3 + Gemma 4 + Flash Attention,prompt > 500 tokens 整個 hang。Codex CLI 系統 prompt 約 27K tokens,幾乎一定觸發 。
Daniel Vaughan, Medium 2026-04 · 解法:改 llama.cpp 直連 + -fa on -ctk q8_0 -ctv q8_0
! M3 Pro 帶寬陷阱
Apple 將 M3 Pro 帶寬從 200 GB/s 降至 150 GB/s ,部分使用者在 LLM 工作負載上反而比 M2 Pro 慢。
+ MLX 後端紅利
MLX 後端在 < 14B 模型上比 llama.cpp 快 20–87% 。Ollama 0.19+(2026 Q1)在 32 GB+ 統一記憶體 Mac 上自動啟用 MLX,多數模型 decode 速度提升 ~93%。
blog.starmorph.com
主題二 · 2.1 Windows VRAM
RTX VRAM 對應最大模型(Q4,8K ctx)
VRAM 顯卡 Gemma 4 Gemma 3
8 G 4060 / 5060 E4B Q8 4B Q8 / 12B Q4 ⚠
12 G 4070 / 5070 E4B BF16 / 26B-A4B Q3 12B Q4 + 32K
16 G 4060 Ti / 5070 Ti 26B-A4B Q4 + 8K 27B Q4 + 8K
24 G 3090 / 4090 / 5080 26B-A4B Q4 + 256K 31B Q4 27B Q5 + 32K 27B Q6 + 16K
32 G 5090 31B Q4 + 128K 26B-A4B Q8 27B Q8 + 32K
啟用 KV Cache 量化(cache-type-k q8_0)可將以上 KV 部分減半。來源 localllm.in · willitrunai.com · gemma4-ai.com · bestgpuforllm.com。
主題二 · 2.3 顯卡速度
NVIDIA tokens/sec(Q4_K_M, 4K ctx)
顯卡 8B 14B 26B-MoE 31B Dense
RTX 3060 12 G 42 23–29 OOM OOM
RTX 4060 Ti 16 G 50 35 60–70 OOM
RTX 4080 16 G 75 50 90–110 OOM
RTX 4090 24 G 104 75–95 140–150 7.8 *
RTX 5090 32 G 130–150 100–120 180+ 35
* 4090 跑 31B Q4 因部分需 swap 至 system RAM,反被工作站級多通道 DDR5 + 64-core CPU(8.8 tok/s)超越。來源 n1n.ai · hardware-corner.com · databasemart.com。
主題二 · 2.4 VRAM 不足代價
混合推理:每 25% offload 砍半吞吐
RTX 4060 8 G · Qwen 3 8B Q4
4.7×
慢 / 25/37 layers offload
40.58 → 8.62 tok/sVRAM 從 7.2 GB 降到 4.8 GB 換來的「成本」
localllm.in
混合推理規律
÷2
每多 25% offload 至 CPU
吞吐量大致砍半Agent 工作流(多輪 tool calling)會被等比放大
n1n.ai · localllm.in 實測
! Agent 體感影響
原本 30 秒可完成的 tool-call 循環,VRAM 不足時可能拉到 2–3 分鐘 。num_gpu=0(純 CPU)約 4 tok/s,幾乎不可用於 agentic loop。
主題三 · 3.1 Mac mini 售價
Mac mini (2024) TW / SG 售價
配置 RAM SSD 台灣 NT$ SGD
M4 入門 16 G 256 G 19,900 849
M4 中階 16 G 512 G 26,900 1,149
M4 24 G ★ 推薦 24 G 512 G 33,900 1,449 BTO
M4 Pro 12C 24 G 512 G 46,900 1,999
M4 Pro 14C/20G 24 G 512 G 53,900 2,499 BTO
M4 Pro 14C BTO 48 G 1 T ~66,900 3,199
M4 Pro 14C BTO 64 G 1 T ~73,900 ~3,599
教育價約折 NT$2,000–4,500(依機型)。Mac mini 在 2026-04-30 仍停留在 2024-10 發布的 M4 / M4 Pro。資料來源 apple.com/tw · apple.com/sg · everymac.com · HardwareZone SG。
主題三 · 3.3 MBP 售價
MacBook Pro M4 vs M5(2025-10 上市)
機型 M4 NT$ M5 NT$ 差額
MBP 14" 入門 16G/512G 54,900 58,900 +4,000
MBP 14" 24G/1TB 64,900 68,900 +4,000
MBP 14" Pro 24G 67,900 74,90015C/16G +7,000
MBP 14" Max 36G/1TB 98,900 129,9002 TB SSD —
MBP 16" Pro 24G/512 84,900 94,900 +10,000
MBP 16" Max 48G/1TB 129,900 159,9002 TB SSD —
+ M5 vs M4 實測差異
M5 Max prompt processing 比 M4 Max 快 ~2.3× ,token decode 快 ~28% 。新增 Neural Accelerators 對 TTFT 影響顯著。
llama.cpp Discussion #4167 · ollama.com/blog/mlx
主題四 · 4.1 CLI 整合
Claude Code CLI vs Copilot CLI
項目 Claude Code Copilot CLI
Ollama 原生 是 0.14+(2026-01) 是 BYOK 2026-04
連線協定 Anthropic Messages OpenAI Chat Completions
最低建議 ctx 64K 128K
Tool calling 必要 必要 + streaming
Offline 模式 部分支援 完全(COPILOT_OFFLINE=true)
推薦本地模型 GLM-4.7-flash Gemma 4 26B-A4B qwen3-coder glm-5
Claude Code:ANTHROPIC_BASE_URL=http://localhost:11434 · Copilot:COPILOT_PROVIDER_BASE_URL=http://localhost:11434/v1, COPILOT_PROVIDER_WIRE_API=responses。
主題四 · 4.2 Agentic 評比
本地模型 agentic 工作流評分
模型 規模 Tool calling 多步
GLM-4.7-flash
30B MoE
98%
強
Qwen3-Coder 30B-A3B
30B MoE
93%
極強 SWE 71.3
Devstral-2 24B
24B
88%
中–強
Gemma 4 31B Dense
31B
85%
強 τ2 86.4
Gemma 4 26B-A4B
26B MoE
85% *
中–強
Qwen3 14B
14B
75%
中等
Llama 3.1 8B
8B
50%
弱
* 需 -fa on -ctk q8_0。來源 medium.com/@daniel-vaughan · blog.starmorph.com · paddo.dev。
主題四 · 4.2 已知 bug
Ollama tool-calling 已知問題
x Qwen 3.5 35B-A3B 失效
Ollama 上 tool calling 完全失效。Renderer 與 Parser 對 <think> 標籤、tool call prefix 處理錯位;repeat_penalty / presence_penalty 被默默忽略。
GitHub ollama/ollama#14493 · 解法:llama.cpp 直連 + --jinja
x Gemma 4 streaming tool call
v0.20.3 streaming 路徑會把 tool_calls 錯放到 reasoning channel 。Codex / Claude Code 解析全失敗。需要 v0.20.5+。
! 預設 ctx 過小
Ollama 預設 num_ctx = 2048 對 Claude Code 完全不夠(系統 prompt ~27K)。需 OLLAMA_CONTEXT_LENGTH=131072 或 Modelfile 顯式設定。
避免 Qwen 3.5 系列在 Ollama 上的 agentic 用途,直到 #14493 修復並進 stable 為止。CUDA 13.2 對 Gemma 4 GGUF 有品質問題(Unsloth 4-11 Note:建議降到 12.8)。
主題四 · 4.4 延遲
單次 tool-call cycle 延遲
~99 s
Mac M4 Pro 24 G
llama.cpp + Gemma 4 26B Q4 · 含 prefill 27K tokens
~52 s
DGX Spark 128 G
Blackwell GB10 + Ollama + Gemma 4 31B Q4(Codex CLI)
~12 s
Cloud Sonnet 4
high reasoning · Opus 4.5 約 ~15 s
+ Timeout 調整建議
Claude Code 預設 stream_idle_timeout_ms = 600,000 (10 min)對本地推理勉強夠。實務上應拉到 1,800,000(30 min) 以應付 Mac 上的 prefill。
Daniel Vaughan:「pin your llama.cpp version;社群報告 build-to-build 之間出現 3.3× 速度回退。」
本地 KV Cache 與 prefill 速度才是真正瓶頸,不是 token 上限。這是 26B-A4B(MoE 4B 活躍)成為 local agentic sweet spot 的主因。
主題五 · 5.1 Mac 配置層級
NT$20–50k Mac mini 24/7 配置
01
入門 NT$19,900M4 16 G / 256 G
8B agent
02
入門+ NT$26,900M4 16 G / 512 G 多模型存儲
8B + 多版
03
中階 NT$33,900 ★ 最推薦M4 24 G / 512 G 獨立開發者最佳
14B Q4 + 32K
04
進階 NT$46,900M4 Pro 12C/16G 24 G / 512 G 273 GB/s 帶寬
26B-A4B Q4
05
進階+ NT$53,900M4 Pro 14C/20G 高 GPU prefill
26B-A4B Q4+
06
理想 dev box NT$66,900M4 Pro 14C/20G 48 G / 1 TB(超預算)
Q5/Q8 30B
主題五 · 5.2 / 5.5 24/7 電費 + TCO
月電費與 3 年總持有成本
機種 Idle W 推理 W 月電費 NT$ 3 年 TCO
Mac mini M4 16 G 3–4 35–45 60 22,000
Mac mini M4 24 G 3–4 38–48 65 —
Mac mini M4 Pro 24 G 25–30 78–92 140 52,000
PC + RTX 4060 Ti 16 G ~80 ~280 ~400 52,400
PC + RTX 4090 24 G 80–110 380–450 ~750 110,000
PC + RTX 5090 32 G ~110 ~500 ~900 130,000+
假設 50% 推理 + 50% idle 混合工作負載 · NT$3.5 / kWh · PC 含一次性硬體成本與殘值估。同預算下 Windows 規格性能比可贏,但 24/7 電費為 Mac 5–7 倍 。
結論 · 推薦
最佳 Mac mini(按預算)
入門 · NT$19,900
M4
16 G / 256 G
最佳「便宜可用」流暢跑 8B agent,silent 24/7
3 年電費僅 ~NT$2,200
中階 ★ · NT$33,900
M4
24 G / 512 G
最推薦中位選擇14B Q4 + 32K ctx + agent · GPU offload 完整
獨立開發者首選
進階 · NT$46,900
Pro
M4 Pro 12C / 24 G
273 GB/s 帶寬14B decode 25 → 50 tok/s · agent 從可用變順暢
26B-A4B Q4 可用
+ 對「持續運行的 personal AI 助手」
Mac mini 在 NT$20–50k 區間幾乎沒有對手:靜音、低耗、3 年 TCO 顯著低於同預算 PC。eGPU 不可期;要更多 VRAM 唯一辦法是換更大記憶體機型。