技術報告 · 2026-04-30

本機 LLM 與
Mac 採購完整
技術報告

Gemma 4 · Apple Silicon · Claude Code / Copilot CLI 整合分析
版本2026-04-30
截止2026-04-27
章節5 大主題 / 20 張投影片
語言繁體中文(英文技術詞保留)
tokens/sec、KV Cache、能耗等實測數據來自 llama.cpp、Unsloth、LLMCheck、Hardware Corner、Reddit r/LocalLLaMA 等社群來源。對未實測之組合會明確標註「估算值」。內容不構成購買建議。
前情提要 · 命名差異

Gemma 4 命名與你問的規格不同

! 你的研究指定
「Gemma 4 模型尺寸:1B、4B、12B、27B」
x 實際發布
2026-04-02 Google DeepMind 發布的 Gemma 4,採用 E2B / E4B / 26B-A4B / 31B 命名,與上述尺寸完全不對應。
blog.google · huggingface.co/unsloth
+ 對應關係
1B / 4B / 12B / 27B 實際對應的是 Gemma 3(2025/2026 上半年),現仍可從 Ollama 取得。下文表格將同時列出兩個世代。
前情提要 · SKU 對應

你問的尺寸 → 實際 SKU

你提問Gemma 4 SKU架構最大 ctx
1BE2BDense + PLE128K
4BE4BDense + PLE128K
12B— 無對應 —最近為 26B-A4B256K
27B31B DenseDense(旗艦)256K
Gemma 4 額外 MoE 款
26B-A4B MoE,128 experts / 8 active · 活躍參數僅 4B · 256K ctx
PLE = Per-Layer Embeddings。E2B/E4B 在效能上等同 Dense 模型,但實際參數量較大;以「有效參數」計大致為 2.3B / 4.5B。
主題一 · 1.1 模型權重

GGUF 權重大小(Unsloth Dynamic 2.0)

模型Q4_K_MQ8_0BF16
Gemma 4 E2B~2.3B 有效~1.6 GB~2.6 GB~4.6 GB
Gemma 4 E4B~4.5B 有效~3.0~5.0~9.0
Gemma 4 26B-A4BMoE16.926.950.5
Gemma 4 31BDense 旗艦18.332.661.4
Gemma 3 1B0.5~1.02.0
Gemma 3 4B2.6~4.58.0
Gemma 3 12B6.6~1324
Gemma 3 27B14.1–15.1~2854
來源 unsloth/gemma-4-26B-A4B-it-GGUF · unsloth/gemma-4-31B-it-GGUF · developers.googleblog.com。E2B/E4B 為估算(依 BF16 對半推算)。
主題一 · 1.2 KV Cache

KV Cache 與 Gemma 5:1 attention

60–70%
KV Cache 減量
Gemma 3/4 採用 5:1 local-to-global attention(local sliding window=1024)相對於純 global attention
×0.5
Q8_0 KV 量化
啟用 cache-type-k q8_0 直接砍半 KV 大小
~30%
Flash Attention
降低 activation buffer;Gemma 4 hybrid local/global 仰賴 FA sliding window
+ 實測壓縮
啟用 --cache-type-k q8_0 -fa on(llama.cpp)或 OLLAMA_KV_CACHE_TYPE=q8_0(Ollama),32K context KV 從 ~15 GB 壓到 ~5 GB。
Gemma4.wiki · Gemma 3 Tech Report 圖 6
KV (bytes) = 2 × L × H_kv × T × d_head × bytes_per_element · bytes_per_element:FP16=2 / Q8_0=1 / Q4_0=0.5
主題一 · 1.3 macOS 記憶體

統一記憶體需求(Gemma 4 旗艦)

量化(權重)8K32K128K256K
26B-A4B Q4 (16.9 G)24243232
26B-A4B Q5 (21.2 G)32323248
26B-A4B Q8 (26.9 G)32484864
31B Q4 (18.3 G)24323248
31B Q5 (21.7 G)32324848
31B Q8 (32.6 G)48486496
31B BF16 (61.4 G)9696128192
數字 = Mac 統一記憶體(GB) ·  完全 GPU offload ·  吃緊但可行 · 含權重 + KV(FP16, FA on) + OS 4–6 GB。
主題一 · 1.4 Apple Silicon 速度

M4 Pro / Max / M5 Max 雷達比較

E4B 速度 14B 速度 26B-MoE 31B Dense 256K ctx 記憶體頻寬
M4 Pro 24 GB 16/30
M4 Max 36–128 GB 25/30
M5 Max 27/30
tokens/sec @ Q4_K_M, 4–8K ctx,1–5 評分。來源 LLMCheck.net · ollama.com/blog/mlx · Hardware Corner · Daniel Vaughan (Medium) · llama.cpp Discussion #4167。
主題一 · 1.5 已知陷阱

Apple Silicon Metal / FA 注意事項

x Ollama + Gemma 4 + FA hang
v0.20.3 + Gemma 4 + Flash Attention,prompt > 500 tokens 整個 hang。Codex CLI 系統 prompt 約 27K tokens,幾乎一定觸發
Daniel Vaughan, Medium 2026-04 · 解法:改 llama.cpp 直連 + -fa on -ctk q8_0 -ctv q8_0
! M3 Pro 帶寬陷阱
Apple 將 M3 Pro 帶寬從 200 GB/s 降至 150 GB/s,部分使用者在 LLM 工作負載上反而比 M2 Pro 慢。
+ MLX 後端紅利
MLX 後端在 < 14B 模型上比 llama.cpp 快 20–87%。Ollama 0.19+(2026 Q1)在 32 GB+ 統一記憶體 Mac 上自動啟用 MLX,多數模型 decode 速度提升 ~93%。
blog.starmorph.com
主題二 · 2.1 Windows VRAM

RTX VRAM 對應最大模型(Q4,8K ctx)

VRAM顯卡Gemma 4Gemma 3
8 G4060 / 5060E4B Q84B Q8 / 12B Q4
12 G4070 / 5070E4B BF16 / 26B-A4B Q312B Q4 + 32K
16 G4060 Ti / 5070 Ti26B-A4B Q4 + 8K27B Q4 + 8K
24 G3090 / 4090 / 508026B-A4B Q4 + 256K
31B Q4
27B Q5 + 32K
27B Q6 + 16K
32 G509031B Q4 + 128K
26B-A4B Q8
27B Q8 + 32K
啟用 KV Cache 量化(cache-type-k q8_0)可將以上 KV 部分減半。來源 localllm.in · willitrunai.com · gemma4-ai.com · bestgpuforllm.com。
主題二 · 2.3 顯卡速度

NVIDIA tokens/sec(Q4_K_M, 4K ctx)

顯卡8B14B26B-MoE31B Dense
RTX 3060 12 G4223–29OOMOOM
RTX 4060 Ti 16 G503560–70OOM
RTX 4080 16 G755090–110OOM
RTX 4090 24 G10475–95140–1507.8 *
RTX 5090 32 G130–150100–120180+35
* 4090 跑 31B Q4 因部分需 swap 至 system RAM,反被工作站級多通道 DDR5 + 64-core CPU(8.8 tok/s)超越。來源 n1n.ai · hardware-corner.com · databasemart.com。
主題二 · 2.4 VRAM 不足代價

混合推理:每 25% offload 砍半吞吐

RTX 4060 8 G · Qwen 3 8B Q4
4.7×
慢 / 25/37 layers offload
40.58 → 8.62 tok/sVRAM 從 7.2 GB 降到 4.8 GB 換來的「成本」
localllm.in
混合推理規律
÷2
每多 25% offload 至 CPU
吞吐量大致砍半Agent 工作流(多輪 tool calling)會被等比放大
n1n.ai · localllm.in 實測
! Agent 體感影響
原本 30 秒可完成的 tool-call 循環,VRAM 不足時可能拉到 2–3 分鐘。num_gpu=0(純 CPU)約 4 tok/s,幾乎不可用於 agentic loop。
主題三 · 3.1 Mac mini 售價

Mac mini (2024) TW / SG 售價

配置RAMSSD台灣 NT$SGD
M4 入門16 G256 G19,900849
M4 中階16 G512 G26,9001,149
M4 24 G ★ 推薦24 G512 G33,9001,449 BTO
M4 Pro 12C24 G512 G46,9001,999
M4 Pro 14C/20G24 G512 G53,9002,499 BTO
M4 Pro 14C BTO48 G1 T~66,9003,199
M4 Pro 14C BTO64 G1 T~73,900~3,599
教育價約折 NT$2,000–4,500(依機型)。Mac mini 在 2026-04-30 仍停留在 2024-10 發布的 M4 / M4 Pro。資料來源 apple.com/tw · apple.com/sg · everymac.com · HardwareZone SG。
主題三 · 3.3 MBP 售價

MacBook Pro M4 vs M5(2025-10 上市)

機型M4 NT$M5 NT$差額
MBP 14" 入門 16G/512G54,90058,900+4,000
MBP 14" 24G/1TB64,90068,900+4,000
MBP 14" Pro 24G67,90074,90015C/16G+7,000
MBP 14" Max 36G/1TB98,900129,9002 TB SSD
MBP 16" Pro 24G/51284,90094,900+10,000
MBP 16" Max 48G/1TB129,900159,9002 TB SSD
+ M5 vs M4 實測差異
M5 Max prompt processing 比 M4 Max 快 ~2.3×,token decode 快 ~28%。新增 Neural Accelerators 對 TTFT 影響顯著。
llama.cpp Discussion #4167 · ollama.com/blog/mlx
主題四 · 4.1 CLI 整合

Claude Code CLI vs Copilot CLI

項目Claude CodeCopilot CLI
Ollama 原生是 0.14+(2026-01)是 BYOK 2026-04
連線協定Anthropic MessagesOpenAI Chat Completions
最低建議 ctx64K128K
Tool calling必要必要 + streaming
Offline 模式部分支援完全(COPILOT_OFFLINE=true)
推薦本地模型GLM-4.7-flash
Gemma 4 26B-A4B
qwen3-coder
glm-5
Claude Code:ANTHROPIC_BASE_URL=http://localhost:11434 · Copilot:COPILOT_PROVIDER_BASE_URL=http://localhost:11434/v1, COPILOT_PROVIDER_WIRE_API=responses。
主題四 · 4.2 Agentic 評比

本地模型 agentic 工作流評分

模型規模Tool calling多步
GLM-4.7-flash 30B MoE
98%
Qwen3-Coder 30B-A3B 30B MoE
93%
極強
SWE 71.3
Devstral-2 24B 24B
88%
中–強
Gemma 4 31B Dense 31B
85%

τ2 86.4
Gemma 4 26B-A4B 26B MoE
85% *
中–強
Qwen3 14B 14B
75%
中等
Llama 3.1 8B 8B
50%
* 需 -fa on -ctk q8_0。來源 medium.com/@daniel-vaughan · blog.starmorph.com · paddo.dev。
主題四 · 4.2 已知 bug

Ollama tool-calling 已知問題

x Qwen 3.5 35B-A3B 失效
Ollama 上 tool calling 完全失效。Renderer 與 Parser 對 <think> 標籤、tool call prefix 處理錯位;repeat_penalty / presence_penalty 被默默忽略。
GitHub ollama/ollama#14493 · 解法:llama.cpp 直連 + --jinja
x Gemma 4 streaming tool call
v0.20.3 streaming 路徑會把 tool_calls 錯放到 reasoning channel。Codex / Claude Code 解析全失敗。需要 v0.20.5+。
! 預設 ctx 過小
Ollama 預設 num_ctx = 2048 對 Claude Code 完全不夠(系統 prompt ~27K)。需 OLLAMA_CONTEXT_LENGTH=131072 或 Modelfile 顯式設定。
避免 Qwen 3.5 系列在 Ollama 上的 agentic 用途,直到 #14493 修復並進 stable 為止。CUDA 13.2 對 Gemma 4 GGUF 有品質問題(Unsloth 4-11 Note:建議降到 12.8)。
主題四 · 4.4 延遲

單次 tool-call cycle 延遲

~99 s
Mac M4 Pro 24 G
llama.cpp + Gemma 4 26B Q4 · 含 prefill 27K tokens
~52 s
DGX Spark 128 G
Blackwell GB10 + Ollama + Gemma 4 31B Q4(Codex CLI)
~12 s
Cloud Sonnet 4
high reasoning · Opus 4.5 約 ~15 s
+ Timeout 調整建議
Claude Code 預設 stream_idle_timeout_ms = 600,000(10 min)對本地推理勉強夠。實務上應拉到 1,800,000(30 min)以應付 Mac 上的 prefill。
Daniel Vaughan:「pin your llama.cpp version;社群報告 build-to-build 之間出現 3.3× 速度回退。」
本地 KV Cache 與 prefill 速度才是真正瓶頸,不是 token 上限。這是 26B-A4B(MoE 4B 活躍)成為 local agentic sweet spot 的主因。
主題五 · 5.1 Mac 配置層級

NT$20–50k Mac mini 24/7 配置

01 入門 NT$19,900M4 16 G / 256 G 8B agent
02 入門+ NT$26,900M4 16 G / 512 G 多模型存儲 8B + 多版
03 中階 NT$33,900 ★ 最推薦M4 24 G / 512 G 獨立開發者最佳 14B Q4 + 32K
04 進階 NT$46,900M4 Pro 12C/16G 24 G / 512 G 273 GB/s 帶寬 26B-A4B Q4
05 進階+ NT$53,900M4 Pro 14C/20G 高 GPU prefill 26B-A4B Q4+
06 理想 dev box NT$66,900M4 Pro 14C/20G 48 G / 1 TB(超預算) Q5/Q8 30B
主題五 · 5.2 / 5.5 24/7 電費 + TCO

月電費與 3 年總持有成本

機種Idle W推理 W月電費 NT$3 年 TCO
Mac mini M4 16 G3–435–456022,000
Mac mini M4 24 G3–438–4865
Mac mini M4 Pro 24 G25–3078–9214052,000
PC + RTX 4060 Ti 16 G~80~280~40052,400
PC + RTX 4090 24 G80–110380–450~750110,000
PC + RTX 5090 32 G~110~500~900130,000+
假設 50% 推理 + 50% idle 混合工作負載 · NT$3.5 / kWh · PC 含一次性硬體成本與殘值估。同預算下 Windows 規格性能比可贏,但 24/7 電費為 Mac 5–7 倍
結論 · 推薦

最佳 Mac mini(按預算)

入門 · NT$19,900
M4
16 G / 256 G
最佳「便宜可用」流暢跑 8B agent,silent 24/7
3 年電費僅 ~NT$2,200
中階 ★ · NT$33,900
M4
24 G / 512 G
最推薦中位選擇14B Q4 + 32K ctx + agent · GPU offload 完整
獨立開發者首選
進階 · NT$46,900
Pro
M4 Pro 12C / 24 G
273 GB/s 帶寬14B decode 25 → 50 tok/s · agent 從可用變順暢
26B-A4B Q4 可用
+ 對「持續運行的 personal AI 助手」
Mac mini 在 NT$20–50k 區間幾乎沒有對手:靜音、低耗、3 年 TCO 顯著低於同預算 PC。eGPU 不可期;要更多 VRAM 唯一辦法是換更大記憶體機型。