本機 LLM 與 Mac 採購完整技術報告

技術報告 · 2026-04-30

本機 LLM 與
Mac 採購完整
技術報告

Gemma 4　·　Apple Silicon　·　Claude Code / Copilot CLI 整合分析

版本2026-04-30

截止2026-04-27

章節5 大主題　/　20 張投影片

語言繁體中文（英文技術詞保留）

tokens/sec、KV Cache、能耗等實測數據來自 llama.cpp、Unsloth、LLMCheck、Hardware Corner、Reddit r/LocalLLaMA 等社群來源。對未實測之組合會明確標註「估算值」。內容不構成購買建議。

前情提要 · 命名差異

Gemma 4 命名與你問的規格不同

! 你的研究指定

「Gemma 4 模型尺寸：1B、4B、12B、27B」

x 實際發布

2026-04-02 Google DeepMind 發布的 Gemma 4，採用 E2B / E4B / 26B-A4B / 31B 命名，與上述尺寸完全不對應。

blog.google · huggingface.co/unsloth

+ 對應關係

1B / 4B / 12B / 27B 實際對應的是 Gemma 3（2025/2026 上半年），現仍可從 Ollama 取得。下文表格將同時列出兩個世代。

前情提要 · SKU 對應

你問的尺寸 → 實際 SKU

你提問	Gemma 4 SKU	架構	最大 ctx
1B	E2B	Dense + PLE	128K
4B	E4B	Dense + PLE	128K
12B	— 無對應 —	最近為 26B-A4B	256K
27B	31B Dense	Dense（旗艦）	256K

Gemma 4 額外 MoE 款
26B-A4B　MoE，128 experts / 8 active　·　活躍參數僅 4B　·　256K ctx

PLE = Per-Layer Embeddings。E2B/E4B 在效能上等同 Dense 模型，但實際參數量較大；以「有效參數」計大致為 2.3B / 4.5B。

主題一 · 1.1　模型權重

GGUF 權重大小（Unsloth Dynamic 2.0）

模型	Q4_K_M	Q8_0	BF16
Gemma 4 E2B~2.3B 有效	~1.6 GB	~2.6 GB	~4.6 GB
Gemma 4 E4B~4.5B 有效	~3.0	~5.0	~9.0
Gemma 4 26B-A4BMoE	16.9	26.9	50.5
Gemma 4 31BDense 旗艦	18.3	32.6	61.4
Gemma 3 1B	0.5	~1.0	2.0
Gemma 3 4B	2.6	~4.5	8.0
Gemma 3 12B	6.6	~13	24
Gemma 3 27B	14.1–15.1	~28	54

來源 unsloth/gemma-4-26B-A4B-it-GGUF · unsloth/gemma-4-31B-it-GGUF · developers.googleblog.com。E2B/E4B 為估算（依 BF16 對半推算）。

主題一 · 1.2　KV Cache

KV Cache 與 Gemma 5:1 attention

60–70%

KV Cache 減量

Gemma 3/4 採用 5:1 local-to-global attention（local sliding window=1024）相對於純 global attention

×0.5

Q8_0 KV 量化

啟用 cache-type-k q8_0 直接砍半 KV 大小

~30%

Flash Attention

降低 activation buffer；Gemma 4 hybrid local/global 仰賴 FA sliding window

+ 實測壓縮

啟用 --cache-type-k q8_0 -fa on（llama.cpp）或 OLLAMA_KV_CACHE_TYPE=q8_0（Ollama），32K context KV 從 ~15 GB 壓到 ~5 GB。

Gemma4.wiki · Gemma 3 Tech Report 圖 6

KV (bytes) = 2 × L × H_kv × T × d_head × bytes_per_element　·　bytes_per_element：FP16=2 / Q8_0=1 / Q4_0=0.5

主題一 · 1.3　macOS 記憶體

統一記憶體需求（Gemma 4 旗艦）

量化（權重）	8K	32K	128K	256K
26B-A4B Q4 (16.9 G)	24	24	32	32
26B-A4B Q5 (21.2 G)	32	32	32	48
26B-A4B Q8 (26.9 G)	32	48	48	64
31B Q4 (18.3 G)	24	32	32	48
31B Q5 (21.7 G)	32	32	48	48
31B Q8 (32.6 G)	48	48	64	96
31B BF16 (61.4 G)	96	96	128	192

數字 = Mac 統一記憶體（GB）　·　綠完全 GPU offload　·　琥吃緊但可行　·　含權重 + KV(FP16, FA on) + OS 4–6 GB。

主題一 · 1.4　Apple Silicon 速度

M4 Pro / Max / M5 Max 雷達比較

M4 Pro 24 GB 16/30

M4 Max 36–128 GB 25/30

M5 Max 27/30

tokens/sec @ Q4_K_M, 4–8K ctx，1–5 評分。來源 LLMCheck.net · ollama.com/blog/mlx · Hardware Corner · Daniel Vaughan (Medium) · llama.cpp Discussion #4167。

主題一 · 1.5　已知陷阱

Apple Silicon Metal / FA 注意事項

x Ollama + Gemma 4 + FA hang

v0.20.3 + Gemma 4 + Flash Attention，prompt > 500 tokens 整個 hang。Codex CLI 系統 prompt 約 27K tokens，幾乎一定觸發。

Daniel Vaughan, Medium 2026-04　·　解法：改 llama.cpp 直連 + -fa on -ctk q8_0 -ctv q8_0

! M3 Pro 帶寬陷阱

Apple 將 M3 Pro 帶寬從 200 GB/s 降至 150 GB/s，部分使用者在 LLM 工作負載上反而比 M2 Pro 慢。

+ MLX 後端紅利

MLX 後端在 < 14B 模型上比 llama.cpp 快 20–87%。Ollama 0.19+（2026 Q1）在 32 GB+ 統一記憶體 Mac 上自動啟用 MLX，多數模型 decode 速度提升 ~93%。

blog.starmorph.com

主題二 · 2.1　Windows VRAM

RTX VRAM 對應最大模型（Q4，8K ctx）

VRAM	顯卡	Gemma 4	Gemma 3
8 G	4060 / 5060	E4B Q8	4B Q8 / 12B Q4 ⚠
12 G	4070 / 5070	E4B BF16 / 26B-A4B Q3	12B Q4 + 32K
16 G	4060 Ti / 5070 Ti	26B-A4B Q4 + 8K	27B Q4 + 8K
24 G	3090 / 4090 / 5080	26B-A4B Q4 + 256K 31B Q4	27B Q5 + 32K 27B Q6 + 16K
32 G	5090	31B Q4 + 128K 26B-A4B Q8	27B Q8 + 32K

啟用 KV Cache 量化（cache-type-k q8_0）可將以上 KV 部分減半。來源 localllm.in · willitrunai.com · gemma4-ai.com · bestgpuforllm.com。

主題二 · 2.3　顯卡速度

NVIDIA tokens/sec（Q4_K_M, 4K ctx）

顯卡	8B	14B	26B-MoE	31B Dense
RTX 3060 12 G	42	23–29	OOM	OOM
RTX 4060 Ti 16 G	50	35	60–70	OOM
RTX 4080 16 G	75	50	90–110	OOM
RTX 4090 24 G	104	75–95	140–150	7.8 *
RTX 5090 32 G	130–150	100–120	180+	35

* 4090 跑 31B Q4 因部分需 swap 至 system RAM，反被工作站級多通道 DDR5 + 64-core CPU（8.8 tok/s）超越。來源 n1n.ai · hardware-corner.com · databasemart.com。

主題二 · 2.4　VRAM 不足代價

混合推理：每 25% offload 砍半吞吐

RTX 4060 8 G　·　Qwen 3 8B Q4

4.7×

慢　／　25/37 layers offload

40.58 → 8.62 tok/sVRAM 從 7.2 GB 降到 4.8 GB 換來的「成本」

localllm.in

混合推理規律

÷2

每多 25% offload 至 CPU

吞吐量大致砍半Agent 工作流（多輪 tool calling）會被等比放大

n1n.ai · localllm.in 實測

! Agent 體感影響

原本 30 秒可完成的 tool-call 循環，VRAM 不足時可能拉到 2–3 分鐘。num_gpu=0（純 CPU）約 4 tok/s，幾乎不可用於 agentic loop。

主題三 · 3.1　Mac mini 售價

Mac mini (2024) TW / SG 售價

配置	RAM	SSD	台灣 NT$	SGD
M4 入門	16 G	256 G	19,900	849
M4 中階	16 G	512 G	26,900	1,149
M4 24 G ★ 推薦	24 G	512 G	33,900	1,449 BTO
M4 Pro 12C	24 G	512 G	46,900	1,999
M4 Pro 14C/20G	24 G	512 G	53,900	2,499 BTO
M4 Pro 14C BTO	48 G	1 T	~66,900	3,199
M4 Pro 14C BTO	64 G	1 T	~73,900	~3,599

教育價約折 NT$2,000–4,500（依機型）。Mac mini 在 2026-04-30 仍停留在 2024-10 發布的 M4 / M4 Pro。資料來源 apple.com/tw · apple.com/sg · everymac.com · HardwareZone SG。

主題三 · 3.3　MBP 售價

MacBook Pro M4 vs M5（2025-10 上市）

機型	M4 NT$	M5 NT$	差額
MBP 14" 入門 16G/512G	54,900	58,900	+4,000
MBP 14" 24G/1TB	64,900	68,900	+4,000
MBP 14" Pro 24G	67,900	74,90015C/16G	+7,000
MBP 14" Max 36G/1TB	98,900	129,9002 TB SSD	—
MBP 16" Pro 24G/512	84,900	94,900	+10,000
MBP 16" Max 48G/1TB	129,900	159,9002 TB SSD	—

+ M5 vs M4 實測差異

M5 Max prompt processing 比 M4 Max 快 ~2.3×，token decode 快 ~28%。新增 Neural Accelerators 對 TTFT 影響顯著。

llama.cpp Discussion #4167 · ollama.com/blog/mlx

主題四 · 4.1　CLI 整合

Claude Code CLI vs Copilot CLI

項目	Claude Code	Copilot CLI
Ollama 原生	是　0.14+（2026-01）	是　BYOK 2026-04
連線協定	Anthropic Messages	OpenAI Chat Completions
最低建議 ctx	64K	128K
Tool calling	必要	必要 + streaming
Offline 模式	部分支援	完全（COPILOT_OFFLINE=true）
推薦本地模型	GLM-4.7-flash Gemma 4 26B-A4B	qwen3-coder glm-5

Claude Code：ANTHROPIC_BASE_URL=http://localhost:11434　·　Copilot：COPILOT_PROVIDER_BASE_URL=http://localhost:11434/v1, COPILOT_PROVIDER_WIRE_API=responses。

主題四 · 4.2　Agentic 評比

本地模型 agentic 工作流評分

模型	規模	Tool calling	多步
GLM-4.7-flash	30B MoE	98%	強
Qwen3-Coder 30B-A3B	30B MoE	93%	極強 SWE 71.3
Devstral-2 24B	24B	88%	中–強
Gemma 4 31B Dense	31B	85%	強 τ2 86.4
Gemma 4 26B-A4B	26B MoE	85% *	中–強
Qwen3 14B	14B	75%	中等
Llama 3.1 8B	8B	50%	弱

* 需 -fa on -ctk q8_0。來源 medium.com/@daniel-vaughan · blog.starmorph.com · paddo.dev。

主題四 · 4.2　已知 bug

Ollama tool-calling 已知問題

x Qwen 3.5 35B-A3B 失效

Ollama 上 tool calling 完全失效。Renderer 與 Parser 對 <think> 標籤、tool call prefix 處理錯位；repeat_penalty / presence_penalty 被默默忽略。

GitHub ollama/ollama#14493　·　解法：llama.cpp 直連 + --jinja

x Gemma 4 streaming tool call

v0.20.3 streaming 路徑會把 tool_calls 錯放到 reasoning channel。Codex / Claude Code 解析全失敗。需要 v0.20.5+。

! 預設 ctx 過小

Ollama 預設 num_ctx = 2048 對 Claude Code 完全不夠（系統 prompt ~27K）。需 OLLAMA_CONTEXT_LENGTH=131072 或 Modelfile 顯式設定。

避免 Qwen 3.5 系列在 Ollama 上的 agentic 用途，直到 #14493 修復並進 stable 為止。CUDA 13.2 對 Gemma 4 GGUF 有品質問題（Unsloth 4-11 Note：建議降到 12.8）。

主題四 · 4.4　延遲

單次 tool-call cycle 延遲

~99 s

Mac M4 Pro 24 G

llama.cpp + Gemma 4 26B Q4　·　含 prefill 27K tokens

~52 s

DGX Spark 128 G

Blackwell GB10 + Ollama + Gemma 4 31B Q4（Codex CLI）

~12 s

Cloud Sonnet 4

high reasoning　·　Opus 4.5 約 ~15 s

+ Timeout 調整建議

Claude Code 預設 stream_idle_timeout_ms = 600,000（10 min）對本地推理勉強夠。實務上應拉到 1,800,000（30 min）以應付 Mac 上的 prefill。

Daniel Vaughan：「pin your llama.cpp version；社群報告 build-to-build 之間出現 3.3× 速度回退。」

本地 KV Cache 與 prefill 速度才是真正瓶頸，不是 token 上限。這是 26B-A4B（MoE 4B 活躍）成為 local agentic sweet spot 的主因。

主題五 · 5.1　Mac 配置層級

NT$20–50k Mac mini 24/7 配置

01 入門 NT$19,900M4 16 G / 256 G 8B agent

02 入門+ NT$26,900M4 16 G / 512 G　多模型存儲 8B + 多版

03 中階 NT$33,900 ★ 最推薦M4 24 G / 512 G　獨立開發者最佳 14B Q4 + 32K

04 進階 NT$46,900M4 Pro 12C/16G　24 G / 512 G　273 GB/s 帶寬 26B-A4B Q4

05 進階+ NT$53,900M4 Pro 14C/20G　高 GPU prefill 26B-A4B Q4+

06 理想 dev box NT$66,900M4 Pro 14C/20G　48 G / 1 TB（超預算） Q5/Q8 30B

主題五 · 5.2 / 5.5　24/7 電費 + TCO

月電費與 3 年總持有成本

機種	Idle W	推理 W	月電費 NT$	3 年 TCO
Mac mini M4 16 G	3–4	35–45	60	22,000
Mac mini M4 24 G	3–4	38–48	65	—
Mac mini M4 Pro 24 G	25–30	78–92	140	52,000
PC + RTX 4060 Ti 16 G	~80	~280	~400	52,400
PC + RTX 4090 24 G	80–110	380–450	~750	110,000
PC + RTX 5090 32 G	~110	~500	~900	130,000+

假設 50% 推理 + 50% idle 混合工作負載　·　NT$3.5 / kWh　·　PC 含一次性硬體成本與殘值估。同預算下 Windows 規格性能比可贏，但 24/7 電費為 Mac 5–7 倍。

結論 · 推薦

最佳 Mac mini（按預算）

入門　·　NT$19,900

16 G　/　256 G

最佳「便宜可用」流暢跑 8B agent，silent 24/7

3 年電費僅 ~NT$2,200

中階 ★　·　NT$33,900

24 G　/　512 G

最推薦中位選擇14B Q4 + 32K ctx + agent · GPU offload 完整

獨立開發者首選

進階　·　NT$46,900

Pro

M4 Pro 12C / 24 G

273 GB/s 帶寬14B decode 25 → 50 tok/s · agent 從可用變順暢

26B-A4B Q4 可用

+ 對「持續運行的 personal AI 助手」

Mac mini 在 NT$20–50k 區間幾乎沒有對手：靜音、低耗、3 年 TCO 顯著低於同預算 PC。eGPU 不可期；要更多 VRAM 唯一辦法是換更大記憶體機型。