小狐狸事務所: Ollama 學習筆記 : Gemma 4 模型測試 (gemma4:e4b)

2026年5月25日星期一

Ollama 學習筆記 : Gemma 4 模型測試 (gemma4:e4b)

在前面的測試中, 安裝 Ollama 後第一個下載執行的模型是 gemma4, 但只是做了簡單的對話而已, 本篇旨在對此模型做進一步測試.

本系列全部測試文章索引參考 :

以下摘要整理 Gemini 關於 gemma4 的描述 :

Gemma 4 是 Google 最新釋出的全新世代旗艦級開源大語言模型 (由 Gemini 3 技術下放打造), 採用 Apache 2.0 授權, 允許完全自由商用. 此模型最大的突破在於把原本屬於雲端旗艦的 AI 模型 (例如 Gemini 1.5/2.0 Pro) 的原生全模態 (文字/圖片/音訊) 與類似 DeepSeek-R1 的內建思維鏈推理完美融合, 並且在架構上首次引進了混合專家 (MoE) 與高效的有效參數 (Effective Parameters) 技術, 把小模型的智商推向了全新巔峰.

Gemma 4 具有如下特點 :

會思考的開源大腦 (Native Reasoning) :
Gemma 4 全系列都支援 thinking 模式, 在回答複雜的數學, 科學或軟體工程代碼時, 它會先進行內部邏輯推演 (Chain-of-Thought), 想通了才動手. 這讓它在軟體工程解題測試上的成功率飆升, 抓 Bug 和重構 Python 程式碼的實力直逼一線雲端大模型.
原生全模態感知 (能看能聽) :
底層原生支援全模態感知, 不僅能精準做圖片 OCR, 解讀複雜商業圖表, 偵測網頁 UI 元素, 甚至支援音訊原生輸入 (其音訊編碼器比上一代縮小了 77%).
強悍的 Agent 與工具呼叫能力 :
經過極其嚴格的 Function Calling 優化後, 在像 Claude Code, OpenClaw 或是 Android Studio 新版的本地 AI 代理工作流中, 它輸出 JSON 的穩定度極高, 不會輕易導致 Agent 介面崩潰, 是目前最適合拿來當 Local Coding Agent 後台的小模型.
快如閃電的多詞元預測 (MTP) 技術 :
Gemma 4 內建了專用的草稿模型進行推測解碼 (Speculative Decoding), 這讓它的吐字速度非常驚人, 即便是開啟 Thinking 模式依然能維持極度順暢的生成體驗.
恐怖的 128K 超長上下文記憶 :
此模型支援高達 128,000 個 Token 的上下文, 即使是把一整套複雜的 Python 專案架構完全塞給它, 也能完全離線地保持脈絡記憶.

不過 Gemma 4 也有一些缺點 :

靜態記憶體開銷高於預期 :
Gemma 4 採用了先進的每層嵌入 (PLE)技術來壓縮核心運算, 雖然它的有效活躍參數很低, 但因為它包含了龐大的靜態嵌入表與龐大的 128K KV 快取空間, 它在剛載入顯卡時的 VRAM 佔用率會比傳統純文字 8B 模型稍微吃滿一點點.
複雜思考會拉長首字反應時間 (Time-to-First-Token) :
因為模型內建了推理機制, 當提出一個非常困難的程式邏輯題時, 它會在背景面壁思索一小段時間, 這時候 GPU 雖然在瘋狂運算, 但畫面上可能要等個 1~2 秒才會開始吐字, 可能會讓人誤以為它卡住了.

總評 : Gemma 4 是全面進化的全能全模態大師, 我們可以將網頁設計截圖丟給它叫它直接生成 HTML/CSS 碼, 也可以作 Claude Code 後台, 全自動為 Python 專案生成程式碼與除錯, 還能丟錄音檔或語音叫它離線做精準摘要與理解.

Gemma 4 的系列模型參考 :

# https://ollama.com/library/gemma4