2026年5月25日 星期一

Ollama 學習筆記 : Gemma 4 模型測試 (gemma4:e4b)

在前面的測試中, 安裝 Ollama 後第一個下載執行的模型是 gemma4, 但只是做了簡單的對話而已, 本篇旨在對此模型做進一步測試.

本系列全部測試文章索引參考 :


以下摘要整理 Gemini 關於 gemma4 的描述 :

Gemma 4 是 Google 最新釋出的全新世代旗艦級開源大語言模型 (由 Gemini 3 技術下放打造), 採用 Apache 2.0 授權, 允許完全自由商用. 此模型最大的突破在於把原本屬於雲端旗艦的 AI 模型 (例如 Gemini 1.5/2.0 Pro) 的原生全模態 (文字/圖片/音訊) 與類似 DeepSeek-R1 的內建思維鏈推理完美融合, 並且在架構上首次引進了混合專家 (MoE) 與高效的有效參數 (Effective Parameters) 技術, 把小模型的智商推向了全新巔峰. 

Gemma 4 具有如下特點 : 
  • 會思考的開源大腦 (Native Reasoning) :
    Gemma 4 全系列都支援 thinking 模式, 在回答複雜的數學, 科學或軟體工程代碼時, 它會先進行內部邏輯推演 (Chain-of-Thought), 想通了才動手. 這讓它在軟體工程解題測試上的成功率飆升, 抓 Bug 和重構 Python 程式碼的實力直逼一線雲端大模型. 
  • 原生全模態感知 (能看能聽) :
    底層原生支援全模態感知, 不僅能精準做圖片 OCR, 解讀複雜商業圖表, 偵測網頁 UI 元素, 甚至支援音訊原生輸入 (其音訊編碼器比上一代縮小了 77%). 
  • 強悍的 Agent 與工具呼叫能力 :
    經過極其嚴格的 Function Calling 優化後, 在像 Claude Code, OpenClaw 或是 Android Studio 新版的本地 AI 代理工作流中, 它輸出 JSON 的穩定度極高, 不會輕易導致 Agent 介面崩潰, 是目前最適合拿來當 Local Coding Agent 後台的小模型. 
  • 快如閃電的多詞元預測 (MTP) 技術 : 
    Gemma 4 內建了專用的草稿模型進行推測解碼 (Speculative Decoding), 這讓它的吐字速度非常驚人, 即便是開啟 Thinking 模式依然能維持極度順暢的生成體驗. 
  • 恐怖的 128K 超長上下文記憶 :
    此模型支援高達 128,000 個 Token 的上下文, 即使是把一整套複雜的 Python 專案架構完全塞給它, 也能完全離線地保持脈絡記憶.
不過 Gemma 4 也有一些缺點 :
  • 靜態記憶體開銷高於預期 :
    Gemma 4 採用了先進的每層嵌入 (PLE)技術來壓縮核心運算, 雖然它的有效活躍參數很低, 但因為它包含了龐大的靜態嵌入表與龐大的 128K KV 快取空間, 它在剛載入顯卡時的 VRAM 佔用率會比傳統純文字 8B 模型稍微吃滿一點點. 
  • 複雜思考會拉長首字反應時間 (Time-to-First-Token) :
    因為模型內建了推理機制, 當提出一個非常困難的程式邏輯題時, 它會在背景面壁思索一小段時間, 這時候 GPU 雖然在瘋狂運算, 但畫面上可能要等個 1~2 秒才會開始吐字, 可能會讓人誤以為它卡住了. 
總評 : Gemma 4 是全面進化的全能全模態大師, 我們可以將網頁設計截圖丟給它叫它直接生成 HTML/CSS 碼, 也可以作 Claude Code 後台, 全自動為 Python 專案生成程式碼與除錯, 還能丟錄音檔或語音叫它離線做精準摘要與理解. 

Gemma 4 的系列模型參考 :





之前我用 Ollama 原生介面下載的應該是 8B 參數, 經 Q4_K_M 量化後大小為 9.6 GB 的 e4b 版, 可用 ollama show 指令來確認 :

PS C:\Users\USER> ollama show gemma4   
  Model
    architecture        gemma4
    parameters          8.0B
    context length      131072
    embedding length    2560
    quantization        Q4_K_M
    requires            0.20.0

  Capabilities
    completion
    vision
    audio
    tools
    thinking

  Parameters
    temperature    1
    top_k          64
    top_p          0.95

  License
    Apache License
    Version 2.0, January 2004
    ...

如果要在 CLI 介面下載執行, 指令如下 :

ollama run gemma4:e4b  

以下多模態測試使用 Ollama 原生介面, 首先測試車牌辨識, 選擇模型 gemma4, 輸入 "請辨識這張車牌號碼", 按輸入框中的 + 鈕, 上傳車牌圖片後按提交鈕 :




經過快速的推理思考後, 直接回覆正確之車牌號碼 :




下面是從 TVBS 新聞網站下載的貨車圖片, 上傳給 gemma4 看看能否辨識車牌 :





果然不同凡響, 正確辨識出  9487-XD. 

接下來請它描述有名的 Lenna 圖 : 

"請描述這張圖片, 此圖非常有名, 你知道是甚麼圖嗎?"






描述得很詳盡, 但它不知道這是有名的 Lenna 圖, 經我提示 "是影像處理書籍上經常出現的模特兒 Lenna 的照片" 後才恍然大悟 :






Gemma 4 回應內容真的蠻有深度的. 

接下來上傳一張貓咪圖片 "請描述這張圖片內容" :




結果成功地辨識出三隻小貓, 這比 llama3.2-vision 模型厲害 : 




接下來考驗它能否看懂 K 線圖, 我上傳一張用 kbar 模組繪製的 K 線圖 :




結果如下 :







居然還能解盤, 真是厲害. 

沒有留言 :