在前面的測試中, 安裝 Ollama 後第一個下載執行的模型是 gemma4, 但只是做了簡單的對話而已, 本篇旨在對此模型做進一步測試.
以下摘要整理 Gemini 關於 gemma4 的描述 :
Gemma 4 是 Google 最新釋出的全新世代旗艦級開源大語言模型 (由 Gemini 3 技術下放打造), 採用 Apache 2.0 授權, 允許完全自由商用. 此模型最大的突破在於把原本屬於雲端旗艦的 AI 模型 (例如 Gemini 1.5/2.0 Pro) 的原生全模態 (文字/圖片/音訊) 與類似 DeepSeek-R1 的內建思維鏈推理完美融合, 並且在架構上首次引進了混合專家 (MoE) 與高效的有效參數 (Effective Parameters) 技術, 把小模型的智商推向了全新巔峰.
Gemma 4 具有如下特點 :
- 會思考的開源大腦 (Native Reasoning) :
Gemma 4 全系列都支援 thinking 模式, 在回答複雜的數學, 科學或軟體工程代碼時, 它會先進行內部邏輯推演 (Chain-of-Thought), 想通了才動手. 這讓它在軟體工程解題測試上的成功率飆升, 抓 Bug 和重構 Python 程式碼的實力直逼一線雲端大模型. - 原生全模態感知 (能看能聽) :
底層原生支援全模態感知, 不僅能精準做圖片 OCR, 解讀複雜商業圖表, 偵測網頁 UI 元素, 甚至支援音訊原生輸入 (其音訊編碼器比上一代縮小了 77%). - 強悍的 Agent 與工具呼叫能力 :
經過極其嚴格的 Function Calling 優化後, 在像 Claude Code, OpenClaw 或是 Android Studio 新版的本地 AI 代理工作流中, 它輸出 JSON 的穩定度極高, 不會輕易導致 Agent 介面崩潰, 是目前最適合拿來當 Local Coding Agent 後台的小模型. - 快如閃電的多詞元預測 (MTP) 技術 :
Gemma 4 內建了專用的草稿模型進行推測解碼 (Speculative Decoding), 這讓它的吐字速度非常驚人, 即便是開啟 Thinking 模式依然能維持極度順暢的生成體驗. - 恐怖的 128K 超長上下文記憶 :
此模型支援高達 128,000 個 Token 的上下文, 即使是把一整套複雜的 Python 專案架構完全塞給它, 也能完全離線地保持脈絡記憶.
不過 Gemma 4 也有一些缺點 :
- 靜態記憶體開銷高於預期 :
Gemma 4 採用了先進的每層嵌入 (PLE)技術來壓縮核心運算, 雖然它的有效活躍參數很低, 但因為它包含了龐大的靜態嵌入表與龐大的 128K KV 快取空間, 它在剛載入顯卡時的 VRAM 佔用率會比傳統純文字 8B 模型稍微吃滿一點點. - 複雜思考會拉長首字反應時間 (Time-to-First-Token) :
因為模型內建了推理機制, 當提出一個非常困難的程式邏輯題時, 它會在背景面壁思索一小段時間, 這時候 GPU 雖然在瘋狂運算, 但畫面上可能要等個 1~2 秒才會開始吐字, 可能會讓人誤以為它卡住了.
總評 : Gemma 4 是全面進化的全能全模態大師, 我們可以將網頁設計截圖丟給它叫它直接生成 HTML/CSS 碼, 也可以作 Claude Code 後台, 全自動為 Python 專案生成程式碼與除錯, 還能丟錄音檔或語音叫它離線做精準摘要與理解.
Gemma 4 的系列模型參考 :
之前我用 Ollama 原生介面下載的應該是 8B 參數, 經 Q4_K_M 量化後大小為 9.6 GB 的 e4b 版, 可用 ollama show 指令來確認 :
PS C:\Users\USER> ollama show gemma4
Model
architecture gemma4
parameters 8.0B
context length 131072
embedding length 2560
quantization Q4_K_M
requires 0.20.0
Capabilities
completion
vision
audio
tools
thinking
Parameters
temperature 1
top_k 64
top_p 0.95
License
Apache License
Version 2.0, January 2004
...
如果要在 CLI 介面下載執行, 指令如下 :
ollama run gemma4:e4b
以下多模態測試使用 Ollama 原生介面, 首先測試車牌辨識, 選擇模型 gemma4, 輸入 "請辨識這張車牌號碼", 按輸入框中的 + 鈕, 上傳車牌圖片後按提交鈕 :
經過快速的推理思考後, 直接回覆正確之車牌號碼 :
下面是從 TVBS 新聞網站下載的貨車圖片, 上傳給 gemma4 看看能否辨識車牌 :
果然不同凡響, 正確辨識出 9487-XD.
接下來請它描述有名的 Lenna 圖 :
"請描述這張圖片, 此圖非常有名, 你知道是甚麼圖嗎?"
描述得很詳盡, 但它不知道這是有名的 Lenna 圖, 經我提示 "是影像處理書籍上經常出現的模特兒 Lenna 的照片" 後才恍然大悟 :
接下來上傳一張貓咪圖片 "請描述這張圖片內容" :
結果成功地辨識出三隻小貓, 這比 llama3.2-vision 模型厲害 :
接下來考驗它能否看懂 K 線圖, 我上傳一張用 kbar 模組繪製的 K 線圖 :
結果如下 :
居然還能解盤, 真是厲害.

















沒有留言 :
張貼留言