小狐狸事務所: Ollama 學習筆記 : Llamma 模型測試 (llama3.2-vision:11b)

2026年5月25日星期一

Ollama 學習筆記 : Llamma 模型測試 (llama3.2-vision:11b)

今天繼續用 Ollama 測試本地模型, 本篇旨在測試 Meta 釋出的第一款原生多模態大語言模型 llama3.2-vision, 也是開源 AI 發展史上的重要里程碑. 它最大的特色是讓 Llama 家族正式擺脫純文字的限制, 具備了看圖思考的能力.

本系列全部測試文章索引參考 :

# Ollama 學習筆記索引

在 Ollama 生態系中預設執行的通常是 llama3.2-vision:11b (110億參數), 經過 4-bit 量化後檔案大小約為 7.8 GB, 此體積可完整塞進 RTX 3060 12GB 的 VRAM, 是個人桌機體驗本地端視覺 AI 的主力首選.

llama3.2-vision 的核心強項如下 :

優秀的圖表與文檔理解 :
Llama 3.2-Vision 在解讀商業圖表 (如折線圖, 圓餅圖), 流程圖, 學術統計圖, 以及含有複雜排版的 PDF 文檔時表現極為強悍. 在官方基準測試中, 它在圖表和細節分析上甚至超越了部分同量級的商業閉源模型 (如 Claude 3 Haiku).
強大的光學字元辨識 (OCR) :
不論是印刷體還是清晰的手寫字, 它能非常精準地將圖片中的文字與表格數據抓取出來並轉換成 Markdown 格式.
影像定位與物件偵測 :
它不僅能看懂照片裡有什麼, 還能根據你的文字描述, 指出物件在圖片中的大概位置或方位.
完美契合 12GB VRAM 顯卡 :
7.8 GB 的模型大小, 載入後大約佔用 8~9 GB VRAM, 留下約 3GB 的緩衝空間來儲存聊天上下文, 這使得在本地端丟照片給它時, 生成和解析的速度非常流暢, 不需要耗時等待.

但也存在一些缺點 :

程式與高難度邏輯能力偏弱 :
由於核心技能都聚焦在視覺和基礎對話, 如果把它當作寫 Python 的大腦或拿去跑 Claude Code 這類高強度 Agent 任務, 它會因為邏輯不夠硬核或工具呼叫格式錯誤而卡死.
複雜圖表偶爾會有幻覺 :
雖然它很擅長看圖, 但在面對資訊量極度爆炸, 字體極小, 或是線條密密麻麻的複雜金融 K 線圖電路圖時, 它還是有一定機率會胡言亂語.
純文字智商相比同體積模型無優勢 :
如果純粹拿它來進行文字對話, 寫作或推理, 它的純文字能力基本上就是 Llama 3.1 8B 的水準, 在面對純文字高難度任務時表現會遜於同等體積的 Phi 4 (14B) 或 Qwen 3.5.

總之, llama3.2-vision 擅長處理圖表資料, 但文字對話較弱且容易有幻覺. 另外, llama3.2-vision 的多模態只限於 "文字+圖片", 無法處理語音, 而且圖片需直接上傳, 給它圖片網址是無法處理的.

下載執行此模型 :

PS C:\Users\USER> ollama run llama3.2-vision:11b

pulling manifest

pulling 9999d473417a: 100% ▕██████████████████████████████████████████▏ 7.8 GB

pulling 715415638c9c: 100% ▕██████████████████████████████████████████▏ 269 B

pulling d3ed60b91757: 100% ▕██████████████████████████████████████████▏ 6.0 KB

pulling fcc5a6bec9da: 100% ▕██████████████████████████████████████████▏ 7.7 KB

pulling fefc914e46e6: 100% ▕██████████████████████████████████████████▏ 32 B

pulling 1506fb8a7284: 100% ▕██████████████████████████████████████████▏ 564 B

verifying sha256 digest

writing manifest

success

先來測試其圖片辨識能力, 我用谷歌搜尋圖片找到下面這張 NBX-3388 車牌, 可以拿來測試看看 llama3.2-vision 是否可辨識出號碼 :

# https://auto.ltn.com.tw/news/13921

多模態測試不適合使用 CLI 介面, 應該使用 Ollama 原生介面, 選則模型 llama3.2-vision, 輸入 "請辨識這張車牌號碼", 按輸入框中的 + 鈕, 上傳或貼上車牌圖片後提交 :

結果如下, 正確辨識出號碼為 NBX-3388 :

但它說這是巴西車牌顯然是幻想 + 胡扯 :

"這張車牌號碼是來自巴西。巴西的車牌號碼由兩部分組成：區域代碼和序號。區域代碼是用來識別車牌所屬的州的三位數字，序號則是用來識別車牌的四位數字。

在這張車牌號碼中，區域代碼是「NBX」，序號是「3388」。因此，這張車牌號碼的完整代碼是「NBX-3388」。這張車牌號碼可能是屬於巴西的某個州，例如巴西利亞（Brasília）或聖保羅（São Paulo）等。"

接下來我上傳一張 Lenna 的照片要求它描述, 參考 :

# https://zh.wikipedia.org/wiki/File:Lenna.jpg

描述如下 :

"這照片是一個女性的頭像，她的頭戴著一頂白色的帽子，帽子上有兩個小的羽毛，帽子的頂部有一個小的圓形鏡子。照片中女性的頭部和肩膀被拍攝到了。女性的頭髮是黑色的，長得很長，從她的頭頂延伸到她的肩膀。她的臉部是白色的，臉部的輪廓清晰，眼睛的位置正確，鼻子和嘴巴的形狀也正確。她的頭部的輪廓是圓的，沒有任何凸凹。她的頭髮的顏色是黑色的，長得很長，從她的頭頂延伸到她的肩膀。她的臉部的輪廓是白色的，臉部的輪廓清晰，眼睛的位置正確，鼻子和嘴巴的形狀也正…"

形容人家很正呵呵.

我在貓咪圖片網站隨機找了一張可愛的貓貓圖 :

# https://thecatapi.com/

先叫它描述一下看到甚麼 :

描述如下 :

"這張圖片是一個小貓的照片。貓的毛色是白色的，毛髮長得很長，從他的頭頂延伸到他的肩膀。他的眼睛是黑色的，瞳孔很大，鼻子和嘴巴的形狀也正確。他的頭部的輪廓是圓的，沒有任何凸凹。他的耳朵是小的，很軟，很細，很圓。他的頭髮的顏色是黑色的，長得很長，從他的頭頂延伸到他的肩膀。他的眼睛是黑色的，瞳孔很大，鼻子和嘴巴的形狀也正…"

前半部是對的, 但後半部怎麼跟上面 Lenna 圖的描述很像啊? 也是很正.

叫它數數看圖中有幾隻貓咪 :