今天繼續用 Ollama 測試本地模型, 本篇旨在測試 Meta 釋出的第一款原生多模態大語言模型 llama3.2-vision, 也是開源 AI 發展史上的重要里程碑. 它最大的特色是讓 Llama 家族正式擺脫純文字的限制, 具備了看圖思考的能力.
本系列全部測試文章索引參考 :
在 Ollama 生態系中預設執行的通常是 llama3.2-vision:11b (110億參數), 經過 4-bit 量化後檔案大小約為 7.8 GB, 此體積可完整塞進 RTX 3060 12GB 的 VRAM, 是個人桌機體驗本地端視覺 AI 的主力首選.
llama3.2-vision 的核心強項如下 :
- 優秀的圖表與文檔理解 :
Llama 3.2-Vision 在解讀商業圖表 (如折線圖, 圓餅圖), 流程圖, 學術統計圖, 以及含有複雜排版的 PDF 文檔時表現極為強悍. 在官方基準測試中, 它在圖表和細節分析上甚至超越了部分同量級的商業閉源模型 (如 Claude 3 Haiku). - 強大的光學字元辨識 (OCR) :
不論是印刷體還是清晰的手寫字, 它能非常精準地將圖片中的文字與表格數據抓取出來並轉換成 Markdown 格式. - 影像定位與物件偵測 :
它不僅能看懂照片裡有什麼, 還能根據你的文字描述, 指出物件在圖片中的大概位置或方位. - 完美契合 12GB VRAM 顯卡 :
7.8 GB 的模型大小, 載入後大約佔用 8~9 GB VRAM, 留下約 3GB 的緩衝空間來儲存聊天上下文, 這使得在本地端丟照片給它時, 生成和解析的速度非常流暢, 不需要耗時等待.
但 也存在一些缺點 :
- 程式與高難度邏輯能力偏弱 :
由於核心技能都聚焦在視覺和基礎對話, 如果把它當作寫 Python 的大腦或拿去跑 Claude Code 這類高強度 Agent 任務, 它會因為邏輯不夠硬核或工具呼叫格式錯誤而卡死. - 複雜圖表偶爾會有幻覺 :
雖然它很擅長看圖, 但在面對資訊量極度爆炸, 字體極小, 或是線條密密麻麻的複雜金融 K 線圖電路圖時, 它還是有一定機率會胡言亂語. - 純文字智商相比同體積模型無優勢 :
如果純粹拿它來進行文字對話, 寫作或推理, 它的純文字能力基本上就是 Llama 3.1 8B 的水準, 在面對純文字高難度任務時表現會遜於同等體積的 Phi 4 (14B) 或 Qwen 3.5.
總之, llama3.2-vision 擅長處理圖表資料, 但文字對話較弱且容易有幻覺. 另外, llama3.2-vision 的多模態只限於 "文字+圖片", 無法處理語音, 而且圖片需直接上傳, 給它圖片網址是無法處理的.
PS C:\Users\USER> ollama run llama3.2-vision:11b
pulling manifest
pulling 9999d473417a: 100% ▕██████████████████████████████████████████▏ 7.8 GB
pulling 715415638c9c: 100% ▕██████████████████████████████████████████▏ 269 B
pulling d3ed60b91757: 100% ▕██████████████████████████████████████████▏ 6.0 KB
pulling fcc5a6bec9da: 100% ▕██████████████████████████████████████████▏ 7.7 KB
pulling fefc914e46e6: 100% ▕██████████████████████████████████████████▏ 32 B
pulling 1506fb8a7284: 100% ▕██████████████████████████████████████████▏ 564 B
verifying sha256 digest
writing manifest
success
先來測試其圖片辨識能力, 我用谷歌搜尋圖片找到下面這張 NBX-3388 車牌, 可以拿來測試看看 llama3.2-vision 是否可辨識出號碼 :
多模態測試不適合使用 CLI 介面, 應該使用 Ollama 原生介面, 選則模型 llama3.2-vision, 輸入 "請辨識這張車牌號碼", 按輸入框中的 + 鈕, 上傳或貼上車牌圖片後提交 :
結果如下, 正確辨識出號碼為 NBX-3388 :
但它說這是巴西車牌顯然是幻想 + 胡扯 :
"這張車牌號碼是來自巴西。巴西的車牌號碼由兩部分組成:區域代碼和序號。區域代碼是用來識別車牌所屬的州的三位數字,序號則是用來識別車牌的四位數字。
在這張車牌號碼中,區域代碼是「NBX」,序號是「3388」。因此,這張車牌號碼的完整代碼是「NBX-3388」。這張車牌號碼可能是屬於巴西的某個州,例如巴西利亞(Brasília)或聖保羅(São Paulo)等。"
接下來我上傳一張 Lenna 的照片要求它描述, 參考 :
描述如下 :
"這照片是一個女性的頭像,她的頭戴著一頂白色的帽子,帽子上有兩個小的羽毛,帽子的頂部有一個小的圓形鏡子。照片中女性的頭部和肩膀被拍攝到了。女性的頭髮是黑色的,長得很長,從她的頭頂延伸到她的肩膀。她的臉部是白色的,臉部的輪廓清晰,眼睛的位置正確,鼻子和嘴巴的形狀也正確。她的頭部的輪廓是圓的,沒有任何凸凹。她的頭髮的顏色是黑色的,長得很長,從她的頭頂延伸到她的肩膀。她的臉部的輪廓是白色的,臉部的輪廓清晰,眼睛的位置正確,鼻子和嘴巴的形狀也正…"
形容人家很正呵呵.
我在貓咪圖片網站隨機找了一張可愛的貓貓圖 :
先叫它描述一下看到甚麼 :
描述如下 :
"這張圖片是一個小貓的照片。貓的毛色是白色的,毛髮長得很長,從他的頭頂延伸到他的肩膀。他的眼睛是黑色的,瞳孔很大,鼻子和嘴巴的形狀也正確。他的頭部的輪廓是圓的,沒有任何凸凹。他的耳朵是小的,很軟,很細,很圓。他的頭髮的顏色是黑色的,長得很長,從他的頭頂延伸到他的肩膀。他的眼睛是黑色的,瞳孔很大,鼻子和嘴巴的形狀也正…"
前半部是對的, 但後半部怎麼跟上面 Lenna 圖的描述很像啊? 也是很正.
叫它數數看圖中有幾隻貓咪 :
真是眼睛業障重, 明明是三隻貓, 但有可能是上面第一隻貓頭只照到下半部, 沒辨識出來所致.







沒有留言 :
張貼留言