2026年5月20日 星期三

MSI 桌機安裝 Ollama

MSI 桌機安裝好 Claude Code 與 Gemini CLI 後, 接下來輪到建立本地模型了, 目標是在本機建立一個類似 Claude Code 的機制. 安裝本地模型我參考手上的三本書 :


這三本書去年買來快一年, 這次終於派上用場了. 

跑 Ollama 要求主機有 16GB 以上 DRAM, 我的 MSI 桌機是配備 48GB DRAM + RXT 3060 (12GB) 的入門款 AI 主機 :





使用 Ollama 載入語言模型時, 首先會將模型的全部參數載入 DRAM 中, 所以 DRAM 容量至少需大於模型大小才能順利運行, 但這只是保證可以在 CPU 上運行而已, 跑是跑得動了, 但靠 CPU 運算速度非常慢, 需要利用 GPU 顯示卡上的 VRAM (Video DRAM) 的平行運算來加速, Ollama 會將模型參數動態配置到 VRAM 中, 最好的情況是整個模型可完全載入到 VRAM, 如果 VRAM 容量不足以載入整個模型, 剩餘的參數會由 CPU 負責運算, 這會讓整體效能下降. 通常 VRAM 的容量最好要大於 1.2 倍的模型容量才能確保整個模型能載入 VRAM 中. 


1. 下載安裝 Ollama : 

連線 Ollama 官網, 按右上角的 Download 鈕 :





按 "Download for Windows" :



下載完成後, 點擊 OllamaSetup.exe (約 2GB) 執行檔, 按下方 "Install" 鈕進行安裝 :





安裝完成後會自動 Launch 顯示如下畫面, 右邊列出了許多 AI 代理 (Agent), 例如 Claude Code, Codex App, OpenClaw 等, 可以直接按右方的按鈕複製安裝指令, 然後開啟 PS 視窗來安裝 : 




這些 AI 代理都是 Ollama 的魔改版, 例如 Claude Code 是 Ollama 修改 Anthropic 官方原版, 攔截原本對 Claude 3.5 Sonnet 模型的呼叫, 改成呼叫 Ollama 本地的 Coding Agent (例如 qwen3.5-coder), 這樣就能使用 Claude Code 介面進行軟體開發卻不需要付 token 費用. 

不過在下載這些模型之前, 先來下載一般的模型例如 Google 的 gemma4 來測試, 按 New Chat 鈕會出現聊天畫面, 按 Select a model 鈕從選單中點選 gemma4 :




然後必須在對話框輸入任意提問詞, 按 Enter 或右方提交鈕才會開始下載模型 :





下載完成後就會針對提問做出回應 : 




可見 gemma4 預設會用簡體中文回答, 可以在提問詞中註明一律用繁體中文 :





問 gemma4 甚麼是量子疊加態, 回應內容非常豐富ㄟ, 而且幾乎在 10 秒內就完成回應 :






在對話介面左側會出現對話標題, 按滑鼠右鍵可以更改標題, 刪除與分享聊天 :




在 Ollama 閒置未提問時 GPU 的使用率一般在 10% 上下, 按 Ctrl+ Shift + Esc 開啟工作管理員, 點選效能, 在右下方會顯示 GPU 使用率 :




這時到對話介面輸入提問詞 (例如 "何謂量子糾纏"), 這時 GPU 的使用率會突然飆高 :




等模型回應結束, GPU 使用率又會回到 10% 左右. 


2. 更改模型儲存位置 : 

透過 Ollama 下載 LLM 時, 模型預設會放在 C:\使用者\<USER>\.ollama\models 資料夾下面, 底下有 blobs 與 manifests 兩個子目錄, blobs 是真正存放模型的地方; 而 manifests 則是存放模型描述檔 (是一份描述模型配置的 JSON 檔, 讓 Ollama 知道如何正確取得 blobs 中的模型檔) :




檢視上面下載的 gemma4 容量為 8.9GB :





由於模型容量很大, 多下載幾個就會快速耗掉 C 碟可用空間, 為了避免 C 碟被占用過多容量, 最好是將模型存放到 D 碟去, 首先在 D 碟建立一個資料夾 (例如 OllamaModels) 來存放模型 : 




然後點擊 Ollama 對話介面左上角的 Settings :





按 Model location 項目右邊的 Browse 鈕, 點選上面建立的 D:\OllamaModels 資料夾即可 :





然後將上面下載到預設模型位置 C:\使用者\<USER>\.ollama\models 下面的 blobs 與 manifests 移到新模型位置 D:\OllamaModels 資料夾下, 這樣之後重新開啟 Ollama 就會從新位置載入模型了 : 




3. 關閉 Ollama : 

按 Ollama 原生對話介面右上角的 X 鈕即可關閉目前的 Ollama 對話視窗, 但這樣做 Ollama 還是常駐在記憶體裡, 載入的模型還是占用 GPU 的 VRAM, 如果接著去跑 Stable diffusion 可能會跑不動, 因為 VRAM 未被釋放. 

點擊 Windows 右下角系統匣 (^ 鈕), 再點擊 Ollama 羊駝圖示, 點選 Open Ollama 就會重新開啟 Ollama 原生對話介面 :




這時左邊導覽框會出現之前的聊天標題, 點擊後會載入聊天歷史, 但有時候卻沒反應, 這可能是 Ollama 原生對話介面的 Bug, 可以再關閉重開試試看. 

點選 "Quite Ollama" 會真正將 Ollama 從常駐中移除, 並且釋放 VRAM 中的模型. 如果要重新開啟 Ollama, 可按 Win 鍵, 搜尋 Ollama 即可找到 :




可以將其釘選到開始或工作列方便啟動. 

OK! 在這三本書買來超過半年多後終於把本地模型架起來了! 這只是起步而已, 接下來要在這基礎上打造本地的 Claude Code 與 OpenClaw. 

沒有留言 :