小狐狸事務所: MSI 桌機安裝 Ollama

2026年5月20日星期三

MSI 桌機安裝 Ollama

MSI 桌機安裝好 Claude Code 與 Gemini CLI 後, 接下來輪到建立本地模型了, 目標是在本機建立一個類似 Claude Code 的機制. 安裝本地模型我參考手上的三本書 :

# Ollama 本地 AI 全方位攻略：命令列功能、五大主題測試、RAG、Vibe Coding、MCP，一本搞定所有實戰應用

# 本地端 Ollama×LangChain×LangGraph×LangSmith 開發手冊：打造 RAG、Agent、SQL 應用

# 文科生也能輕鬆實現！自建自用大語言模型（LLM）：無痛操作Ollama本機端模型管理器

這三本書去年買來快一年, 這次終於派上用場了.

跑 Ollama 要求主機有 16GB 以上 DRAM, 我的 MSI 桌機是配備 48GB DRAM + RXT 3060 (12GB) 的入門款 AI 主機 :

使用 Ollama 載入語言模型時, 首先會將模型的全部參數載入 DRAM 中, 所以 DRAM 容量至少需大於模型大小才能順利運行, 但這只是保證可以在 CPU 上運行而已, 跑是跑得動了, 但靠 CPU 運算速度非常慢, 需要利用 GPU 顯示卡上的 VRAM (Video DRAM) 的平行運算來加速, Ollama 會將模型參數動態配置到 VRAM 中, 最好的情況是整個模型可完全載入到 VRAM, 如果 VRAM 容量不足以載入整個模型, 剩餘的參數會由 CPU 負責運算, 這會讓整體效能下降. 通常 VRAM 的容量最好要大於 1.2 倍的模型容量才能確保整個模型能載入 VRAM 中.

1. 下載安裝 Ollama :

連線 Ollama 官網, 按右上角的 Download 鈕 :

# https://ollama.com

按 "Download for Windows" :

下載完成後, 點擊 OllamaSetup.exe (約 2GB) 執行檔, 按下方 "Install" 鈕進行安裝 :

安裝完成後會自動 Launch 顯示如下畫面, 右邊列出了許多 AI 代理 (Agent), 例如 Claude Code, Codex App, OpenClaw 等, 可以直接按右方的按鈕複製安裝指令, 然後開啟 PS 視窗來安裝 :

這些 AI 代理都是 Ollama 的魔改版, 例如 Claude Code 是 Ollama 修改 Anthropic 官方原版, 攔截原本對 Claude 3.5 Sonnet 模型的呼叫, 改成呼叫 Ollama 本地的 Coding Agent (例如 qwen3.5-coder), 這樣就能使用 Claude Code 介面進行軟體開發卻不需要付 token 費用.

不過在下載這些模型之前, 先來下載一般的模型例如 Google 的 gemma4 來測試, 按 New Chat 鈕會出現聊天畫面, 按 Select a model 鈕從選單中點選 gemma4 :

然後必須在對話框輸入任意提問詞, 按 Enter 或右方提交鈕才會開始下載模型 :

下載完成後就會針對提問做出回應 :

可見 gemma4 預設會用簡體中文回答, 可以在提問詞中註明一律用繁體中文 :

問 gemma4 甚麼是量子疊加態, 回應內容非常豐富ㄟ, 而且幾乎在 10 秒內就完成回應 :

在對話介面左側會出現對話標題, 按滑鼠右鍵可以更改標題, 刪除與分享聊天 :

在 Ollama 閒置未提問時 GPU 的使用率一般在 10% 上下, 按 Ctrl+ Shift + Esc 開啟工作管理員, 點選效能, 在右下方會顯示 GPU 使用率 :

這時到對話介面輸入提問詞 (例如 "何謂量子糾纏"), 這時 GPU 的使用率會突然飆高 :

等模型回應結束, GPU 使用率又會回到 10% 左右.

2. 更改模型儲存位置 :

透過 Ollama 下載 LLM 時, 模型預設會放在 C:\使用者\<USER>\.ollama\models 資料夾下面, 底下有 blobs 與 manifests 兩個子目錄, blobs 是真正存放模型的地方; 而 manifests 則是存放模型描述檔 (是一份描述模型配置的 JSON 檔). manifests 讓 Ollama 知道如何正確取得 blobs 中的模型檔, manifests 是模型的身分證與組裝說明書, 裡面 library 子目錄下會有個別模型的子目錄) :