在前一篇測試中, 我已在 MSI 桌機 Win 11 的系統環境上安裝 Ollama 並下載谷歌 gemma4 模型, 在 Ollama 原生介面上進行對話, 參考 :
本篇旨在使用 CLI 介面 (Power Shell 或命令提示字元視窗) 來操作 Ollama.
1. Ollama 指令集 :
開啟 PS 視窗, 輸入 ollama -h 會顯示所有 Ollama 指令集與使用格式 :
PS C:\Users\USER> ollama -h
Large language model runner
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start Ollama
create Create a model
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
signin Sign in to ollama.com
signout Sign out from ollama.com
list List models
ps List running models
cp Copy a model
rm Remove a model
launch Launch the Ollama menu or an integration
help Help about any command
Flags:
-h, --help help for ollama
--nowordwrap Don't wrap words to the next line automatically
--verbose Show timings for response
-v, --version Show version information
Use "ollama [command] --help" for more information about a command.
指令集說明如下表 :
| Ollama 指令 | 說明 |
|---|---|
| serve | 啟動 Ollama 伺服器背景服務 (例如 : ollama serve)。 |
| create | 從 Modelfile 創建立新模型 (例如 : ollama create <模型名稱> -f <設定檔路徑>)。 |
| show | 顯示模型的詳細資訊與參數 (例如 : ollama show <模型名稱>)。 |
| run | 執行模型 (若本地沒有會自動下載並進入對話, 例如 ollama run <模型名稱>)。 |
| stop | 停止目前正在執行並佔用記憶體的模型 (例如 ollama stop <模型名稱>)。 |
| pull | 從官方線上倉庫下載指定模型 (例如 ollama pull <模型名稱>)。 |
| push | 將本地模型上傳分享至官方模型庫 (例如 ollama push <帳戶名稱>/<模型名稱>)。 |
| signin | 登入 ollama.com 帳號 (例如 ollama signin <帳戶名稱>)。 |
| signout | 從 ollama.com 帳號登出 (例如 例如 ollama signout)。 |
| list | 列出目前電腦中所有已下載的模型清單 (例如 ollama list)。 |
| ps | 列出目前正在記憶體中執行的 AI 模型 (例如 ollama ps)。 |
| cp | 複製模型 (例如 ollama cp <模型名稱> <新模型名稱>)。 |
| rm | 刪除指定的 AI 模型以釋放硬碟空間 (例如 ollama rm <模型名稱>)。 |
| launch | 啟動 Ollama 選單或相關的整合工具。 |
| help | 顯示任何指令的說明文件 (例如 ollama [指令] -h)。 |
常用指令有 list, show, run, stop, ps, rm 等.
2. 檢視下載的模型 :
指令 ollama list 會列出目前已下載的模型 :
PS C:\Users\USER> ollama list
NAME ID SIZE MODIFIED
gemma4:latest c6eb396dbd59 9.6 GB 23 hours ago
目前此 MSI 桌機僅下載了一個模型 gemma4, 大小為 9.6 GB.
指令 ollama show 會顯示模型的詳細資訊, 例如參數量 (parameters), 上下文窗口長度 (contex length), 詞嵌入維度 (embedding length), 與量化方式 (quantization) 等 :
PS C:\Users\USER> ollama show gemma4
Model
architecture gemma4
parameters 8.0B
context length 131072
embedding length 2560
quantization Q4_K_M
requires 0.20.0
Capabilities
completion
vision
audio
tools
thinking
Parameters
temperature 1
top_k 64
top_p 0.95
License
Apache License
Version 2.0, January 2004
...
注意, Model 裡面的 parameters 為模型內部的參數; 而 top_k 這些 Parameters 是模型的超參數.
3. 啟動與停止模型 :
指令 ollama ps 會顯示目前有哪些模型被載入到記憶體 (DRAM/VRAM ) 中運行, 如果在尚未啟動任何模型之前執行 ollama ps 指令會傳回空值 :
PS C:\Users\USER> ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
PS C:\Users\USER>
這是因為 Ollama 的運作機制是有聊天召喚時才將模型載入記憶體, 如果還沒有執行 ollama run gemma4 或沒有透過 WebUI (例如 Open WebUI) 去呼叫它, 這個模型就只會待在硬碟裡, 不會載入記憶體, 所以 ollama ps 就會是空的.
現在用 ollama run gemma4 啟動模型 :
PS C:\Users\USER> ollama run gemma4
>>>
出現 >>> 提示號表示 Ollama 已將 gemma4 模型載入 GPU 的 VRAM 內了, 這時開啟一個新的 PS 視窗, 輸入 ollama ps 指令 :
PS C:\Users\USER> ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:latest c6eb396dbd59 10 GB 100% GPU 4096 4 minutes from now
輸入提示詞 :
>>> 你好
你好!👋 你今天怎么样?有什么我可以帮助你的吗? 😊
>>> Send a message (/? for help)
這時輸入 ollama stop gemma4 停止模型, Ollama 會立刻將模型從 VRAM 卸載清空 :
PS C:\Users\USER> ollama stop gemma4
再用 ollama ps 檢視會發現模型確實已被清空 :
PS C:\Users\USER> ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
PS C:\Users\USER>
但若在原來的對話視窗提問, 模型還是會回應, 這是因為新的提問動作會發送一個新的請求給背景的 Ollama 伺服器服務, 它發現記憶體裡沒有 gemma4, 它不會報錯, 而是會自動從硬碟裡把 gemma4 載入記憶體來處理此次提問. 這時開新 PS 視窗用 ollama ps 指令檢視會發現模型又載入記憶體了.
其實, Ollama 預設有閒置 5 分鐘自動卸載的機制, 如果連續 5 分鐘沒有跟它對話, Ollama 就會主動把模型從記憶體中清空, 以免佔用顯示卡記憶體 (VRAM), 逾時後用 ollama ps 指令檢視也會顯示空白.























































