小狐狸事務所: 機器學習閱讀札記

2021年6月30日星期三

最近在漫讀一些手邊的機器學習書籍, 隨手將重點記之如下, 方便以後整理筆記時查找 :

最典型的無參數 (non parametric) 機器學習模型是 K 近鄰 (K-nearest neeighbors, KNN) 模型, 雖然表面上 KNN 有一個參數 K, 但它仍然是無參數模型, 因為此 K 參數並不是從資料中學習而得, 而是資料科學家所選擇的一個適當之經驗值, 所以這種參數被稱為超參數 (hyperparameter). --Introduction to Artificial Neural Network p17.
可以用超參數 (hyperparameter) 來控制訓練時的正則化程度, 超參數是一種學習演算法參數, 不是模型的參數, 所以不會被學習演算法本身所影響, 它必須在訓練前設定, 且訓練期間保持不變. 調整超參數是建立機器學習系統的重要程序. -- 精通機器學習 p28.
機器學習專案成功的關鍵之一在於找出一組良好的特徵來訓練, 此程序稱為特徵工程 (feature engineering), 其步驟有三 :
(1). 特徵選擇 (2). 特徵提取 (3). 收集新資料以建立新特徵.
-- 精通機器學習 p26.
資料科學家通常要花很多時間來整理訓練用的資料, 但這是非常值得的, 如果訓練用的資料充滿錯誤, 雜訊, 與離群值, 系統將難以找到資料底層的模式.

自學 AI 雖然要花很多時間摸索, 但經過多次走彎路印象也會較深刻, 期間也需要停頓下來打底欠欠缺的預備知識, 無形中所學的知識體系也會越來越龐大而需要統整.

~~ 進行中 ~~~