今天聽了公司資料科學課程第一課, 隨手簡單記下要點 (不太完整) :
資料科學 : 從資料中找關係, 從資料到決策的過程 (KDD, Knoeledge Discovery Decision)
現代資料科學=大數據+機器學習
資料科學的兩個流派 :
- Problem-driven (統計學) : 演繹法
- Data-driven (資料探勘) : 歸納法
從資料中找關係的方法 :
- 統計分析 : 解釋資料分布之間的關係
- 機器學習 : 自動從現有資料獲得的規律預測未來的資料
- 資料探勘 : 尋找資料與資料間的關聯
大數據的定義 :
- 3V : 多樣, 即時, 大量
- 資料量大到需要分散式運算才能處理
- 抽樣的樣本量接近母體量
開放資料 : 不受專利權, 著作權等限制, 可自由運用之公開資料 (授權+可存取)
數據 (data) -> 資訊 (information) -> 智慧 (knowledge) + 經驗 (experience) -> 決策 (decision)
資料科學 : 利用資料產生可以幫助決策的模型
模型 : 從資料中學習規則的黑盒子
學習資料科學的三階段 :
- 先了解如何用
- 了解背後的原理
- 打造自己的機器學習模型
資料科學專案中最耗時的是資料清理, 其次是收集資料集, 而不是訓練模型. 資料才是資料科學的核心, 所謂資料科學家其實是資料黑手.
資料科學是跨領域的方法論, 需要資工, 統計, 數學, 醫學, 生物, 金融, 經濟等跨領域人才的整合.
資料科學是綜合性的能力 :
- 技術力 (程式能力)
- 分析力 (統計能力)
- 應用力 (領域知識能力)
沒有留言:
張貼留言