2020年12月2日 星期三

資料科學上課筆記 (一)

今天聽了公司資料科學課程第一課, 隨手簡單記下要點 (不太完整) :

資料科學 : 從資料中找關係, 從資料到決策的過程 (KDD, Knoeledge Discovery Decision)

現代資料科學=大數據+機器學習

資料科學的兩個流派 : 

  • Problem-driven (統計學) : 演繹法
  • Data-driven (資料探勘) : 歸納法
從資料中找關係的方法 :
  • 統計分析 : 解釋資料分布之間的關係
  • 機器學習 : 自動從現有資料獲得的規律預測未來的資料
  • 資料探勘 : 尋找資料與資料間的關聯
大數據的定義 :
  • 3V : 多樣, 即時, 大量
  • 資料量大到需要分散式運算才能處理
  • 抽樣的樣本量接近母體量
開放資料 : 不受專利權, 著作權等限制, 可自由運用之公開資料 (授權+可存取)

數據 (data) -> 資訊 (information) -> 智慧 (knowledge) + 經驗 (experience) -> 決策 (decision)

資料科學 : 利用資料產生可以幫助決策的模型

模型 : 從資料中學習規則的黑盒子

學習資料科學的三階段 : 
  1. 先了解如何用
  2. 了解背後的原理
  3. 打造自己的機器學習模型
資料科學專案中最耗時的是資料清理, 其次是收集資料集, 而不是訓練模型. 資料才是資料科學的核心, 所謂資料科學家其實是資料黑手. 

資料科學是跨領域的方法論, 需要資工, 統計, 數學, 醫學, 生物, 金融, 經濟等跨領域人才的整合.

資料科學是綜合性的能力 : 
  • 技術力 (程式能力)
  • 分析力 (統計能力)
  • 應用力 (領域知識能力)
大數據分析師國際認證 (APMG)

沒有留言:

張貼留言