2023年8月26日 星期六

人工智慧-概念應用與管理筆記


這本書是上回在母校圖書館架上看到借回來的, 我覺得作者整理得蠻清楚的, 想說盡快看完才能騰出容量借另一本 NLP 的書. 



Source : 博客來


以下是讀完第七章 (自然語言處理) 的筆記 :
  1. AI 四大領域 :
    • 電腦視覺 
    • 自然語言處理
    • 數據分析預測
    • 自駕車
  2. NLP 主要應用 (分類, 抽取, 生成, 轉換, 配對) :
    • 語音與文字轉換 : 語音辨識 & 語音合成 
    • 自然語言生成 : 利用育訓練之大型語言模型
    • 自然語言分類 : 情緒分析, 意圖分析, 文本分類
    • 語言配對生成 : 機器翻譯, 問答系統, 聊天機器人, AI 助理
    • 文本分析 : 關鍵詞提取, 摘要提取, 命名實體 (NER) 提取, 主題提取
    • 類文字序列應用 : 音樂 (生成, 搜尋, 伴奏), 生物資訊分析 (腦波, DNA, 心電圖)
  3. 命名實體的三大類 : 數字, 時間, 實體
  4. 命名實體的七小類 : 人, 組織, 地點, 時間, 日期, 貨幣, 百分比
  5. NLP 的重要性 : 人類的智慧主要來自知識的處理, 而知識主要是透過文本來儲存與傳承, 因此 AI 必須能處理與生成語言文字才能做出正確合適之決策與行動. 人類在 2020 年代後一天至少產生 44TB 的資訊, 必須透過 AI 才能進行高效率的檢索, 搜尋, 與提取摘要.
  6. NLP 的困難在於, 人類大多數的資訊是以非結構性 (指沒有欄位與格式資訊) 的自然文本檔案裡, 處理上有歧義, 語境, 多形, 與不斷出現新詞彙等困難存在. 
  7. NLP 演進的三大階段 : 
    • 基於規則的 NLP (法則學派) : Top-down 方法, 語言學家的作法
    • 基於傳統機器學習的 NLP : Bottom-up 方法, 模仿人類學語言方式, 需特徵工程
    • 基於深度學習的 NLP : Bottom-up 方法, 模仿人類學語言方式, 不需特徵工程
  8. 傳統機器學習的 NLP 需要人工篩選文本的特徵 (稱為特徵工程), 例如關鍵字提取任務, 其可能特徵包含 : 出現於標題? 出現於 Tag? 出現於摘要? 等等, 然後利用 SVM, 簡單貝氏, KNN, 或決策樹等演算法來提取關鍵字. 注意, 不同的任務 (QA, 情緒分析, 關鍵字提取 ....) 有不同的特徵工程, 學習模式也不同. 深度學習則會自動發現特徵, 不需要特徵工程. 
  9. NLP 對於語言的理解是透過兩種分析 :
    • 語法分析 : 主要是句法的結構與詞彙的順序
    • 語意分析 : 透過分析詞與詞彼此關係推測語句的意圖
  10. NLP 的主要課題 (預處理, 傳統機器學習特別重視) :
    • 斷詞 (tokenization) : 字, 數字, 標點等, 又稱標記
    • 停用字 (stop words) : 可以忽略不值得列入語音分析的字, 例如 the, of, a 等
    • 詞性標註 (POS, part of speech) : 形容詞, 名詞, 動詞, ...
    • 詞向量 (word vector) : 用來表示字詞的向量
    • 句法剖析 (parsing) : 分析主詞, 動詞, 受詞等句子結構
    • 命名實體識別 (NER recognition) : 提取專有名詞
    • 意圖分析 (semantic analysis) : 透過意圖進行文本分類
  11. 傳統機器學習 NLP 管線 :
    文本 -> 資料預處理 -> 特徵提取 -> 模型訓練 (SVM/KNN ...) -> 預測任務 (QA/情緒/意圖分析...)
  12. 深度學習 NLP 管線 :
    文本 -> 資料預處理 (不必要) -> 詞向量 -> 模型訓練 (RNN/LSTM/transformer) -> 預測與生成任務
  13. 基於深度學習的 NLP 會在大量的語料訓練中自動學習斷詞, 停用詞, POS 等傳統機器學習所需之預處理, 故其預處理範圍較小, 僅限於可能之文本格式整理. 其核心處理為詞向量, 深度學習以詞向量取代了傳統機器學習所倚賴的法則, 詞頻計算, 與特徵工程, 但其代價為需要大量訓練用的文本與計算力. 
  14. 混合型 NLP 開發架構 :
    結合 NLP 三大學派優點, 由深度學習負責下層較複雜的特徵提取, 利用法則學派的知識圖譜, 專家系統來提升語法結構與上層知識邏輯推理之正確性, 亦可加上傳統機器學習的 SVM, 隨機森林, 貝氏定理提高資訊抽取與分類之效率. 
  15. 文本的數位表徵方法 : 
    文本的自然形式為以 Unicode 編碼之人類可閱讀字串, 但電腦處理的對象是數字, 它並不了解字串的含意, 必須將字詞轉成對應的數字才行, 字詞的數字表徵方式有兩種 :
    • 頻率導向 : 有獨熱編碼 (one-hot coding) 與詞袋 (bag of words) 兩種模式
    • 向量導向 : 使用詞嵌入 (word embedding) 模式
  16. 頻率導向的字詞表徵方式有缺點 :
    • 稀疏性 (0 很多)
    • 無序列資訊
    • 無語意資訊
    • 維度很高 (我加的)
  17. 獨熱編碼是利用文本中每一個字在其出現的位置用 1 編碼, 其餘位置用 0 編碼所形成的向量來表示該字, 所以整個文本的字集合起來就是一個稀疏矩陣, 而每個字的獨熱 1 就代表了它在整個文本中的位置, 因此也可以用其索引位置來代表其詞向量. 獨熱編碼是 NLP 的最基礎工作, 所有的後續處理均以此為文本數字化的基礎. 
  18. 詞袋是把文本當成一個袋子, 裡面的所有關鍵詞以其出現的頻率 (term frequency, TF) 來代表文本的語意, 作法是統計每個詞出現的頻率, 越高表示該詞為此文件語意的重要特徵. 但詞出現頻率法 (TF) 的缺點如下 :
    • 是只統計次數, 而忽略了文本的長短 (某詞在文本 A 次數少但文本短; 在文本 B 次數多但文本長, 其實在文本 A 重要性較大).
    • 介係詞 of, at, in 與冠詞 a, an 等與語意沒有重要關係的詞頻會非常高, TF-IDF 法就是為了糾正此缺點而誕生. 
  19. TF-IDF (term frency-inverse document frequency) 是一種用來評估一個詞在整個文本中的獨特性與重要程度的統計方法, 也是效能良好應用面廣的語意特徵表示法, 它主要是利用公式計算下列兩種比率 :
    • 詞頻比率=詞頻/文本的總字數
      比率越高表示此字在此文本中的重要性越高
    • 跨文本詞頻比率 (IDF)=Log(語料庫所有文本數)/包含此詞的文本數
      IDF 值越大表示此字在該文本的重要性越低, 因為此字在其他文本也很常見 (例如介係詞), 因此它在此文本中缺乏獨特性與重要性
  20. 詞頻作法的缺點 :
    • 獨熱編碼的稀疏特性會占用大量記憶空間
    • 詞頻只管出現次數, 忽略語句中字詞的序列關係, 缺乏上下文脈絡資訊
    • 詞袋只能表示文本中有哪些詞, 無法呈現每個詞的語意結構, 例如 "白血球打敗細菌" 與 "細菌打敗白血球" 這兩句在 TF-IDF 中是一樣的語意. 


沒有留言 :