此書借自母校圖書館, 因有人預約所以趕緊讀完後要拿去還了 :
Source : 天瓏
此書譯自 Packt 於 2023 年 2 月出版的這本書 :
Source : 天瓏
不過關於 OpenAI API 的介紹其實是第三章, 後面兩章都是跟企業如何應用 ChatGPT 有關, 我就瀏覽而已. 以下是讀後摘要 :
- GPT=Generative Pre-trained Transformer (生成式預訓練變換器)
- GPT 模型是由位於美國舊金山的 AI 公司 OpenAI 所建立, 其目標是創造一個不受限於特定任務, 能像人類一樣在各種任務上表現出色的通用人工智慧產品. OpenAI 在 2018 年發表的 GPT-1 模型研究報告中指出, 結合 Transformer 與非監督式預訓練可以實現強大的自然語言理解能力, 並且可在少量語料的微調下執行各種 NLP 任務.
- ChatGPT 可以完成 NLP 的四大任務 :
(1). 分類 (例如情緒分析, 垃圾郵件偵測)
(2). 命名實體 (NER) 辨識
(3). 摘要 (summarization)
(4). 文本生成 (text gerneration) - GPT 演化史 :
2018-06 : 發表 GPT-1, 使用 BooksCorpus 訓練, 包含 1.17 億個參數.
2019-02 : 發表 GPT-2, 包含 15 億個參數, 可進行多重任務操作.
2020-05 : 發表 GPT-3 論文 (https://arxiv.org/abs/2005.14165), 包含 1750 億個參數
2020-06 : 發布 OpenAI API 之 GPT3 使用權限 - NLP=計算語言學+機器學習, 可識別上下文, 理解自然語言意圖之智慧機器.
- GPT-3 是一個通用的大語言模型, 在 GPT-3 之前並沒有一個語言模型能在各種 NLP 任務上讓人滿意.
- 一個 AI 大語言模型 (LLM) 是通過大型語料訓練而得, 就像 Gladwell 在 "異數 (Outlier)" 這本書所說的 10000 小時練習變成專家, 大語言模型就是經過數十萬小時學習的人類知識專家.
- LLM 的微調 (fine-tuning) 是使用專門的資料集對 LLM 進行額外的訓練, 可以將預訓練模型進一步調整以符合特定需求, 這比從頭開始訓練更快更有效率.
- GPT-3 是在五個資料集的文本語料庫訓練而得 :
(1). Common Crawl : 主要是 8 年網路爬蟲之網頁資料
(2). WebTex2 : OpenAI 內部精選的高品質網頁資料.
(3/4). Book1 & Book2 : 包含數萬本不同主題之書籍
(5). Wikipedia : 至 2019 年為止之英語維基百科文本約 580 萬篇
這些語料庫合計約 1 兆個單字, 其中英語約 93.7%, 德語 1.2%, 法語 1%. - LLM 的突破性進展來自於 Google 於 2017 年發表的一種可以快速處理文本這種序列式資料的深度神經網路 Transformer (轉換器), 它是一種由編碼器 (encoder) 與解碼器 (decoder) 所組成的 seq2seq 結構, 但放棄了傳統的 RNN 與 CNN, 而是採用注意力 (attention mechanism) 機制來平行處理序列的轉換. Transformer 的發明最初是為了改善 AI 在機器翻譯上的表現. 不過 GPT 模型只使用了 Transformer 神經網路中的解碼器部分.
- 注意力機制模仿人類大腦在處理序列資料時會集中注意力於序列中的特定部分, 使用機率來表示序列中最相關的部分. 例如 "The cat sat on the mat once it ate the mouse" 中的 it 是指 cat 還是 mat? Tranformer 會用機率來表示 it 與 cat 強烈相關, 這就是注意力. 注意力機制讓 Transformer 能濾掉噪音專注於重要的訊息, 將語意相關但沒有明顯標記指向彼此的兩個單詞連接起來. 與其它的神經網路相比, Transformer 更能理解句子中單詞的上下文 (context).
- Transformer 有兩種注意力機制 :
(1). 自注意力機制 (self-attention) : 一個句子中各單詞間的關係
(2). 編碼器-解碼器注意力機制 : 從來源句到目標句單詞之間的關係 - GPT-1 在 NLP 的零樣本 (zero-shot) 任務中表現良好. 所謂零樣本學習能力是指模型在沒有先前看過任務範例的情況下執行一項任務的能力.
- GPT-2 是在比 GPT-1 更大的資料集 (40GB 文本) 與更多參數 (15 億) 上訓練, 其研究報告指出, 這可以提升語言模型理解任務的能力, 它與 GPT-1 不同之處為可進行多重任務操作 (multitask).
沒有留言 :
張貼留言