2020年4月9日 星期四

自然語言處理套件 SpaCy

"無澱粉" 出版社 (No Starch) 最近剛出了一本 NLP 的好書 :

Natural Language Processing with Python and spaCy US$35.95


Source : No starch


此書與其他 NLP 書籍不同之處是採用 SpaCy 套件而非 NLTK, 我就很好奇它有何特異之處, 就做了一番調查, 原來 NLTK 適合作為研究教學, 而 SpaCy 則是工業級的實戰套件. SpaCy 被廣泛應用在詞性標記, 文章分類, 語法為基礎之斷句, 相依關係分析, 相似度與詞彙嵌入 (word embedded) 計算等應用, 而且支援深度學習, 透過其 Thinc 函式庫可連接 TensorFlow 與 PyTorch 等框架所訓練出來的多語言統計模型, 是研究語言學與機器學習的上好工具, 參考 WiKi :

https://en.wikipedia.org/wiki/SpaCy

下面是用 Jupyter Lab 做的線上展示 :

http://t.cn/R35fElv

參考 :

快速掌握spacy在python中進行自然語言處理
# 常見的NLP處理手段和相應的spaCy庫使用
如何用Python处理自然语言?

沒有留言 :