今天在演練 "深度學習的 16 堂課" 第 11 章關於建立詞向量空間的語料庫預處理時, 發現在 Colab 上無法載入 gutenburg 語料庫, 首先輸入下列兩個前置指令 :
%matplotlib inline # 繪圖用
from google.colab import drive # 載入雲端硬碟模組
drive.mount('/content/drive') # 存取雲端硬碟下檔案用
然後匯入要用到的套件與模組 :
import nltk
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords, gutenberg
from nltk.stem.porter import *
import string
import gensim
from gensim.models.phrases import Phraser, Phrases
from gensim.models.word2vec import Word2Vec
from sklearn.manifold import TSNE
import pandas as pd
from bokeh.io import output_notebook, output_file
from bokeh.plotting import show, figure
接著下載 guternberg 語料庫與停用字等 :
nltk.download('gutenburg') # 下載 gutenburg 語料庫
nltk.download('punkt') # tokenizer
nltk.download('stopwords') # 停用字
但執行第一個下載指令時卻出現如下錯誤 :
"Error loading gutenburg: Package 'gutenburg' not found in index"
查詢 Stackoverflow 等論壇皆無果, 不知原因為何. Colab 雖然好好用, 但是有一些限制, 例如它沒辦法執行 GUI 程式也是一個問題. 看來只好在本機上執行了, 因我之前在筆電上有下載全部 NLTK 語料庫 (很大).
沒有留言 :
張貼留言