2022年4月10日 星期日

Colab 無法載入 NLTK 的 gutenberg 語料庫問題

今天在演練 "深度學習的 16 堂課" 第 11 章關於建立詞向量空間的語料庫預處理時, 發現在 Colab 上無法載入 gutenburg 語料庫, 首先輸入下列兩個前置指令 :

%matplotlib inline # 繪圖用
from google.colab import drive # 載入雲端硬碟模組
drive.mount('/content/drive') # 存取雲端硬碟下檔案用


然後匯入要用到的套件與模組 :

import nltk
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords, gutenberg
from nltk.stem.porter import *
import string
import gensim
from gensim.models.phrases import Phraser, Phrases
from gensim.models.word2vec import Word2Vec
from sklearn.manifold import TSNE
import pandas as pd
from bokeh.io import output_notebook, output_file
from bokeh.plotting import show, figure




接著下載 guternberg 語料庫與停用字等 :

nltk.download('gutenburg'# 下載 gutenburg 語料庫
nltk.download('punkt')   # tokenizer
nltk.download('stopwords'# 停用字

但執行第一個下載指令時卻出現如下錯誤 :

"Error loading gutenburg: Package 'gutenburg' not found in index"




查詢 Stackoverflow 等論壇皆無果, 不知原因為何. Colab 雖然好好用, 但是有一些限制, 例如它沒辦法執行 GUI 程式也是一個問題. 看來只好在本機上執行了, 因我之前在筆電上有下載全部 NLTK 語料庫 (很大).

沒有留言 :