昨天在母校圖書館找到下面這本書 :
# 文科生也可以輕鬆學習網路爬蟲 (碁峰, 陳會安)
Source : 博客來
此書內容分成兩部分, 前半部介紹如何用免費的瀏覽器擴充程式 Web Scraper 來擷取網頁內容, 完全不用寫程式碼, 只要懂一些 HTML 基礎, 即使是文科生也可以利用它輕鬆爬取網頁資料; 後半部則是介紹如何用 Python 寫網路爬蟲, 屬於進階級內容.
首先來安裝 Web Scraper 這個擴充程式, 其官網如下 :
使用者可安裝瀏覽器擴充程式來使用這家公司提供的免費服務, 使用者只能在本機執行 (無法在雲端執行), 可擷取動態網頁與執行 Javascript (亦即可擷取 Javascript 產生的網頁), 但結果只能輸出為 CSV 檔, 不支援 XML 與 JSON. 付費使用者則可以使用更多功能, 價格參考 :
若要付費使用請先註冊會員 :
免費的 Web Scraper 支援 Chrome, Firefox, 以及 Edge 等瀏覽器, 以下以 Chrome 為例說明安裝擴充程式的方法, 首先到 Chrome 的應用程式商店網站 :
在左上方的輸入框搜尋 "web scraper" 就可以找到此擴充程式
點選此程式進入安裝頁面, 按右方 "加到 Chrome" 鈕 :
接下來要將 Web Scraper 固定放在 Chrome 右上角工具列上以方便取用, 點右上角的擴充功能鈕會彈出一個選單, 找到 Web Scraper 後按後面的圖釘鈕, 此擴充程式就會固定在 Chrome 右上角的工具列上了 (蜘蛛網 icon) :
以後只要點擊這個蜘蛛網 icon 即可檢視 Web Scraper 這個擴充程式的資訊 :
網路上也有許多教學文章, 參考 :
沒有留言:
張貼留言