小狐狸事務所: 使用 Web Scraper 擷取網頁 (一) : 安裝瀏覽器擴充程式

2022年2月21日星期一

使用 Web Scraper 擷取網頁 (一) : 安裝瀏覽器擴充程式

昨天在母校圖書館找到下面這本書 :

Source : 博客來

此書內容分成兩部分, 前半部介紹如何用免費的瀏覽器擴充程式 Web Scraper 來擷取網頁內容, 完全不用寫程式碼, 只要懂一些 HTML 基礎, 即使是文科生也可以利用它輕鬆爬取網頁資料; 後半部則是介紹如何用 Python 寫網路爬蟲, 屬於進階級內容.

首先來安裝 Web Scraper 這個擴充程式, 其官網如下 :

# https://webscraper.io/

使用者可安裝瀏覽器擴充程式來使用這家公司提供的免費服務, 使用者只能在本機執行 (無法在雲端執行), 可擷取動態網頁與執行 Javascript (亦即可擷取 Javascript 產生的網頁), 但結果只能輸出為 CSV 檔, 不支援 XML 與 JSON. 付費使用者則可以使用更多功能, 價格參考 :

# https://webscraper.io/pricing

若要付費使用請先註冊會員 :

# https://cloud.webscraper.io/register

免費的 Web Scraper 支援 Chrome, Firefox, 以及 Edge 等瀏覽器, 以下以 Chrome 為例說明安裝擴充程式的方法, 首先到 Chrome 的應用程式商店網站 :

# https://chrome.google.com/webstore

在左上方的輸入框搜尋 "web scraper" 就可以找到此擴充程式