2018年4月16日 星期一

好書 : 網站擷取-使用 Python

這本書我在市圖預約了快半年才到館, 可見非常搶手. 不過書到後都沒時間研讀, 這兩天才抽空翻閱, 馬上被作者 Ryan Mitchell  (是個女生) 的生花妙筆迷住, 細讀第一章發覺 Python 在網路爬蟲工具方面比 PHP 好用, 例如 BeautifulSoup 4 (BS4) 的資訊擷取功能非常方便, 很多在 PHP 需以字串處理剖析的在 BS4 只要呼叫函數即可.


Source : 誠品


此書是 Studio Tib. 譯自歐萊里出版的 "Web Scraping with Python-Collecting Data from the Modern Web", 書中範例程式碼可在作者為此書設立之網站下載 :

# http://www.pythonscraping.com/code/

另外作者也將補充資料放在 Github :

# https://github.com/REMitchell/python-scraping

作者在前言中的比喻對熟知網路爬蟲的人來說應該會會心一笑 :

"如果寫程式是魔法的話, 網路爬蟲就是巫術了"
"擷取網頁是件美妙的工作, 您不必投入太多資源就能獲得巨大的回報"

用巫術來形容 Web scraping 實在太貼切了, 因為此技術需要用到資料庫, 網頁伺服器, HTTP, HTML, 影像處理, 資料科學等領域的知識與工具.

沒有留言 :