今天在張佑成老師的課程上得知一個很棒的 Python 爬蟲套件 PyQuery, 它讓爬蟲開發者可以使用與 jQuery 一樣的語法來解析網頁, 對熟悉 jQuery 的人來說是一大利器.
我找到下面這篇介紹 PyQuery 的教學文章, 非常值得參考 :
摘要如下 :
- PyQuery 底層使用 lxml 套件來解析網頁內容
- PyQuery 對 CSS 選擇器的支援比 BeautifulSoup 多
- PyQuery 內建 urlopener 可直接擷取網頁
這篇其實是作者劉純睿在 2017 年 PyCon 研討會上演講 PyQuery 爬蟲的簡介 :
作者畢業自台大語言學研究所的背景讓我很感興趣, 其 LinkedIn 資料顯示具有 NLP, 語料庫語言學, 以及計算語言學專長, 目前是全端工程師.
PyQuery 是開源專案, 原始碼參考 :
2022-06-15 補充 :
作者在演講中提到他的個人網站 aji.tw, 雖然貼的文章不多, 但其中一篇關於 Python 底線命名的文章寫得非常深入, 我看完才覺得自己對 Python 的理解還不夠 :
沒有留言 :
張貼留言