最近在測試 Python 爬蟲程式時發現一個好用的線上工具 :
使用爬蟲工具如 BeautifulSoup 或 Selenium 擷取網頁時會抽絲剝繭一步步往目標資料前進, 通常會先觀察 response.text 或 response.page_content 結構來找尋目標資料位置, 但前端網頁設計師將網頁整整齊齊地寫 (他們才不會考慮寫爬蟲的人的感受), 檢視 HTML 原始碼時會發現大都亂糟糟地擠在一起 (應該是用壓縮器去除空格與跳行以縮小檔案大小), 這時就可以把原始碼貼到這個網站, 按下 "Format HTML" 鈕就會在底下看到格式化後整整齊齊的 HTML 碼 :
將結果複製到 HTML 編輯器就能好好地觀察結構了.
沒有留言:
張貼留言