小狐狸事務所: Python 學習筆記 : 網頁爬蟲實戰 (二) BBC 金融財經新聞

2024年4月11日星期四

Python 學習筆記 : 網頁爬蟲實戰 (二) BBC 金融財經新聞

今天要練習的爬蟲對象是 BBC 金融財經新聞, 網址如下 :

# https://www.bbc.com/zhongwen/trad/business

本系列之前的筆記參考 :

# Python 學習筆記 : Selenium 模組瀏覽器自動化測試 (一)

# Python 學習筆記 : Selenium 模組瀏覽器自動化測試 (二)

# Python 學習筆記 : 網頁擷取 (一) 使用 urllib 與 HTMLParser

# Python 學習筆記 : 網頁擷取 (二) 使用 requests 套件下載網頁

# Python 學習筆記 : 網頁擷取 (三) : 使用 BeautifulSoup 剖析網頁

# Python 學習筆記 : 網頁擷取 (四) : 開發網路爬蟲的步驟與工具

# Python 學習筆記 : 網頁擷取 (五) : 安裝 Chrome 擴充套件 Quick Javascript Switcher

# Python 學習筆記 : 網頁爬蟲實戰 (一) 台銀牌告匯率

1. 分析網頁原始碼定位目標 :

在 Chrome 瀏覽 BBC 金融財經新聞網頁, 可知它是一個分頁型的網站, 我們的目標只是要擷取其第一頁新聞的標題與網址, 按滑鼠右鍵點選 "檢視原始碼" :

但是發現其原始碼似乎經過壓縮變成一長串難以閱讀 :

這可以透過 "DirtyMarkup" 這個線上服務讓 HTML 原始碼格式整齊化 :

# https://www.10bestdesign.com/dirtymarkup/

將網頁原始碼複製貼上到該網站右邊的輸入框, 按左方的 "Clean" 鈕即可 :

參考 :

# 【Day 15】把凌亂的 Code 整理乾淨的線上工具 - DirtyMarkup

我們要找的新聞標題與超連結則是具有 class='focusIndicatorDisplayBlock' 樣式類別的 a 元素裡 :

越南有史以來最大金融詐騙案開庭：女富豪張美蘭是誰

</a>

</h2>

6 小时前

</time>

當然也可以在建立 BeautifulSoup 物件後呼叫 prettify() 方法來得到格式整齊的原始碼. 上面黃底色部分是用來定位資料的線索 (樣式類別), 藍底色部分是目標資料.

2. 資料擷取測試 :

首先匯入 requests 與 bs4 套件中的 BeautifulSoup 類別 :

>>> import requests　　　

>>> from bs4 import BeautifulSoup

用 requests.get() 方法對網站提出 GET 請求 :

>>> url='https://www.bbc.com/zhongwen/trad/business'

>>> response=requests.get(url) # 提出 GET 請求

>>> soup=BeautifulSoup(response.text) # 建立 BeautifulSoup 物件

我們可以呼叫 soup.prettify() 方法並使用 print() 來輸出格式整齊的網頁原始碼, 目標是放在有 class="focusIndicatorDisplayBlock" 樣式屬性的 a 元素裡的超連結與文字內容 :

越南有史以來最大金融詐騙案開庭：女富豪張美蘭是誰

</a>

</h2>

6 小时前

</time>

這樣就可以用 find_all() 搜尋帶有 focusIndicatorDisplayBlock 樣式類別的全部 a 元素 :

>>> links=soup.find_all('a', {'class': 'focusIndicatorDisplayBlock'})

然後用迴圈走訪傳回的 a 元素 Tag 物件串列, 並呼叫 get() 方法取得 href 屬性取得超連結, 用 text 屬性取得其文字內容即可 :

>>> for link in links:

the_time=link.parent.next_sibling.text # 取得新聞發布時間

print(f'{link.text.strip()} ({the_time})') # strip() 去除左右之空格等控制字元

print(link.get('href', None)) # 取得超連結

越南有史以來最大金融詐騙案開庭：女富豪張美蘭是誰 (7 小时前)

https://www.bbc.com/zhongwen/trad/world-68786731

習近平會見美工商界代表：穩住外資同時鋪墊「三中全會」經濟改革 (2024年3月29日)

https://www.bbc.com/zhongwen/trad/business-68687690

中國年輕女性尋找「存錢搭子」，應對經濟困境 (2024年3月21日)

https://www.bbc.com/zhongwen/trad/business-68565927

來自中國的電商平台Temu如何顛覆美國的網購世界 (2024年3月19日)

https://www.bbc.com/zhongwen/trad/business-68604017

美國稱與中國貿易的下降也許是個積極信號 (2024年3月4日)

https://www.bbc.com/zhongwen/trad/world-68465292

過半省份2024GDP目標低於去年中國經濟是否會進一步減速 (2024年2月19日)

https://www.bbc.com/zhongwen/trad/chinese-news-68335079

視頻, 香港經濟：農曆新年將至，市民感受如何、對經濟前景有何展望？節目全長, 5,39 (2024年2月7日)

https://www.bbc.com/zhongwen/trad/business-68224953

中國股市暴跌後，美國駐華使館微博成網友「哭牆」 (2024年2月5日)

https://www.bbc.com/zhongwen/trad/business-68201487

中國河南等省爆出GDP增速「改降為升」「數據注水」的背後原因 (2024年1月31日)

https://www.bbc.com/zhongwen/trad/business-68153559

北京施壓與台灣「斷交潮」持續：民眾有何看法？邦交國會否「清零」？ (2024年1月25日)

https://www.bbc.com/zhongwen/trad/world-68090660

中國經濟「三駕馬車」速度不均 2024需消除「信心赤字」 (2024年1月22日)

https://www.bbc.com/zhongwen/trad/business-68046635

香港「搶人才」策略能否吸引拖家帶口的大陸中年人士 (2024年1月12日)

https://www.bbc.com/zhongwen/trad/chinese-news-67944245

波音737 Max再次發生事故監管單位追查 (2024年1月8日)

https://www.bbc.com/zhongwen/trad/science-67910238

習近平抵達越南展開訪問修補中越「愛恨交織」的關係 (2023年12月12日)

https://www.bbc.com/zhongwen/trad/world-67689132

穆迪看衰中國經濟政治局會議稱要加碼財政政策 (2023年12月8日)

https://www.bbc.com/zhongwen/trad/chinese-news-67660504

美國《香港經貿辦認證法》能帶來的實際影響 (2023年12月2日)

https://www.bbc.com/zhongwen/trad/chinese-news-67598929

視頻, 中國電動汽車市場快速增長，清潔能源成關鍵競爭領域節目全長, 3,02 (2023年12月1日)

https://www.bbc.com/zhongwen/trad/science-67586692

OpenAI聯合創始人山姆·阿爾特曼遭罷免後復職：我們都知道些什麼 (2023年11月23日)

https://www.bbc.com/zhongwen/trad/business-67484587

台灣人餐桌上的美中台外交角力：從洪都拉斯的白蝦談起 (2023年11月21日)

https://www.bbc.com/zhongwen/trad/chinese-news-67482759

郭台銘宣佈參選台灣總統兩個月後，其創辦的富士康在中國遭稅務調查 (2023年10月23日)

https://www.bbc.com/zhongwen/trad/chinese-news-67193077

「一帶一路」論壇之際習近平會晤普京　「共同威脅只會加強中俄關係」 (2023年10月18日)

https://www.bbc.com/zhongwen/trad/chinese-news-67142359

視頻, 「一帶一路」論壇：多國領導人齊聚北京習近平與普京舉行雙邊會談節目全長, 3,28 (2023年10月18日)

https://www.bbc.com/zhongwen/trad/chinese-news-67144911

晶片大戰：台灣廠商助攻華為突破美國封鎖？ (2023年10月18日)

https://www.bbc.com/zhongwen/trad/chinese-news-67084358

中國時隔四年再開「一帶一路」峰會的三大看點 (2023年10月17日)

https://www.bbc.com/zhongwen/trad/chinese-news-67132988

注意, 這裡因為我們直接取得 a 元素的 Tag 物件, 因此使用走訪親代 (父節點 parent) 再走訪平輩 (兄弟節點 next_sibling) 的方法取得 time 元素.

3. 財經新聞標題擷取函式 :

最後將上面的測試寫成一個函式 get_bbc_business_news() :

import requests

from bs4 import BeautifulSoup

def get_bbc_business_news():

url='https://www.bbc.com/zhongwen/trad/business'

response=requests.get(url)

soup=BeautifulSoup(response.text, 'lxml')

links=soup.find_all('a', {'class': 'focusIndicatorDisplayBlock'})

title=[]

href=[]

for link in links:

the_time=link.parent.next_sibling.text

title.append(f'{link.text.strip()} ({the_time})')

href.append(link.get('href', None))

return title, href

if __name__ == '__main__':

title, href=get_bbc_business_news()

for k, v in zip(title, href):

print(k)

print(v)

此處 get_bbc_business_news() 會傳回一個由標題串列, 超連結串列組成的 tuple, 將傳回值 title, href 傳給 zip() 來產生一個類似字典的 zip 物件 (以 title 為鍵, 以 href 為值), 然後用 print() 印出 k, v 值, 結果與上面一樣.

沒有留言 :

張貼留言

訂閱：張貼留言 ( Atom )

小狐狸事務所

2024年4月11日星期四

Python 學習筆記 : 網頁爬蟲實戰 (二) BBC 金融財經新聞

沒有留言 :

文章標籤

常用連結

2024年4月11日 星期四

Python 學習筆記 : 網頁爬蟲實戰 (二) BBC 金融財經新聞

沒有留言 :

2024年4月11日星期四