爬蟲學習記錄4-BeautifulSoup解析html語句,檢索

在beautifulsoup中我們可以通過檢索其標簽名稱得到對應的內(nèi)容,也可以通過直接檢索關鍵字得到內(nèi)容,下面將進行實例:

import requests

from bs4 import BeautifulSoup

r=requests.get("https://www.baidu.com")

soup=BeautifulSoup(r.text,'html.parser')

1.find_all()

若要查找返回獲取的網(wǎng)頁結果中的所有a標簽內(nèi)容,則可以通過soup.find_all('a')得到所有的a標簽內(nèi)容。也可以獲得多種標簽的查找結果:soup.find_all(['a','b'])


也可以通過如圖所示,打印出結果中的所有標簽。另外在這個過程中我們也可以結合正則表達式來完成一定規(guī)則要求的查找。


正則表達式結合


查找標簽中是否有對應的屬性


精確查找

拓展方法:

拓展方法

因為find_all()函數(shù)在BeautifulSoup中太過常用,所以也設定了專門的簡寫

tag.fina_all()=tag(),soup.find_all()=soup()

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容