Beautiful Soup庫(kù)入門

1.本周學(xué)習(xí)內(nèi)容思維導(dǎo)圖

Beautiful Soup庫(kù)入門.png

2.Beautiful Soup 解析器

解析器.png

3.Beautiful Soup 類及其基本元素

簡(jiǎn)略地說(shuō),Beautiful Soup類就是對(duì)應(yīng)網(wǎng)站的標(biāo)簽樹(shù),或者說(shuō)
HTML文件

Beautiful Soup的基本元素可見(jiàn)下表

BeautifulSoup基本元素.png
  • Tag
    先看一段代碼
>>> import requests
>>> from bs4 import BeautifulSoup
>>> r = requests.get('http://www.baidu.com')
>>> soup = BeautifulSoup(r.text, 'html.parser')
>>> soup.a
<a class="mnav"      name="tj_trnews">??°é??</a>
>>> soup.p
<p id="lh"> <a >?
3?o?????o|</a> <a >About Baidu</a> </p>

在上面的代碼中,我們通過(guò)requests.get()方法獲得百度鏈接,然后將r.text熬成一鍋湯(soup),使其成為BeautifulSoup類的實(shí)例soup
soup.a就是返回一個(gè)叫做aTag,若Soup里面有多個(gè)叫a的標(biāo)簽,則返回第一個(gè)

  • Name
>>> soup.a.name  # 返回標(biāo)簽a的名字
'a'
  • Attributes
>>> soup.a.attrs
{'href': 'http://news.baidu.com', 'name': 'tj_trnews', 'class': ['mnav']}

返回a標(biāo)簽的屬性,以字典的形式存儲(chǔ)

  • NavigableString
>>> soup.a.string
'?\x96°é\x97?'

返回標(biāo)簽里面<>..</>中的字符串

  • Comment
comment.png

4.HTML基本格式

HTML基本格式.png
  • 下行遍歷
下行遍歷.png
  • 上行遍歷
上行遍歷.png
  • 平行遍歷
平行遍歷.png

5.信息標(biāo)記

信息標(biāo)記有三種種類XML,JSON,YAML

  • XML
<person>
    <firstName>Ming</firstName>
    <lastName>Li</lastName>
    <address>
        <streetAddr>孝陵衛(wèi)200號(hào)</streetAddr>
        <city>南京</city>
        <zipcode>210094</zipcode>
    </address>
</person>
  • JSON
"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalues"}
  • YAML
key : value
key : #Comment
-value1
-value2
key:
  subkey : subvalue
Paste_Image.png

6.<>find_all()函數(shù)及其拓展

Paste_Image.png

返回內(nèi)容以列表形式存儲(chǔ)

注意 : 以下表達(dá)方法等價(jià)

Paste_Image.png

其他拓展的find方法

Paste_Image.png

7.參考

http://www.icourse163.org/course/BIT-1001870001

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容