1.本周學(xué)習(xí)內(nèi)容思維導(dǎo)圖

Beautiful Soup庫(kù)入門.png
2.Beautiful Soup 解析器

解析器.png
3.Beautiful Soup 類及其基本元素
簡(jiǎn)略地說(shuō),Beautiful Soup類就是對(duì)應(yīng)網(wǎng)站的標(biāo)簽樹(shù),或者說(shuō)
HTML文件
Beautiful Soup的基本元素可見(jiàn)下表

BeautifulSoup基本元素.png
- Tag
先看一段代碼
>>> import requests
>>> from bs4 import BeautifulSoup
>>> r = requests.get('http://www.baidu.com')
>>> soup = BeautifulSoup(r.text, 'html.parser')
>>> soup.a
<a class="mnav" name="tj_trnews">??°é??</a>
>>> soup.p
<p id="lh"> <a >?
3?o?????o|</a> <a >About Baidu</a> </p>
在上面的代碼中,我們通過(guò)requests.get()方法獲得百度鏈接,然后將r.text熬成一鍋湯(soup),使其成為BeautifulSoup類的實(shí)例soup
而soup.a就是返回一個(gè)叫做a的Tag,若Soup里面有多個(gè)叫a的標(biāo)簽,則返回第一個(gè)
- Name
>>> soup.a.name # 返回標(biāo)簽a的名字
'a'
- Attributes
>>> soup.a.attrs
{'href': 'http://news.baidu.com', 'name': 'tj_trnews', 'class': ['mnav']}
返回a標(biāo)簽的屬性,以字典的形式存儲(chǔ)
- NavigableString
>>> soup.a.string
'?\x96°é\x97?'
返回標(biāo)簽里面<>..</>中的字符串
- Comment

comment.png
4.HTML基本格式

HTML基本格式.png
- 下行遍歷

下行遍歷.png
- 上行遍歷

上行遍歷.png
- 平行遍歷

平行遍歷.png
5.信息標(biāo)記
信息標(biāo)記有三種種類XML,JSON,YAML
- XML
<person>
<firstName>Ming</firstName>
<lastName>Li</lastName>
<address>
<streetAddr>孝陵衛(wèi)200號(hào)</streetAddr>
<city>南京</city>
<zipcode>210094</zipcode>
</address>
</person>
- JSON
"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalues"}
- YAML
key : value
key : #Comment
-value1
-value2
key:
subkey : subvalue

Paste_Image.png
6.<>find_all()函數(shù)及其拓展

Paste_Image.png
返回內(nèi)容以列表形式存儲(chǔ)
注意 : 以下表達(dá)方法等價(jià)

Paste_Image.png
其他拓展的find方法

Paste_Image.png