BeautifulSoup是一個網(wǎng)頁解析庫。
包含4個解析器,html.parser、lxml、xml、html5lib.
html.parser是python自帶的解析器;
lxml是最常用的解析器;
xml支持解析xml;
html5lib容錯率高速度慢。
標(biāo)簽選擇器
可以選擇標(biāo)簽,獲得其名稱、屬性、內(nèi)容等
嵌套選擇器
可以選擇其子節(jié)點、子孫節(jié)點、父節(jié)點、祖先節(jié)點、兄弟節(jié)點。
標(biāo)準(zhǔn)選擇器
find_all(name, attrs, recursive, text, **kwargs)
常用的選擇器,可以根據(jù)標(biāo)簽名稱、標(biāo)簽屬性、標(biāo)簽內(nèi)容等進(jìn)行選擇。
CSS選擇器
soup.select("...")