L11:BeautifulSoup講解

BeautifulSoup是一個網(wǎng)頁解析庫。
包含4個解析器,html.parser、lxml、xml、html5lib.
html.parser是python自帶的解析器;
lxml是最常用的解析器;
xml支持解析xml;
html5lib容錯率高速度慢。

標(biāo)簽選擇器

可以選擇標(biāo)簽,獲得其名稱、屬性、內(nèi)容等

嵌套選擇器

可以選擇其子節(jié)點、子孫節(jié)點、父節(jié)點、祖先節(jié)點、兄弟節(jié)點。

標(biāo)準(zhǔn)選擇器

find_all(name, attrs, recursive, text, **kwargs)

常用的選擇器,可以根據(jù)標(biāo)簽名稱、標(biāo)簽屬性、標(biāo)簽內(nèi)容等進(jìn)行選擇。

CSS選擇器

soup.select("...")
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 人生苦短,我用Python。 起初,這篇文章是打算來寫 XPath 的,可是后來一想,我需要的僅是 XPath 的...
    Moscow1147閱讀 21,064評論 1 14
  • 第一部分 創(chuàng)建爬蟲 重點介紹網(wǎng)絡(luò)數(shù)據(jù)采集的基本原理 : 如何用 Python 從網(wǎng)絡(luò)服務(wù)器 請求信息,如何對服務(wù)器...
    萬事皆成閱讀 2,317評論 0 5
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 15,433評論 4 61
  • 前幾天小QQ誤吃毒食毒死了。從開始嘔吐倒在地上打滾斃命也就差不多一個小時。我親眼目睹了整個過程好慘啊。事后心里總覺...
    泓四駱駝閱讀 1,168評論 0 2
  • 近一年來,各種消息鋪天蓋地地傳入陳蒨耳中,攪得陳國上下,人人心思不安。一面是王琳連續(xù)攻下要塞城池,又以齊國為援,兩...
    舊文字閱讀 275評論 0 1

友情鏈接更多精彩內(nèi)容