XPath和BeautifulSoup4

什么是XPath?
  • XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進(jìn)行遍歷
什么是XML?
  • XML 指可擴(kuò)展標(biāo)記語言
  • XML 是一種標(biāo)記語言,很類似HTML
  • XML 的設(shè)計宗旨是傳輸數(shù)據(jù),而非顯示數(shù)據(jù)
  • XML 的標(biāo)簽需要我們自行定義
  • XML 被設(shè)計為具有自我描述性
  • XML 是W3C的推薦標(biāo)準(zhǔn)
XML和HTML的區(qū)別

XML 是可擴(kuò)展標(biāo)記語言,被設(shè)計為傳輸和存儲數(shù)據(jù),其焦點(diǎn)是數(shù)據(jù)的內(nèi)容。
HTML 是超文本標(biāo)記語言,顯示數(shù)據(jù)以及如何更好顯示數(shù)據(jù)。

XPath 表達(dá)式
  • nodename 選取此節(jié)點(diǎn)的所有節(jié)點(diǎn)
  • / 從根節(jié)點(diǎn)選取
  • // 從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置
  • . 選取當(dāng)前節(jié)點(diǎn)
  • .. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
  • @ 選取屬性

什么是BeautifulSoup4?

和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 數(shù)據(jù)。

BeautifulSoup4表達(dá)式

findall() 查找所有節(jié)點(diǎn)
find() 查找單個
支持css選擇器

獲取標(biāo)簽的屬性 p['class'] => p.attrs['class']
獲取標(biāo)簽的文本 p.get_text() => p.string

BeautifulSoup4和XPath的區(qū)別

Beautifulsoup4 要比Xpath解析數(shù)據(jù)要慢,因?yàn)閎eautifulsoup4載入的是整個html文檔

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • XML基礎(chǔ) 眾所周知,xml常用于數(shù)據(jù)存儲和傳輸,文件后綴為 .xml; 它是可擴(kuò)展標(biāo)記語言(Extensible...
    帥豬佩奇閱讀 2,858評論 0 1
  • xpath語法:http://www.runoob.com/xpath/xpath-syntax.html xpa...
    MononokeHime閱讀 356評論 0 0
  • # XML復(fù)習(xí) ## 第一章 ## 思考題 **什么是XML?** XML是可擴(kuò)展性標(biāo)記語言,XML是標(biāo)準(zhǔn)通用標(biāo)記...
    冷漠鐵錘丁富貴閱讀 926評論 0 0
  • (本文為前一篇文章《理解編程語言只需四個詞-編程知識體系介紹(帶python及scratch案例)》的說明案例之一...
    一石匠人閱讀 3,186評論 0 7
  • 第3章 看到老人的臉,我驚出了一身的冷汗。因?yàn)?我看不見他的鼻子,整張臉基本是平的,而且脖子很短。如果是晚上,我...
    許小輝閱讀 330評論 0 1

友情鏈接更多精彩內(nèi)容