數(shù)據(jù)爬取之Xpath

XML

XML指可擴(kuò)展標(biāo)記語(yǔ)言(EXtensible Markup Language)

XML和HTTP的區(qū)別

區(qū)別.jpg

Xpath

Xpath(XML Path Language)是一門(mén)在XML文檔中查找信息的語(yǔ)言,可用來(lái)在XML文檔中對(duì)元素和屬性進(jìn)行遍歷

  • / :從根節(jié)點(diǎn)選取
  • // :從匹配選擇的當(dāng)前節(jié)點(diǎn)選擇文檔中的節(jié)點(diǎn),而不考慮它們的位置
  • . :選取當(dāng)前節(jié)點(diǎn)
  • .. :選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
  • @:選取屬性

Xpath的使用

1、安裝lxml
pip install lxml
lxml 是一個(gè)HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML數(shù)據(jù)
2、使用

from lxml import etree

html = etree.HTML(text)
content = html.xpath('xpath表達(dá)式')
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1、通過(guò)CocoaPods安裝項(xiàng)目名稱(chēng)項(xiàng)目信息 AFNetworking網(wǎng)絡(luò)請(qǐng)求組件 FMDB本地?cái)?shù)據(jù)庫(kù)組件 SD...
    陽(yáng)明AI閱讀 16,222評(píng)論 3 119
  • 之前通過(guò)深入學(xué)習(xí)DOM的相關(guān)知識(shí),看了慕課網(wǎng)DOM探索之基礎(chǔ)詳解篇這個(gè)視頻(在最近看第三遍的時(shí)候,準(zhǔn)備記錄一點(diǎn)東西...
    微醺歲月閱讀 4,768評(píng)論 2 61
  • 6月即將開(kāi)拍的商業(yè)情感劇《你和我的傾城時(shí)光》,近期爆出了男女主角,引起了粉絲的不滿(mǎn)。 男主言承旭、女主趙麗穎。按理...
    文琪來(lái)啦閱讀 281評(píng)論 0 0
  • 又是一年盛夏,宛如天使揮淚般,連日的雨水帶來(lái)絲絲的清涼,河水看漲卻沒(méi)有預(yù)期的泛濫。沒(méi)有幻想自己是只愛(ài)吃金槍魚(yú)...
    yy的冰糖閱讀 168評(píng)論 0 0
  • 三維點(diǎn)線(xiàn)面 跨越意識(shí)的光 成就過(guò)去與未來(lái)的結(jié)點(diǎn) 寫(xiě)下算作昨日的現(xiàn)在 折疊自我未來(lái)的回復(fù) 伏筆返歸時(shí)的路 繼續(xù)生長(zhǎng) ...
    方一語(yǔ)閱讀 350評(píng)論 0 0

友情鏈接更多精彩內(nèi)容