scrapy之xpath

#xml是網(wǎng)頁源碼
from scrapy.selector import Selector
s = Selector(text = xml)
# 提取第一個(gè),@表示tag的某個(gè)屬性
xpath_1 = s.xpath('//dl[@class="xxxxx"]/dd/img/@title').extract_first()
# 提取所有
xpath_2 = s.xpath('//div[@class="xxxxx"]/ul/li/a/@rel').extract()
# 多個(gè)條件,text()表示tag的文本
xpath_3 = s.xpath('//div[@class="xxxxx" and @id="yyyyy"]/div[@class="xxxxx"]/p/text()').extract()
# 匹配任意tag
xpath_4 = s.xpath('//div[@class="xxxx"]/dl[@class="xxxxxx"]/*/text()').extract()
# 匹配任意條件的tag
xpath_5 = s.xpath('//div[@class="xxxx"]/dl/*[@class="xxxxxx"]/text()').extract()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容