#xml是網(wǎng)頁源碼
from scrapy.selector import Selector
s = Selector(text = xml)
# 提取第一個(gè),@表示tag的某個(gè)屬性
xpath_1 = s.xpath('//dl[@class="xxxxx"]/dd/img/@title').extract_first()
# 提取所有
xpath_2 = s.xpath('//div[@class="xxxxx"]/ul/li/a/@rel').extract()
# 多個(gè)條件,text()表示tag的文本
xpath_3 = s.xpath('//div[@class="xxxxx" and @id="yyyyy"]/div[@class="xxxxx"]/p/text()').extract()
# 匹配任意tag
xpath_4 = s.xpath('//div[@class="xxxx"]/dl[@class="xxxxxx"]/*/text()').extract()
# 匹配任意條件的tag
xpath_5 = s.xpath('//div[@class="xxxx"]/dl/*[@class="xxxxxx"]/text()').extract()
scrapy之xpath
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 我們直接看例子:網(wǎng)址:http://quotes.toscrape.com/ 1. xpath提取方法:用谷歌瀏覽...
- 創(chuàng)建scrapy項(xiàng)目 填充 item.py文件 在這里定義想要存儲的字段信息 填充middlewares.py文件...
- 之前我們使用了selenium加Firefox作為下載中間件來實(shí)現(xiàn)爬取京東的商品信息。但是在大規(guī)模的爬取的時(shí)候,F(xiàn)...
- 代碼 爬取趕集網(wǎng)二手房數(shù)據(jù) scrapy shell http://hz.ganji.com/fang1/shan...
- 練習(xí)1.抓取一個(gè)頁面的內(nèi)容網(wǎng)址:http://stackoverflow.com/questions?sort=v...