python3.7.2爬蟲LXML的最簡(jiǎn)潔代碼

以采集流浪地球評(píng)論為例:
單個(gè)采集評(píng)論很簡(jiǎn)單,有時(shí)需要用戶名+評(píng)論,如果直接使用+疊加,那么會(huì)提示是list,無(wú)法疊加,這里需要進(jìn)行一個(gè)變通,把結(jié)果作為一個(gè)列表,使用循環(huán)函數(shù)FOR,然后逐個(gè)提取,長(zhǎng)度如何設(shè)計(jì)了,可以采用對(duì)結(jié)果,下面的result進(jìn)行l(wèi)en化,進(jìn)行長(zhǎng)度選取,再使用range,把個(gè)數(shù)限制了。

import requests
from lxml import html
url='https://movie.douban.com/review/9936402/?start=0' #需要爬的網(wǎng)址
page=requests.Session().get(url)
tree=html.fromstring(page.content)#不是utf-8,如何轉(zhuǎn)碼,把(page.text)改為(page.content.decode('gbk'))
result=tree.xpath('//div[@class="content report-comment"]//div[@class="header"]/a/text()') #需要獲取的數(shù)據(jù)
result2=tree.xpath('//div[@class="content report-comment"]//p[@class="comment-text"]/text()')
n = 0
i=result[n]#i\h可以不要,如果為了代碼簡(jiǎn)潔可以加上去
h=result2[n]
for n in range(len(result)):
    print("用戶@"+result[n]+"@發(fā)表:"+result2[n])
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 看了很多文章都無(wú)法解決新版3.72爬蟲使用LXML抓取中文網(wǎng)頁(yè)亂碼的問(wèn)題。我結(jié)合我自己的一些粗淺的經(jīng)驗(yàn)談?wù)?,以及?..
    興化吳奇隆閱讀 2,493評(píng)論 0 1
  • 今天,全部課程結(jié)束了,總結(jié)一下。前兩次學(xué)習(xí)了工具,學(xué)習(xí)了渠道,這一次學(xué)習(xí)了操作的方法,細(xì)節(jié)的方法。首先自己要有志向...
    lygly9閱讀 211評(píng)論 0 0
  • 戀情深 幾度金陵同浪漫,秦淮河畔。煙波也似故人臨。蕩春心。 拈來(lái)詩(shī)賦為卿吟。鳳管奏清音。唯願(yuàn)作鴛鴦伴,戀情深。
    曉曉玥閱讀 245評(píng)論 4 6
  • 我現(xiàn)在越來(lái)越感覺(jué),工作像是在推磨。 推著一個(gè)巨大的石碾子,轉(zhuǎn)了好久好久,腰酸背痛,最后發(fā)現(xiàn),居然還是在原地。 前所...
    笨拙園子周六見(jiàn)閱讀 621評(píng)論 1 9
  • 淮水邊小樓月色,十里長(zhǎng)街,紅燈夜夜明。 無(wú)人記眉間血點(diǎn)點(diǎn)桃花扇,古今多寂寥。 嘆陳妃薄命傾朝端,紅顏唏噓矣。 忽夢(mèng)...
    相思不惘閱讀 242評(píng)論 0 0

友情鏈接更多精彩內(nèi)容