不寫(xiě)代碼,怎么用web scraper爬取京東商品多級(jí)頁(yè)面的數(shù)據(jù)?

最近打算做個(gè)關(guān)于手機(jī)推薦的分析,以京東在售手機(jī)為樣本。話說(shuō)以前也爬過(guò)京東的數(shù)據(jù),但是二級(jí)頁(yè)面選擇器類型都是簡(jiǎn)單的text,本次想要抓取二級(jí)頁(yè)面中的店鋪名稱、好評(píng)率和評(píng)價(jià)標(biāo)簽,頁(yè)面需要滾動(dòng)下拉才能顯示完全的數(shù)據(jù),因此涉及到在二級(jí)頁(yè)面中element sroll dowm的使用。鏈接地址:【手機(jī)手機(jī)手機(jī)】?jī)r(jià)格_圖片_品牌_怎么樣-京東商城

一、分析網(wǎng)站規(guī)則

1、起始頁(yè)面的數(shù)據(jù)可以顯示完全

2、分頁(yè)時(shí),網(wǎng)址不變化,需要click點(diǎn)擊翻頁(yè)

3、從起始頁(yè)面link進(jìn)入二級(jí)頁(yè)面后,需要滾動(dòng)下拉才能顯示完整數(shù)據(jù)

因此確定抓取數(shù)據(jù)的方法:element click+link+element sroll down+text

二、sitemap建立

從圖中可看出,我設(shè)定了list、link、sroll down三個(gè)選擇器為串聯(lián)關(guān)系,其中scroll down是為了滾動(dòng)下拉輔助顯示數(shù)據(jù),其余子選擇器類型均為text,為真正抓取數(shù)據(jù)的子選擇器,抓取數(shù)據(jù)維度有手機(jī)名稱、價(jià)格、評(píng)價(jià)人數(shù)、店鋪名、好評(píng)率、評(píng)價(jià)標(biāo)簽6個(gè)方面的信息。

需要注意的是:scroll down中必須設(shè)置delay,推薦2000ms,我剛開(kāi)始這里沒(méi)有設(shè)置delay導(dǎo)致好評(píng)率和評(píng)價(jià)標(biāo)簽沒(méi)爬到,就跳轉(zhuǎn)到下個(gè)頁(yè)面了。

代碼如下:

{"startUrl":"https://www.jd.com/chanpin/127371.html","selectors":[{"parentSelectors":["_root"],"type":"SelectorElementClick","multiple":true,"id":"list","selector":"div.gl-i-wrap","delay":"2000","clickElementSelector":"a.pn-next em","clickElementUniquenessType":"uniqueCSSSelector","clickType":"clickMore","discardInitialElements":false},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"price","selector":"div.p-price","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"pingjianum","selector":"div.p-commit","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorLink","multiple":false,"id":"link","selector":"div.p-name a","delay":""},{"parentSelectors":["link"],"type":"SelectorElementScroll","multiple":false,"id":"scroll down","selector":"div#J-global-toolbar","delay":"2000"},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"store","selector":"div.popbox-inner div.mt","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"percent","selector":"div.comment-percent","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"label","selector":"div.tag-list","regex":"","delay":""}],"_id":"shouji2"}

三、數(shù)據(jù)預(yù)覽

設(shè)定好參數(shù)后就可以坐等結(jié)果了,預(yù)覽如下:

手機(jī)分析過(guò)程請(qǐng)關(guān)注后續(xù)發(fā)布哦~~~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開(kāi)發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見(jiàn)模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,554評(píng)論 19 139
  • 一、抓取公眾號(hào)標(biāo)題、時(shí)間、內(nèi)容鏈接 {"_id":"gongzhonghao","startUrl":["http...
    明白1閱讀 2,570評(píng)論 1 6
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom閱讀 3,197評(píng)論 0 3
  • —1— 今晚和一大學(xué)里認(rèn)識(shí)的男性好友微信閑聊。他調(diào)侃自己成了社會(huì)的夾心層,回不去鄉(xiāng)村也進(jìn)不了城市。 雖然剛剛畢業(yè)就...
    少女小小漁閱讀 391評(píng)論 0 2
  • 今天第二次來(lái)藝圃了。沒(méi)想到這次小小的院子擠了這么多人,熙熙攘攘,還像極了湖心的錦鯉。 這次我們也是四人來(lái)的,上次只...
    日出東方天剛曉閱讀 265評(píng)論 0 0

友情鏈接更多精彩內(nèi)容