震驚!C杯的你,已經(jīng)超過85%的人了!

?女票覺得自己胸小,憑空安慰不了,只好找數(shù)據(jù)說話。

本次爬取了京東商城5000余種bra,共計(jì)24萬評論。(爬取步驟在文末)

得出以下結(jié)果:

一、只要是C杯就超過了85%的人!

罩杯比例圖

1)B杯人數(shù)占了近70%,人群龐大,所以B杯的妹子不要自卑,你是千千萬人群中的一個(gè),該自卑的應(yīng)該的A(斜眼)

2)D杯以上只占了4%,所以電視電影里標(biāo)配的D估計(jì)和標(biāo)配20CM一樣稀有。

3)其實(shí)罩杯大并不代表大,那什么是大呢?



不用我多說了吧



二、bra最受歡迎的7種配色,黑色最流行!

1)在24萬評論中,我們篩選出了數(shù)量超過1萬的配色,其中黑色以56295拔得頭籌。當(dāng)然并不是純黑色bra,因?yàn)橛羞@些款式:

2)其他6色勢均力敵,粉色和紅色很多可能是一個(gè)陣營的。

3)其實(shí)以上7大配色只占了60%,剩下40%有以下配色,這些配色銷量為什么還辣么多。。

4)所以!根據(jù)數(shù)據(jù)顯示,我決定做以下這款bra,肯定能賣進(jìn)福布斯(手動斜眼)



注:1)樣本小,2)尺碼大的女士可能會更加傾向于實(shí)體店購,3)只買不評論等原因,數(shù)據(jù)不夠準(zhǔn)確,僅供娛樂。





能看到這里的帥哥美女,我告訴你這篇文章真正的標(biāo)題的是:

Scrapy框架爬取京東商城商品評論

一、爬取目的

爬取京東商城內(nèi)衣-文胸頻道前85頁商品評論

二、主要思路

1)設(shè)置起始頁(按照銷量排序),遍歷到85頁,每頁60個(gè)商品信息,共計(jì)5100個(gè)。

2)因?yàn)樵u論最多只是顯示100頁(10個(gè)/頁),85頁后的商品評價(jià)已經(jīng)很少了,所以估算評論會在30萬左右

3)找到加載評論的js,選擇本商品評論,以及時(shí)間排序

4)接口JS里,找到最大頁,構(gòu)造并遍歷請求

5)輸出到MYSQL


三、遇到的一些問題

1)輸出缺少輸出數(shù)據(jù)

解決:css遍歷需要選定了所有需要遍歷的標(biāo)簽


2)存儲到數(shù)據(jù)庫的數(shù)據(jù)有重復(fù)

一步步排查

輸出并無問題

解決:原來是數(shù)據(jù)插入mysql時(shí)重復(fù),應(yīng)該是Twisted異步操作太快,淺拷貝還么來得及插入就被替換了,將寫入步驟修改為深拷貝,問題解決

3)評論輸出少了第一頁

解決:因?yàn)閮纱蝧crapy.Request相同的網(wǎng)址,導(dǎo)致去重機(jī)制生效,把其中一項(xiàng)去掉用不到的參數(shù)。

github地址:https://github.com/GuoBinxs

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,023評論 25 709
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 15,271評論 4 61
  • 望眼欲穿 張書云 昨日的卿卿我我, 今日的悄然離去。 我的世界太狹小, 你的世界很精彩。 我日日望眼欲穿, 君在外...
    qiushui__lianli閱讀 276評論 0 2
  • 什么是 HTTPS? HTTPS (基于安全套接字層的超文本傳輸協(xié)議 或者是 HTTP over SSL) 是一個(gè)...
    一個(gè)人一匹馬閱讀 535評論 0 2
  • 你總不能想著大哭一場就解決所有的不開心。
    孤獨(dú)得圓滿閱讀 101評論 0 0

友情鏈接更多精彩內(nèi)容