?女票覺得自己胸小,憑空安慰不了,只好找數(shù)據(jù)說話。
本次爬取了京東商城5000余種bra,共計(jì)24萬評論。(爬取步驟在文末)
得出以下結(jié)果:
一、只要是C杯就超過了85%的人!

1)B杯人數(shù)占了近70%,人群龐大,所以B杯的妹子不要自卑,你是千千萬人群中的一個(gè),該自卑的應(yīng)該的A(斜眼)

2)D杯以上只占了4%,所以電視電影里標(biāo)配的D估計(jì)和標(biāo)配20CM一樣稀有。

3)其實(shí)罩杯大并不代表大,那什么是大呢?



不用我多說了吧
二、bra最受歡迎的7種配色,黑色最流行!

1)在24萬評論中,我們篩選出了數(shù)量超過1萬的配色,其中黑色以56295拔得頭籌。當(dāng)然并不是純黑色bra,因?yàn)橛羞@些款式:

2)其他6色勢均力敵,粉色和紅色很多可能是一個(gè)陣營的。

3)其實(shí)以上7大配色只占了60%,剩下40%有以下配色,這些配色銷量為什么還辣么多。。

4)所以!根據(jù)數(shù)據(jù)顯示,我決定做以下這款bra,肯定能賣進(jìn)福布斯(手動斜眼)

注:1)樣本小,2)尺碼大的女士可能會更加傾向于實(shí)體店購,3)只買不評論等原因,數(shù)據(jù)不夠準(zhǔn)確,僅供娛樂。
能看到這里的帥哥美女,我告訴你這篇文章真正的標(biāo)題的是:
Scrapy框架爬取京東商城商品評論
一、爬取目的
爬取京東商城內(nèi)衣-文胸頻道前85頁商品評論
二、主要思路
1)設(shè)置起始頁(按照銷量排序),遍歷到85頁,每頁60個(gè)商品信息,共計(jì)5100個(gè)。
2)因?yàn)樵u論最多只是顯示100頁(10個(gè)/頁),85頁后的商品評價(jià)已經(jīng)很少了,所以估算評論會在30萬左右
3)找到加載評論的js,選擇本商品評論,以及時(shí)間排序

4)接口JS里,找到最大頁,構(gòu)造并遍歷請求

5)輸出到MYSQL

三、遇到的一些問題
1)輸出缺少輸出數(shù)據(jù)

解決:css遍歷需要選定了所有需要遍歷的標(biāo)簽

2)存儲到數(shù)據(jù)庫的數(shù)據(jù)有重復(fù)

一步步排查

輸出并無問題

解決:原來是數(shù)據(jù)插入mysql時(shí)重復(fù),應(yīng)該是Twisted異步操作太快,淺拷貝還么來得及插入就被替換了,將寫入步驟修改為深拷貝,問題解決

3)評論輸出少了第一頁
解決:因?yàn)閮纱蝧crapy.Request相同的網(wǎng)址,導(dǎo)致去重機(jī)制生效,把其中一項(xiàng)去掉用不到的參數(shù)。

github地址:https://github.com/GuoBinxs