昨天安穩(wěn)的開(kāi)始了Python數(shù)據(jù)分析的學(xué)習(xí),向右奔跑前輩問(wèn)我有沒(méi)有興趣搞下簡(jiǎn)書(shū)用戶的爬取和數(shù)據(jù)分析,像我這種愛(ài)好學(xué)習(xí)(不行,讓我吐一下),當(dāng)然是答應(yīng)了。說(shuō)實(shí)話,這個(gè)實(shí)戰(zhàn)對(duì)我來(lái)說(shuō),難度很大:
1 數(shù)據(jù)的獲取 :我爬取最大的數(shù)據(jù)也就是20W+,簡(jiǎn)單的scrapy還能寫(xiě)一點(diǎn),但簡(jiǎn)書(shū)用戶量巨大,第一次嘗試百萬(wàn)級(jí)甚至千萬(wàn)級(jí)數(shù)據(jù)的爬取。
2 數(shù)據(jù)的清洗和處理: “一個(gè)好的數(shù)據(jù)決定一個(gè)好的分析”,昨天才開(kāi)始下載anaconda玩,估計(jì)得惡補(bǔ)下。
3 數(shù)據(jù)分析 : 本人感覺(jué)表達(dá)能力不是特別好,本人現(xiàn)在也是一個(gè)研究生,社會(huì)實(shí)踐項(xiàng)目較少,對(duì)數(shù)據(jù)的表達(dá)能力缺乏。
不過(guò)既然感興趣,也想去做,那就做唄!然后準(zhǔn)備就建個(gè)系列文章記錄我的一個(gè)小的實(shí)戰(zhàn)項(xiàng)目吧。
數(shù)據(jù)爬取分析
今天先講講我的爬取數(shù)據(jù)的一點(diǎn)分析吧。簡(jiǎn)書(shū)沒(méi)有管理用戶的一個(gè)系統(tǒng),我的想法是:



第四步:就是通過(guò)URL獲取用戶的具體信息啦
部分成果

已經(jīng)爬取了50w+數(shù)據(jù),代碼今天就不貼上了。大家有什么好的想法也可以和我討論。