簡(jiǎn)書(shū)非官方大數(shù)據(jù)(一)

昨天安穩(wěn)的開(kāi)始了Python數(shù)據(jù)分析的學(xué)習(xí),向右奔跑前輩問(wèn)我有沒(méi)有興趣搞下簡(jiǎn)書(shū)用戶的爬取和數(shù)據(jù)分析,像我這種愛(ài)好學(xué)習(xí)(不行,讓我吐一下),當(dāng)然是答應(yīng)了。說(shuō)實(shí)話,這個(gè)實(shí)戰(zhàn)對(duì)我來(lái)說(shuō),難度很大:

1 數(shù)據(jù)的獲取 :我爬取最大的數(shù)據(jù)也就是20W+,簡(jiǎn)單的scrapy還能寫(xiě)一點(diǎn),但簡(jiǎn)書(shū)用戶量巨大,第一次嘗試百萬(wàn)級(jí)甚至千萬(wàn)級(jí)數(shù)據(jù)的爬取。
2 數(shù)據(jù)的清洗和處理: “一個(gè)好的數(shù)據(jù)決定一個(gè)好的分析”,昨天才開(kāi)始下載anaconda玩,估計(jì)得惡補(bǔ)下。
3 數(shù)據(jù)分析 : 本人感覺(jué)表達(dá)能力不是特別好,本人現(xiàn)在也是一個(gè)研究生,社會(huì)實(shí)踐項(xiàng)目較少,對(duì)數(shù)據(jù)的表達(dá)能力缺乏。

不過(guò)既然感興趣,也想去做,那就做唄!然后準(zhǔn)備就建個(gè)系列文章記錄我的一個(gè)小的實(shí)戰(zhàn)項(xiàng)目吧。

數(shù)據(jù)爬取分析

今天先講講我的爬取數(shù)據(jù)的一點(diǎn)分析吧。簡(jiǎn)書(shū)沒(méi)有管理用戶的一個(gè)系統(tǒng),我的想法是:


1

2

3

第四步:就是通過(guò)URL獲取用戶的具體信息啦

部分成果


已經(jīng)爬取了50w+數(shù)據(jù),代碼今天就不貼上了。大家有什么好的想法也可以和我討論。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容