我用python扒出了室友的初戀史

?

我的室友王大國(guó),一直號(hào)稱自己母胎單身,但我和其他室友一致不相信,因?yàn)閯偵洗髮W(xué)的時(shí)候明明經(jīng)常聽到他打電話啊,還騷里騷氣的

不知道是在家待傻了,還是春天來(lái)了,今天,我的室友王大國(guó)發(fā)了下面一條朋友圈:

于是大家都開始夸他“不要face”

就在此時(shí),我靈機(jī)一現(xiàn),想出一個(gè)絕妙的辦法——用python找出大國(guó)小朋友的前任女友

首先我進(jìn)入他的qq空間(因?yàn)橐郧拔⑿艣]流行的時(shí)候,廣大90后還是很喜歡玩qq的,尤其是小情侶,幾乎天天留言膩歪),然后很自然的來(lái)到了留言板

發(fā)現(xiàn)王大國(guó)的留言在3年前就斷了,但是還是有幾十頁(yè)的留言,原來(lái)他的人緣以前就那么好

下面開始用python絕技開始分析這些留言:

1.用python爬取留言并保存

爬取方式大概可以分為2種:

①用selenium操控瀏覽器,模擬登錄,然后逐頁(yè)爬取,缺點(diǎn):速度較慢;

②requests創(chuàng)建1個(gè)會(huì)話,然后模擬登錄,再根據(jù)參數(shù)特征進(jìn)行逐頁(yè)爬取,缺點(diǎn):模擬登錄過(guò)程太難;

這么看來(lái)哪種方式都不合我心意,那么怎么才能找到即快又簡(jiǎn)單的方式呢?

我們只需改進(jìn)一下第二種方式就ok了,即用requests帶著登錄后的cookie值去爬取,省去了參數(shù)分析的步驟,代碼如下:

最后的results為評(píng)論的列表,再把qq號(hào)、昵稱、評(píng)論時(shí)間、評(píng)論內(nèi)容保存在表格中:

2.先分析一下留言數(shù)量排名

先找到留言數(shù)量排名前十的好友,主要涉及到pandas操控excel表格知識(shí),代碼如下:

最后將留言數(shù)量排名前十的好友信息以數(shù)據(jù)框的格式存入new_dataframe中。

3.用pyecharts畫出柱狀圖

Pyecharts之前已經(jīng)講過(guò)很多次了,代碼如下:

柱狀圖為:

(昵稱已改)

一位昵稱為“小靜”的好友評(píng)論次數(shù)最多,總共48次,我們可以發(fā)現(xiàn)王大國(guó)這個(gè)厚臉皮自己給自己留了30多次言

接下來(lái)對(duì)“小靜”的留言內(nèi)容進(jìn)行分析,畫一個(gè)詞云圖,代碼如下:

詞云圖為:

哈哈哈,又是“班里”,又是“好想你”的,這簡(jiǎn)直是學(xué)生時(shí)代偷偷摸摸愛情的典型啊,趕緊返回看一看留言時(shí)間:

看來(lái)在一起的時(shí)間還不短呢

然后就開始給王大國(guó)“對(duì)質(zhì)”:

又是和大國(guó)斗智斗勇的一天,開森!

需要代碼的請(qǐng)私聊回復(fù)初戀獲取

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容