近段時(shí)間小楚在研究Python在量化投資的應(yīng)用,順帶發(fā)現(xiàn)了Python的爬蟲(chóng)功能真的是非常強(qiáng)大,抓取微博、新浪新聞、豆瓣各種APP的海量數(shù)據(jù)真的是不費(fèi)吹灰之力。
知乎也算是國(guó)民級(jí)的APP了,日活躍用戶(hù)數(shù)少說(shuō)也在千萬(wàn)以上,而且知乎的回答跟百度知道不一樣,基本上知乎的回答都是水平比較高、邏輯性很強(qiáng)的,參考意義非常大。那么你肯定很想知道,能回答出這么高水平答案的用戶(hù)都是什么人???他們有什么共同的特征嗎?
近日,知乎給小楚推送了一個(gè)問(wèn)題:男生長(zhǎng)得好看是一種什么體驗(yàn)?點(diǎn)進(jìn)去發(fā)現(xiàn)每個(gè)回答里面都是帥到爆的小哥哥的圖片,這個(gè)問(wèn)題下共有8284條回答,幾萬(wàn)張靚仔圖片,刷得小楚鼻血都要流出來(lái)了。
看完帥哥后,小楚覺(jué)得不夠過(guò)癮,既然知乎都推了帥哥,那我雨露均沾肯定要看看漂亮的小姐姐啊。于是,我又去找到了知乎上另一個(gè)問(wèn)題:女孩子長(zhǎng)得漂亮是種什么體驗(yàn)。這個(gè)問(wèn)題下總共有3000個(gè)回答??吹降谝粋€(gè)回答的第一張照片,小楚就hold不住了。。。
來(lái)自知乎用戶(hù)ID:勾芡兌水
看完后,小楚腎上腺素飆升久久不能自已,積極性一下被調(diào)動(dòng)起來(lái),決定用Python抓取這8000位帥哥和3000位美女的用戶(hù)信息,包括知乎昵稱(chēng)、一句話(huà)簡(jiǎn)介、職業(yè)信息等,看看長(zhǎng)得好看的人都有什么共同特征。
獨(dú)樂(lè)樂(lè)不如眾樂(lè)樂(lè),小楚這就教各位紳士們?cè)趺从肞ython進(jìn)行抓取,小白也不要緊,包會(huì)。
1、安裝Python軟件
我們首先下載anaconda,下載地址可以在清華大學(xué)鏡像網(wǎng)站下載最新日期的exe安裝包,比官網(wǎng)速度快得多。
下載安裝后接著打開(kāi)里面的jupyter notebook,在輸入框里輸入:pip install zhihu_oanth,完成后,你就已經(jīng)配置好了抓取知乎所需一切條件了。
推薦 :020 持續(xù)更新,精品小圈子每日都有新內(nèi)容,干貨濃度極高。
結(jié)實(shí)人脈、討論技術(shù) 你想要的這里都有!
搶先入群,跑贏(yíng)同齡人?。ㄈ肴簾o(wú)需任何費(fèi)用)
點(diǎn)擊此處,與Python開(kāi)發(fā)大牛一起交流學(xué)習(xí)。
群號(hào):745895701
申請(qǐng)即送:
Python軟件安裝包,Python實(shí)戰(zhàn)教程
資料免費(fèi)領(lǐng)取,包括 Python基礎(chǔ)學(xué)習(xí)、進(jìn)階學(xué)習(xí)、爬蟲(chóng)、人工智能、自動(dòng)化運(yùn)維、自動(dòng)化測(cè)試等
2、登陸你的知乎賬號(hào)
輸入以下代碼
然后將代碼里面的手機(jī)號(hào)換成你自己的知乎手機(jī)賬號(hào),密碼換成你自己的賬號(hào)密碼。接著點(diǎn)擊運(yùn)行,此時(shí)會(huì)出現(xiàn)一個(gè)框要你輸入驗(yàn)證碼,一般你去檢查用戶(hù)文件夾,會(huì)發(fā)現(xiàn)多了一張驗(yàn)證碼圖片文件,輸入該圖片上的驗(yàn)證碼,回車(chē)搞定。
3、抓取所有回答和用戶(hù)信息
(代碼比較長(zhǎng),各位請(qǐng)配合放大鏡閱讀)
運(yùn)行之后,你就得到了男生長(zhǎng)得帥是怎么樣的體驗(yàn)下的所有8000個(gè)回答、贊數(shù)和8000位答主們的用戶(hù)特征,包括昵稱(chēng)、簡(jiǎn)介等。
然后你再輸入df.to_excel('beautifulboys.xlsx'),將8000個(gè)回答全部導(dǎo)入一張Excel表里。
4、將用戶(hù)昵稱(chēng)和簡(jiǎn)介做成詞云的形式
我們提取Excel中的用戶(hù)昵稱(chēng)和簡(jiǎn)介,看看帥哥們都喜歡怎么取名字,以及他們的簡(jiǎn)介有什么共同的地方。
接著,我們就有了驚喜的發(fā)現(xiàn)
帥哥們的詞云:
我們看到帥哥們的昵稱(chēng)里都喜歡用“先生”、“一只”,不少靚仔還喜歡用“少女”呢?。ú缓靡馑迹液孟衩靼琢耸裁矗?/p>
然后,對(duì)提取到的所有簡(jiǎn)介做成詞云。
果然,簡(jiǎn)介的信息量?jī)r(jià)值就比較大了。從上面的詞云我們發(fā)現(xiàn),知乎長(zhǎng)得帥的男生主要集中在學(xué)生,尤其是大學(xué)生里面,這也不難理解,畢竟20多歲才是男生的顏值的巔峰期,30一過(guò)就成了油膩大叔了不是嘛。
其次,比較驚喜的是,我們看上圖發(fā)現(xiàn)帥哥在設(shè)計(jì)師行業(yè)分布也比較多,看來(lái)大家以后要去找靚仔,可以多去設(shè)計(jì)公司逛逛。
將抓取代碼中的ID替換成長(zhǎng)得漂亮是什么體驗(yàn)問(wèn)題的ID后,我們得到了美女們的詞云特征:
美女們的詞云:
知乎美女的昵稱(chēng)還是喜歡用“豬豬”、“可愛(ài)”居多,著很符合精致的她們。
而從用戶(hù)簡(jiǎn)介詞云看出,知乎美女們也是學(xué)生居多,職業(yè)比較多地集中在教師、設(shè)計(jì)師行業(yè)。
看來(lái),設(shè)計(jì)師行業(yè)的確比較容易出帥哥和美女,兩個(gè)詞云里面都有設(shè)計(jì)師這個(gè)關(guān)鍵詞,畢竟在常人印象里設(shè)計(jì)師都是比較嚴(yán)苛和挑剔的,如果對(duì)自己的顏值沒(méi)有信心,也很難設(shè)計(jì)出優(yōu)美的作品來(lái)!