爬蟲實(shí)戰(zhàn)1:Python爬取豆瓣圖書,發(fā)現(xiàn)言情小說界的霸主居然是TA!

繼入門了Pyhton數(shù)據(jù)分析之后,我開始了爬蟲的學(xué)習(xí)之路,主要是發(fā)現(xiàn)爬蟲的用處實(shí)在是太大了,招聘信息、愛豆高清美圖/歌曲、房地產(chǎn)信息、股票證券等金融信息、電影資源......只有想不到,沒有爬不到!而且爬蟲跟數(shù)據(jù)分析基本是強(qiáng)關(guān)聯(lián)的,當(dāng)需要針對(duì)爬取的數(shù)據(jù)做清洗和分析時(shí),數(shù)據(jù)分析就派上用場(chǎng)了~

我的爬蟲入門課是成都工業(yè)大學(xué)的網(wǎng)課《Python爬蟲和數(shù)據(jù)可視化》,原本我是看了一個(gè)2016年的教程,結(jié)果發(fā)現(xiàn)視頻中講解的方式現(xiàn)在已不再適用,因?yàn)殡S著時(shí)間的推移和技術(shù)的進(jìn)步,網(wǎng)站的反爬做的越來越好,沒有給我可乘之機(jī)??而前面說的這個(gè)網(wǎng)課則是2020年最新版的,課程以爬取豆瓣電影TOP250為例講解了爬蟲的基本原理和常用的庫(kù)。當(dāng)我跟著課程一步步操作到最后成功爬取了電影數(shù)據(jù)后,為了鞏固基礎(chǔ)知識(shí)、加深印象,我決定嘗試舉一反三,目標(biāo)——爬取豆瓣讀書的信息。

打開豆瓣讀書的主頁(yè),可以看到右側(cè)邊欄有“熱門標(biāo)簽”,點(diǎn)擊任意一個(gè)標(biāo)簽即可瀏覽該標(biāo)簽下的所有圖書,我選擇了言情、推理和科幻三個(gè)大類進(jìn)行嘗試,我的第一個(gè)Python爬蟲之路正式開始!

言情小說

通過多次嘗試發(fā)現(xiàn),各類別下的圖書翻到51頁(yè)就沒有數(shù)據(jù)了,一頁(yè)是20條,因此推測(cè)豆瓣標(biāo)簽下只展示前1000本圖書信息,fine,那就爬取1000條咯~


image.png

爬取的信息包括:

①書名②鏈接③出版信息④星級(jí)⑤評(píng)價(jià)人數(shù)⑥簡(jiǎn)介⑦封面圖片⑧評(píng)分

由于本篇不是爬蟲教程類的文章,因此具體爬取過程略過,我在文末的公眾號(hào)文章中附上了代碼~

1000條信息爬取還是很快的,大概幾秒鐘的時(shí)間即可完成,數(shù)據(jù)如下:

image.png

接下來就進(jìn)入正題——數(shù)據(jù)分析環(huán)節(jié),看看根據(jù)以上數(shù)據(jù)我們可以獲取哪些信息吧!

TOP200圖書墻
言情小說.jpg

我的感覺是:言情小說封面用色比較小清新,古風(fēng)和古風(fēng)字體的占比挺高。

哪些作者最受歡迎?
言情作者.png

話不多說,上圖!通過對(duì)作者名的詞頻分析,生成詞云圖,可以看出人氣最高的作者是:桐華、匪我思存、墨寶非寶、辛夷塢和丁墨,不知道跟大家心中的猜測(cè)是否匹配呢?

由于上大學(xué)后我就很少看言情小說了,同時(shí)近年熱門的大IP劇我也很少追,所以榜單上還是有挺多生面孔的。具體來說就是光TOP5里就有倆我不認(rèn)識(shí)的作者:墨寶非寶和丁墨??我那個(gè)時(shí)代的作者,以及更老一些我比較熟悉(看過或身邊人都在看其作品)的有匪我思存、亦舒、滄月、明曉溪、郭敬明、八月長(zhǎng)安、饒雪漫、張小嫻......(流下了時(shí)代的眼淚)

描述性統(tǒng)計(jì)分析
image.png

字段代表書籍?dāng)?shù)量,上表展示了整體數(shù)據(jù)的描述性分析結(jié)果,如數(shù)量、平均值、標(biāo)準(zhǔn)差、最大/小值、中位數(shù)等信息。例如評(píng)分的中位數(shù)是7.4,平均值是7.27。

上榜超過5本的作者、作品數(shù)量及平均評(píng)分
言情5本以上作者.png

從數(shù)量來看,桐華一騎絕塵,以29本的上榜數(shù)量榮登榜首!另補(bǔ)一句,29本未對(duì)書名去重,即不同出版社的同一本書會(huì)被算作2本,經(jīng)計(jì)算,去重后是24本。

那么她為啥這么火呢?讓我們看看書單明細(xì)——


image.png

在她的作品里,排在TOP1的是步步驚心,雖然我沒看過但電視劇有多火我還是知道的,吳奇隆感覺靠這部劇又火了一次,順帶還娶了年輕貌美的劉詩(shī)詩(shī)~進(jìn)一步我百度了下桐華作品改編的電視劇:


image.png

搜到的標(biāo)題都是這種畫風(fēng),你們感受下:
image.png

image.png

看到這里,我不禁升起了另一個(gè)疑問:這么多書被改編成電視劇,還是大火的劇,能賺多少錢???本著吃瓜吃到底的心態(tài),又搜了下桐華的收入。一部《步步驚心》就為其帶來了200萬(wàn)以上的版權(quán)收入,厲害了!


image.png
評(píng)分分布
言情評(píng)分分布.png

從評(píng)分分布來看,接近一半的作品評(píng)分集中在7-8分區(qū)間內(nèi),其次是6-7分和8-9分,低于6分的較少,而9分以上的作品更是鳳毛麟角。來看看9分以上的作品都有哪些吧,由于評(píng)價(jià)人數(shù)過少的書籍的評(píng)分置信度相對(duì)偏低,因此采取評(píng)分人數(shù)倒序展示數(shù)據(jù):


image.png

從TOP5來看,說明言情小說要想達(dá)到9分以上難度非常大,僅《香初上舞·終上》和《有匪2》在約4000人評(píng)分的條件下能達(dá)到這一水平,評(píng)分人數(shù)2000以下的可信度一般,基本上是小圈子或者粉絲自high。此時(shí)想感嘆一句,《香初上舞》是我曾經(jīng)的高中同桌最喜歡的書籍之一,再次留下時(shí)代的眼淚。

再來看看評(píng)分人數(shù)過5萬(wàn)的作品,評(píng)分TOP10的作品明細(xì)吧:


image.png

TOP1居然是《最好的我們》,其實(shí)我更喜歡《你好,舊時(shí)光》哈哈??這里面除了巖井俊二、張愛玲和亦舒,其他的都算是網(wǎng)絡(luò)小說作者,果然還是網(wǎng)絡(luò)的力量大,為言情小說傳播貢獻(xiàn)了巨大力量。

星級(jí)分布
言情星級(jí)分布.png

星級(jí)分布沒什么好說的,跟評(píng)分分布類似(星級(jí)本身跟評(píng)分也是對(duì)應(yīng)的),集中在3.5星,其次是4星,3星和4.5星差不多。

作者國(guó)籍分布
image.png

由于國(guó)籍信息是從出版信息中作者名前面的注釋中提取出來的,有部分未標(biāo)注國(guó)籍的都被算到None里了,所以其實(shí)None包含中國(guó)籍和其他未標(biāo)注國(guó)籍信息的作者。盡管如此,這個(gè)數(shù)據(jù)還是令我震驚,它明明白白傳遞的信息是:言情小說已經(jīng)完全是內(nèi)地的天下,都不存在半壁江山一說,完完全全,被內(nèi)地包攬!而韓國(guó)和日本,居然只有寥寥幾部,要知道,我讀書的年代,可愛淘的小說風(fēng)靡全校啊,沒想到如今已經(jīng)如此沒落Orz

說起來,歐美美國(guó)好像沒啥言情小說,可能是文化所致,他們不習(xí)慣亞洲這種含蓄的表達(dá)方式,這種純愛小說估計(jì)也沒什么市場(chǎng)。不過也有一種可能是歐美小說沒有被打上言情的標(biāo)簽,可能是打的通用的“文學(xué)”標(biāo)簽。


image.png
作者起書名時(shí)最愛用的詞都有哪些?

同樣地,對(duì)書名進(jìn)行分詞,并統(tǒng)計(jì)詞頻,生成詞云圖,得到我們想要的結(jié)果——


言情詞匯.png

TOP詞匯是:時(shí)光、我們、喜歡、如果、傾城......是不是有內(nèi)味兒了()滿滿小言的味道~

另外,我注意到最近火的電視劇名字都越來越長(zhǎng),什么香蜜沉沉燼如霜啦、三生三世十里桃花啦,于是我又列了下書名超過7個(gè)字的list,來看看都有啥:


image.png

書名長(zhǎng)度分布如下,大部分書籍長(zhǎng)度還是以2-5個(gè)字為主~


image.png

以上是我對(duì)豆瓣言情小說標(biāo)簽下書籍的分析,同時(shí)我也對(duì)推理小說和科幻小說做了相應(yīng)的分析,詳情請(qǐng)移步我的個(gè)人微信公眾號(hào):苕言苕語(yǔ)(shaoyanshaoyu_),還請(qǐng)朋友們多多支持呀~


參考教程

《Python爬蟲和數(shù)據(jù)可視化》

主要是P15-P25這幾個(gè)章節(jié)

https://www.bilibili.com/video/BV12E411A7ZQ

Python將多張圖片進(jìn)行合并拼接

https://blog.csdn.net/ahaotata/article/details/84027000

以扶搖為例:如何使用Python繪制詞云?

https://baijiahao.baidu.com/s?id=1608201291686838534&wfr=spider&for=pc

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容