我爬取了汪峰146首歌詞,卻找不到他的夢(mèng)想

夢(mèng)想

最近在學(xué)scrapy框架,看了不少大神的代碼,還是感覺(jué)云里霧里,最好的學(xué)習(xí)就是實(shí)踐,于是就有了今天的題目。我爬取了汪峰老師的146首歌詞,并對(duì)他們進(jìn)行分詞、統(tǒng)計(jì)詞頻,然后用工具進(jìn)行了可視化。

整個(gè)項(xiàng)目分3塊:

  • 歌詞爬取與下載
  • 歌詞分詞、統(tǒng)計(jì)詞頻
  • 可視化處理

1.歌詞爬取

主要用scrapy框架進(jìn)行,像素級(jí)參照了@LEONYao的文章我爬了咪蒙的278篇文章做詞頻統(tǒng)計(jì)
歌詞地址:https://mojim.com/cnh104044-A2.htm
上代碼

import scrapy
from bs4 import BeautifulSoup
from ali.items import AliItem
class wang(scrapy.Spider):
    name = 'wang'
    def start_requests(self):
        start_url=['https://mojim.com/cnh104044-A2.htm']
        for url in start_url:
            yield scrapy.Request(url=url,callback=self.parse_getlink)


    def parse_getlink(self,response):
        n=0
        #print response.url
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('div',id='inS'):
            for j in i.find_all('a'):
               url = j.get('href')
               url = 'https://mojim.com' + str(url)
               yield scrapy.Request(url=url, callback=self.parse)
               n+=1
        print n

    def parse(self,response):
        item = AliItem()
        soup = BeautifulSoup(response.body,'lxml')
        for i in soup.find_all('dd',id='fsZx3'):
            item['content'] = i.get_text()
            yield item 

2.詞頻統(tǒng)計(jì)

主要用jieba模塊和停用詞表,參照了@_CallMe靠譜叔 用jieba分詞提取關(guān)鍵詞做漂亮的詞云的代碼

詞頻.PNG

3.可視化

你的夢(mèng)想是什么?
我找不到了ORZ

詞云中字體大小是根據(jù)詞頻的大小設(shè)置的,通過(guò)分析詞頻,我得到了個(gè)驚人的發(fā)現(xiàn),竟然沒(méi)有找到汪老師的夢(mèng)想,本來(lái)打算洗洗睡的我,頓時(shí)垂死夢(mèng)中驚坐起,發(fā)現(xiàn)有點(diǎn)對(duì)不起汪老師,于是我拿著放大鏡,翻著詞頻統(tǒng)計(jì)最后才在第35位找到了夢(mèng)想兩個(gè)字,真是細(xì)思恐極啊~

推薦兩個(gè)小工具:
詞云工具 很多人介紹過(guò)的 tagul
圖云工具 也是一款神器shape collage

另外,詞頻的統(tǒng)計(jì)比較粗糙,沒(méi)有區(qū)分詞性,目前還沒(méi)找到好的解決辦法。哪位大神如果有好的辦法,望不吝賜教~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容