我分析了42萬字的歌詞,為了搞清楚民謠歌手們在唱些什么

聽了這么多年民謠,我有一種感覺,就是很多歌都似曾相識,但是仔細一想,又哪一首都想不起來,為了搞清楚這群流浪在祖國大地的現(xiàn)代游吟詩人們都在唱些什么,我做了一些數(shù)據(jù)分析的工作。

我選取了大約30個或比較大眾,或比較小眾的民謠歌手和樂隊,包括李志,夭十三,趙雷,宋冬野,周云蓬,逃跑計劃等等,為了設立參照,我還取了一些其他風格的樂隊,比如老一些的汪峰,竇唯,樸樹和新一些的低苦艾,謝天笑,反光鏡,草東等等。

我首先寫了一個爬蟲,它可以根據(jù)歌手或樂隊的名字來自動抓取這個歌手的所有歌,為了保證平衡,我最多只抓取前50首歌,老實說,大多數(shù)歌手被人熟知的歌并不會超過這個數(shù)字。


這樣,我得到了小一百個裝滿歌詞的文件,我都能感覺到從里面溢出來的文藝了。

接下來,我開始了對這些歌詞(約42萬字)的分析。

首先是情緒分析,通過對這些歌詞的自然語言處理,我知道了不同歌手們吟唱的到底是開心還是不開心的事情:


數(shù)值的分布比較平均,但大致可以看得出有三個分類,一類是特別開心的,例如郝云。但是我一開始也不太懂,為什么丟火車的情緒也這么高,后來聽了幾遍他們的歌,發(fā)現(xiàn)他們雖然唱腔慘兮兮的,但是歌詞還是充滿正能量的,丟火車樂隊歌詞中出現(xiàn)次數(shù)最多的三個詞分別是「永遠」「晚安」「倔強」,這些都是正面情緒的詞。第二類則是比較憂傷的,以我們熟悉的逼哥為代表,他們的歌詞中充斥著孤獨,沉默,淚水等詞語。雖不暴力,但是多少有一些黑暗。


第三類則以趙雷為代表,比較平靜,就像一個朋友給你講故事,不疾不徐,娓娓道來,里面也有開心,也有難過,但總體情緒趨于中值。這也許解釋了為什么趙雷這么晚才火起來的原因——平淡的情緒較難快速給人以強烈的沖擊。但無論如何,好的音樂總會被人們發(fā)掘。

基于某種趣味,我又分析了一下其他風格的音樂的情緒分析:


民謠的情緒很豐富,而搖滾的情緒則大多是負面的,人們說,沒有憤怒就沒有搖滾,這話至少在歌詞的情緒上是正確的。

民謠歌手最喜歡什么季節(jié)?通過對歌詞的分析,這個問題也可以解決:


其中,春天出現(xiàn)了81次,冬天出現(xiàn)了74次,夏天和秋天各出現(xiàn)了70和47次。由此可見,最受歡迎的是春天和冬天,最不受歡迎的是秋天。但我個人覺得秋天挺好的,秋高氣爽,菜價便宜。

同樣的,我也分析了歌手們最喜歡的城市,結果如下:


可以看得出,北方城市完全戰(zhàn)勝了南方城市,成了在歌詞中被唱的最多的地方,特別是北京,一共出現(xiàn)了81次。說到一線城市,人們會說北上廣深,但是在民謠的世界里,北京絕對是不可撼動的存在。南方城市只有成都勉強露了幾個照面。作為一個成都人,我對此還挺高興的。

難以理解的是,雖然北方城市大獲全勝,但是歌手們卻更多的念叨著「南方」而不是「北方」,「南方」比「北方」多出現(xiàn)了大約5.7%


另一個我感興趣的問題是,民謠歌手們是在向前看還是向后看,是往未來寄托希望,還是緬懷過去?


看得出,民謠歌手是在往前看的,至少是活在當下的,「明天」這個詞在歌詞中出現(xiàn)的次數(shù)最多,接著是「今天」和「昨天」,而「前天」和「后天」則幾乎可以忽略不計,這也是可以理解的,比如說「我拿青春賭明天」,這聽上去很美好,如果要說「我拿青春賭后天」乃至于「我拿青春賭下個月5號」,就聽上去就像一個賭徒發(fā)瘋了。

在我的統(tǒng)計中,出現(xiàn)最多的幾個意象是:再見,姑娘,夜空,孤獨,快樂。

如果把民謠擬人化,那應該是一個喜歡南方的北京小伙子,覺得世界很操蛋,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經(jīng)常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢。。。。。

本次分析使用的是騰訊文智和哈工大社會計算與信息檢索研究中心的自然語言處理模塊,同時也在測試的時候使用了百度AI的自然語言處理,效果不好。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容