一、前言
終于做出這張圖時(shí),我突然有點(diǎn)感慨,這就是2017年我的日記中提到過(guò)或記錄過(guò)的一個(gè)個(gè)人名,當(dāng)然為避免引起不必要的麻煩,隱去了許多親人朋友的名字。想到一輩子說(shuō)長(zhǎng)也長(zhǎng),說(shuō)短的話,幾十張?jiān)~云圖也就概括了那些人與事。曾經(jīng)朝夕相處、相識(shí)相知的人,或許早已漸行漸遠(yuǎn)了,二三老友談起故人往事才發(fā)現(xiàn)死活想不起某某同學(xué)姓甚名誰(shuí),遺忘總是發(fā)生在不知不覺(jué)間,有時(shí)候連自己都不知道究竟忘記了什么。

童年、少年、青年時(shí)期的人與事,忘卻了總是難免,然而眼下的一載春秋里又何嘗不是“事如春夢(mèng)了無(wú)痕”呢?2018年已經(jīng)過(guò)去了一周,很多人該總結(jié)、該回顧2017年的想來(lái)也都總結(jié)回顧了,沒(méi)有總結(jié)習(xí)慣的就繼續(xù)過(guò)自己新的一年。往常也沒(méi)有寫(xiě)年末小結(jié)的我,或許是聽(tīng)許飛《父親寫(xiě)的散文詩(shī)》聽(tīng)得“熱淚盈眶”,“這是我父親 / 日記里的文字 / 這是他的生命 留下 / 留下來(lái)的散文詩(shī)”,這幾句歌詞讓我想到多年之后要是我的孩子去了解我的過(guò)去,雖然沒(méi)有什么散文詩(shī)可言,但也希望借著回顧之際能總結(jié)和留下點(diǎn)什么......
胡言亂語(yǔ)了許多,其實(shí)打算研究日記里出現(xiàn)的人名,也是因?yàn)橄雽W(xué)習(xí)和應(yīng)用一些文本分析和挖掘的方法,根據(jù)看過(guò)的文章來(lái)實(shí)踐操作下,而日記是現(xiàn)成的語(yǔ)料庫(kù),也是最熟悉不過(guò)的文本,因此有了這樣一篇文章。
二、提取人名
首先為了獲取文本中出現(xiàn)的人名,根據(jù)這篇文章《從天龍八部小說(shuō)衍生出的google語(yǔ)義分析與gephi社交網(wǎng)絡(luò)》里提供的思路,用jieba中文分詞Python庫(kù)嘗試從日記文本中提取出TF/IDF權(quán)重最大的、TOP5000名詞。
由輸出結(jié)果可知,在莊子、賈寶玉、王小波等人名準(zhǔn)確提取出來(lái)的同時(shí),夾雜著許多其他事物的名詞,需要剔除。由于還不知道有什么便捷高效的方法可以實(shí)現(xiàn)提取人名,本次先根據(jù)文本中人名出現(xiàn)的次數(shù),劃定一個(gè)下限,再手動(dòng)篩選出符合要求的姓名,接著將TF/IDF權(quán)重同時(shí)增大100或1000倍,以便用HTML5 Word Cloud實(shí)現(xiàn)漂亮的詞云圖。

上圖便是我的日記里最具代表性的人物畫(huà)像了。有大師大家魯迅、葉嘉瑩等,有知乎用戶(hù)張佳瑋、路人甲,有喜歡的歌手山口百惠、安溥,有AI大佬吳恩達(dá)、李飛飛,也有一些熱門(mén)綜藝、熱點(diǎn)事件里的人物等等。每個(gè)人因其不同的緣故而被記錄,并得以拼湊出這一年度印記。

三、提取人物關(guān)系
除了從文本中提取人名,本次還基于共現(xiàn)提取出日記中人物的網(wǎng)絡(luò)關(guān)系,并運(yùn)用gephi進(jìn)行可視化。
引用一段對(duì)共現(xiàn)網(wǎng)絡(luò)基本原理的介紹:“實(shí)體間的共現(xiàn)是一種基于統(tǒng)計(jì)的信息提取。關(guān)系緊密的人物往往會(huì)在文本中多段內(nèi)同時(shí)出現(xiàn),可以通過(guò)識(shí)別文本中已確定的實(shí)體(人名),計(jì)算不同實(shí)體共同出現(xiàn)的次數(shù)和比率。當(dāng)比率大于某一閾值,我們認(rèn)為兩個(gè)實(shí)體間存在某種聯(lián)系?!?/p>
實(shí)現(xiàn)的代碼可參考提取《釜山行》人物關(guān)系的代碼,可根據(jù)自己的需求進(jìn)行更改。
運(yùn)用到自己的文本上,并生成后續(xù)用于gephi可視化的“節(jié)點(diǎn)”和“邊”文件,同樣需要剔除非人名的數(shù)據(jù)。節(jié)點(diǎn)格式如下:
邊格式如下:
將數(shù)據(jù)導(dǎo)入gephi軟件中:
調(diào)整節(jié)點(diǎn)的大小和顏色,并運(yùn)行布局算法:
加上標(biāo)簽,比詞云圖能看到更多人物的姓名:

一頓瞎操作,聚焦到文本中人物關(guān)系比較接近與頻繁的部分,主要的節(jié)點(diǎn)有魯迅、葉嘉瑩、黛玉等等:
整個(gè)網(wǎng)絡(luò)中最重要的一條脈絡(luò)如下圖所示:
在大部分較常規(guī)的聯(lián)系之中,存在著“賀龍”與“賀知章”這一蠻奇特的關(guān)聯(lián),思索了幾秒后,才想起曾有人詢(xún)問(wèn)取名、賜名的一樁舊事,倒也有趣,不過(guò)說(shuō)來(lái)至今不知道賀姓名人還有哪些,大看到的小伙伴可以說(shuō)說(shuō),并試著為賀姓小男孩取個(gè)你覺(jué)得不錯(cuò)的名字唄?

人物關(guān)系網(wǎng)絡(luò)的背后是2017年一點(diǎn)一滴的記憶,有許多不足為外人道爾卻自得其樂(lè)的地方,有許多自己都記不得卻借此想起的人和事。

我是個(gè)記性很差的人,平日里就記不得幾天前乃至昨天的許多事,日記也寫(xiě)了兩三年,每每回過(guò)頭看當(dāng)初的人與事,就倍感慶幸曾經(jīng)的勤奮下筆,而遇上空白的時(shí)期,或一筆帶過(guò)的歲月,也會(huì)很惘然,仿佛人生被抽離了一部分,只剩下白茫茫的一片。借用沈復(fù)在《浮生六記》開(kāi)篇的話:“東坡云:‘事如春夢(mèng)了無(wú)痕’,茍不記之筆墨,未免有辜彼蒼之厚?!蔽译m沒(méi)有得天獨(dú)厚的一些大事可記述,但那種“事如春夢(mèng)了無(wú)痕”的遺憾和惘然卻感同身受。
本文雖然只是簡(jiǎn)單的文本挖掘,沒(méi)有深入的研究,但對(duì)自己來(lái)說(shuō),還是蠻新穎的探索過(guò)程,也借此粗淺的回顧下自己2017的一些人與事,最后再留個(gè)謎語(yǔ),按下圖打一個(gè)綜藝節(jié)目吧,歡迎評(píng)論猜謎。
四、相關(guān)閱讀
《從天龍八部小說(shuō)衍生出的google語(yǔ)義分析與gephi社交網(wǎng)絡(luò)》