新詞發(fā)現(xiàn)

算法:

依據(jù)詞的共有特征

成詞的標(biāo)準(zhǔn)之一:內(nèi)部凝固程度

? ? 什么是凝固程度?比如說一個詞“電影院”,如果“電影”和“院”真的是各自獨(dú)立地在文本隨機(jī)出現(xiàn),那么他兩正好出現(xiàn)在一起的概率會很小。 我們通過計(jì)算P(電影)×P(院)遠(yuǎn)小于P(電影院)發(fā)現(xiàn)“電影院”很有可能是一個有意義的詞。

? ? 因此我們枚舉文本片段的組合方式

? ? 然后取凝聚程度的最小值

成詞的標(biāo)準(zhǔn)之二:自由運(yùn)用程度

? ?什么是自由運(yùn)用程度?比如說一個詞“輩子”, 用法非常固定,除了“一輩子”、“這輩子”、“上輩子”、“下輩子”,基 本上“輩子”前面不能加別的字了。以至于直覺上會覺得“輩子”不能單獨(dú)成詞。因此我們說能夠自由運(yùn)用是一個詞的關(guān)鍵。得具有豐富的左鄰詞集合與右鄰詞集合。

????先介紹信息熵的概念,信息熵能夠反映一個事件的結(jié)果平均會給你帶來多大的信息量。如果某個結(jié)果的發(fā)生概率為p,當(dāng)你知道它確實(shí)發(fā)生了,那么你得到的信息量為-log(p)。 如果一顆骰子的六面是1,1,1,2,2,3。那么我們投到1時,得到的信息量是-log(1/2);投到2時,得到的信息量是-log(1/3);投到3時得到的信息量是-log(1/6)。

事情越不確定,信息熵越大。

? ? 我們使用信息熵來衡量一個文本片段的左鄰字集合與右鄰字集合有多隨機(jī)。

凝固程度與自由程度缺一不可,只看凝固程度的話容易找到半個詞,只看自由度的話容易得到無意義的垃圾詞組。


? ??

流程:

1. 輸入: 按行分割的未切詞文本

2. 文檔清洗, 去除非中文字符

3. 構(gòu)建子串-頻率字典, 計(jì)算長度從1到max_word_length的所有子串的頻率

4. 構(gòu)建新詞候選集, 計(jì)算所有子串-頻率字典中的子串的PMI值,PMI大魚min_pmi的所有子串構(gòu)成新詞候選集

5. 生成合法新詞, 計(jì)算新詞候選集中的所有子串左右鄰居信息熵,信息熵高于min_entropy的所有子串構(gòu)成最終的新詞集

6. 輸出:新詞集

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 介紹 網(wǎng)絡(luò)領(lǐng)域的新詞發(fā)現(xiàn)是一個非常重要的nlp課題。在處理文本對象時,非常關(guān)鍵的問題在于“切詞”這個環(huán)節(jié),幾乎所有...
    濤笙依舊_閱讀 5,631評論 0 4
  • 參考資料 主要參考了以下兩篇文章:互聯(lián)網(wǎng)時代的社會語言學(xué):基于SNS的文本數(shù)據(jù)挖掘 基于信息熵和互信息的新詞識別 ...
    yshhuang閱讀 2,295評論 0 1
  • 本文主要參考文獻(xiàn)1, 主要目的是記錄和簡化核心規(guī)則,并根據(jù)實(shí)踐提出了一些實(shí)踐中的方案。 新詞發(fā)現(xiàn)規(guī)則 新詞發(fā)現(xiàn)主要...
    galois_xiong閱讀 1,280評論 0 0
  • 新詞自動發(fā)現(xiàn)已經(jīng)成為文本挖掘方面非?;境S玫募夹g(shù)了。比如,我為了實(shí)現(xiàn)某個idea,需要對NBA新聞評論語料進(jìn)行分...
    紫松閱讀 1,195評論 6 12
  • 不是在冬季 我的心里有雪花飛舞 我將我的身影 站成了孤獨(dú) 夜里 無人的街道寬闊 紙屑伴著冷風(fēng)飛舞 一定又是一封信被...
    亞民閱讀 243評論 0 1

友情鏈接更多精彩內(nèi)容