《數(shù)學之美》之談談分詞

如果

簡書可以插入音樂

我一定

放個十首八首

因為

聽歌看書碼字實在太**high了

//:用假詩體開個玩笑~~~

在數(shù)字時代,拼音文字有著太多的無奈。中文輸入法的誕生就有一本書去描述,是個波瀾壯闊的研究和產(chǎn)業(yè)史。

不止是在輸入的時候有麻煩,對于機器如何來理解亞洲語言這種詞與詞之間沒有明確分隔符的語言,也是個大麻煩。

這問題不僅在現(xiàn)在存在,以前也存在。如果你見過沒有注解的論語,那也是一片片的字,難以理解其中具有二義性的語句。

一開始,中文的分詞也是從查字典的角度去讓機器理解的。但是,一旦遇到二義性,就跟一個完全對文言文沒有經(jīng)驗的人一樣,字都認識,組合成句子卻不知道什么意思了。

還是要靠統(tǒng)計語言模型的力量。

最好的分詞方法應該是要保證分完詞之后,這個句子出現(xiàn)的概率最大。這是個動態(tài)規(guī)劃的問題,用到了維比特算法。

好消息是,

分詞已經(jīng)屬于已經(jīng)解決的問題,并非是什么難題。只要采用基本的統(tǒng)計語言模型,和一些業(yè)界熟知的技巧既能得到非常好的結(jié)果。甚至,不同的分詞器產(chǎn)生的結(jié)果的差異要遠遠小于不同人之間看法的差異。這意味著,無法更優(yōu)解了。

那分詞是不是就無事可干了?也不是的。

對于“北京大學”,應該分成“北京”和“大學”還是“北京大學”,對于不同學者來說,還是有爭議的。對于不同的使用場景,分詞的顆粒度也會有爭議。對于某些應用來說,需要盡可能地找到各種復合詞,有些則相反。

而我們又不想構(gòu)建不同的分詞器(鬼知道要分成多少種)。因此,就需要讓分詞器支持不同的應用場景需要。這樣,也就需要建立基本詞表和復合詞表,由復合詞表來描述復合詞由哪些基本詞構(gòu)成。

工作就來了。

我們需要不斷地做數(shù)據(jù)挖掘,去完善復合詞的詞典。這也是近些年來中文分詞工作的重點。

目前市場上的分詞產(chǎn)品很多,百度出來一大堆,性能分析也有。對于我們正在用的python來說,jieba模塊是比較好的開源工具,還支持復合詞詞典。

收尾。此時在放的歌是《Defeated》~~~~~~~歌詞有種老人與海中“人可以被毀滅,但不可以被打敗”的意思(哈哈哈,這雞湯當然是網(wǎng)友熬出來的,拿來用用)。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

  • 語言與精神分析 四川大學哲學系 霍大同 第一講 1999年3月1日 這是一個比較困難的題目,我準備講的課的題目是“...
    團的花園閱讀 5,773評論 0 19
  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術: 詞級別...
    御風之星閱讀 9,998評論 1 25
  • 轉(zhuǎn)載請注明:終小南 ? 中文分詞算法總結(jié) 什么是中文分詞眾所周知,英文是以 詞為單位的,詞和詞之間是靠空格隔開,而...
    kirai閱讀 10,105評論 3 24
  • 熱播劇《人民的名義》第26集中,侯亮平送給趙東來一本神秘的書,叫《天局》。好奇搜了一下,竟然真的有這本書!作...
    海邊的阿迪閱讀 1,095評論 0 0
  • 由于人口的爆炸、空間的局限等原因,如何對房間進行整理和收納似乎變身為當今的生活時尚和潮流。收納盒、收納袋、各式儲物...
    若水Dewlight閱讀 330評論 2 0

友情鏈接更多精彩內(nèi)容