如果
簡書可以插入音樂
我一定
放個十首八首
因為
聽歌看書碼字實在太**high了
//:用假詩體開個玩笑~~~
在數(shù)字時代,拼音文字有著太多的無奈。中文輸入法的誕生就有一本書去描述,是個波瀾壯闊的研究和產(chǎn)業(yè)史。
不止是在輸入的時候有麻煩,對于機器如何來理解亞洲語言這種詞與詞之間沒有明確分隔符的語言,也是個大麻煩。
這問題不僅在現(xiàn)在存在,以前也存在。如果你見過沒有注解的論語,那也是一片片的字,難以理解其中具有二義性的語句。
一開始,中文的分詞也是從查字典的角度去讓機器理解的。但是,一旦遇到二義性,就跟一個完全對文言文沒有經(jīng)驗的人一樣,字都認識,組合成句子卻不知道什么意思了。
還是要靠統(tǒng)計語言模型的力量。
最好的分詞方法應該是要保證分完詞之后,這個句子出現(xiàn)的概率最大。這是個動態(tài)規(guī)劃的問題,用到了維比特算法。
好消息是,
分詞已經(jīng)屬于已經(jīng)解決的問題,并非是什么難題。只要采用基本的統(tǒng)計語言模型,和一些業(yè)界熟知的技巧既能得到非常好的結(jié)果。甚至,不同的分詞器產(chǎn)生的結(jié)果的差異要遠遠小于不同人之間看法的差異。這意味著,無法更優(yōu)解了。
那分詞是不是就無事可干了?也不是的。
對于“北京大學”,應該分成“北京”和“大學”還是“北京大學”,對于不同學者來說,還是有爭議的。對于不同的使用場景,分詞的顆粒度也會有爭議。對于某些應用來說,需要盡可能地找到各種復合詞,有些則相反。
而我們又不想構(gòu)建不同的分詞器(鬼知道要分成多少種)。因此,就需要讓分詞器支持不同的應用場景需要。這樣,也就需要建立基本詞表和復合詞表,由復合詞表來描述復合詞由哪些基本詞構(gòu)成。
工作就來了。
我們需要不斷地做數(shù)據(jù)挖掘,去完善復合詞的詞典。這也是近些年來中文分詞工作的重點。
目前市場上的分詞產(chǎn)品很多,百度出來一大堆,性能分析也有。對于我們正在用的python來說,jieba模塊是比較好的開源工具,還支持復合詞詞典。
收尾。此時在放的歌是《Defeated》~~~~~~~歌詞有種老人與海中“人可以被毀滅,但不可以被打敗”的意思(哈哈哈,這雞湯當然是網(wǎng)友熬出來的,拿來用用)。