第4章 談?wù)劮衷~

以下內(nèi)容學(xué)習(xí)、摘錄自《數(shù)學(xué)之美》

利用統(tǒng)計(jì)語言模型進(jìn)行自然語言處理是建立在詞的基礎(chǔ)上的,因?yàn)樵~是表達(dá)語義的最小單位。對于西方拼音語言來講,詞之間有明確的分界符( Delimit),統(tǒng)計(jì)和使用語言模型非常直接。而對于一些亞洲語言(如中、日、韓、泰等),詞之間沒有明確的分界符。因此,需要先對句子進(jìn)行分詞,才能做進(jìn)一步的自然語言處理

分詞的輸入是一串胡子連著眉毛的漢字,例如一個句子:“數(shù)據(jù)組請到一樓會議室開會”,而分詞的輸出則是用分界符分割的一串詞:數(shù)據(jù)組 / 請到 / 一樓 / 會議室 / 開會。

最容易想到的分詞方法,就是“查字典”的方法:其實(shí)就是把一個句子從左向右掃描一遍,遇到字典里有的詞就標(biāo)識出來,遇到復(fù)合詞(比如“上海大學(xué)”)就找最長的詞匹配,遇到不認(rèn)識的字串就分割成單字詞,于是簡單的分詞就完成了。

這個最簡單的方法可以解決七八成以上的分詞問題。但是,它畢竟太簡單,一個明顯的不足是當(dāng)遇到有二義性(有雙重理解意思)的分割時(shí)就無能為力了。比如,對短語“發(fā)展中國家”,正確的分割是“發(fā)展 / 中 / 國家”,而采用從左向右查字典的辦法會將它分割成“發(fā)展 / 中國 / 家”,顯然是錯了。另外,并非所有的最長匹配都一定是正確的。比如“上海大學(xué)城書店”的正確分詞應(yīng)該是“上海-大學(xué)城-書店”,而不是“上海大學(xué)-城-書店”。

斷句和說文解字從根本上講,就是消除歧義性,分詞的二義性是語言歧義性的一部分。20世紀(jì)90年代以前,海內(nèi)外不少學(xué)者試圖用一些文法規(guī)則來解決分詞的二義性問題,都不是很成功。當(dāng)然也有一些學(xué)者開始注意到統(tǒng)計(jì)信息的作用,但是并沒有找到有完善理論基礎(chǔ)的正確方法。1990年前后,當(dāng)時(shí)在清華大學(xué)電子工程系工作的郭進(jìn)博士用統(tǒng)計(jì)語言模型成功解決了分詞二義性問題,將漢語分詞的錯誤率降低了一個數(shù)量級。

利用統(tǒng)計(jì)語言模型分詞的方法,可以用幾個數(shù)學(xué)公式簡單概括。假定個句子S可以有3種分詞方法,如下:

A1 / A2 / A3... / Ai
B1 / B2 / B3... / Bj
C1 / C2 / C3... / Ck

那么,如果A1,A2,A3...,Ai是最好的分詞組合,那么其概率同時(shí)滿足

P(A1 / A2 / A3... / Ai) > P(B1 / B2 / B3... / Bj)
P(A1 / A2 / A3... / Ai) > P(C1 / C2 / C3... / Ck)

因此,只要利用上一章提到的統(tǒng)計(jì)語言模型計(jì)算出每種分詞在訓(xùn)練模型中出現(xiàn)的概率,并找出其中概率最大的,就能找到最好的分詞方法。

需要指出的是任何方法都有它的局限性,雖然利用統(tǒng)計(jì)語言模型進(jìn)行分詞,可以取得比人工更好的結(jié)果,但是也不可能做到百分之百準(zhǔn)確。因?yàn)榻y(tǒng)計(jì)語言模型很大程度上是依照“大眾的想法”,或者“多數(shù)句子的用法”,而在特定情況下可能是錯的。另外,有些人為創(chuàng)造出的“兩難”的句子,比如對聯(lián)“此地安能居住,其人好不悲傷”,用什么方法都無法消除二義性(它的兩種分詞方法“此地-安能-居住,其人-好不-悲傷”和“此地安-能居住,其人好-不悲傷”意思完全相反。)好在真實(shí)文本中,這些情況幾乎不會發(fā)生。

如何衡量分詞的結(jié)果?看似容易,其實(shí)不那么簡單。說容易,是因?yàn)橹灰糜?jì)算機(jī)分詞的結(jié)果與人工分詞的結(jié)果進(jìn)行比較就可以了。說它不那么簡單,是因?yàn)?b>不同的人對詞切分看法上的差異遠(yuǎn)比我們想象的大得多。人工分詞產(chǎn)生不一致的原因主要在于人們對詞的顆粒度的認(rèn)識問題。詞匯是表達(dá)意思的最基本的單位,在小就沒意思了。這就如同在化學(xué)里分子是保持化學(xué)性質(zhì)的最小單位一樣,再往下分到原子,化學(xué)特性就變了。好的做法是讓一個分詞器能夠支持不同層次的詞的切分,讓不同的應(yīng)用場景自行決定切分的顆粒度。

中文分詞以統(tǒng)計(jì)語言模型為基礎(chǔ),經(jīng)過幾十年的發(fā)展和完善,今天基本上可以看做是一個已經(jīng)解決的問題。當(dāng)然不同的分詞器也有質(zhì)量差異,主要的差別在于數(shù)據(jù)的使用和工程實(shí)現(xiàn)的精度。

點(diǎn)擊這里可以查看《數(shù)學(xué)之美》的其它學(xué)習(xí)筆記。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容