99热一本,丝袜美女操逼,青青综合网

以下內(nèi)容學(xué)習(xí)、摘錄自《數(shù)學(xué)之美》

利用統(tǒng)計(jì)語言模型進(jìn)行自然語言處理是建立在詞的基礎(chǔ)上的，因?yàn)樵~是表達(dá)語義的最小單位。對于西方拼音語言來講，詞之間有明確的分界符( Delimit)，統(tǒng)計(jì)和使用語言模型非常直接。而對于一些亞洲語言(如中、日、韓、泰等)，詞之間沒有明確的分界符。因此，需要先對句子進(jìn)行分詞，才能做進(jìn)一步的自然語言處理。

分詞的輸入是一串胡子連著眉毛的漢字，例如一個句子：“數(shù)據(jù)組請到一樓會議室開會”，而分詞的輸出則是用分界符分割的一串詞：數(shù)據(jù)組 / 請到 / 一樓 / 會議室 / 開會。

最容易想到的分詞方法，就是“查字典”的方法：其實(shí)就是把一個句子從左向右掃描一遍，遇到字典里有的詞就標(biāo)識出來，遇到復(fù)合詞(比如“上海大學(xué)”)就找最長的詞匹配，遇到不認(rèn)識的字串就分割成單字詞，于是簡單的分詞就完成了。

這個最簡單的方法可以解決七八成以上的分詞問題。但是，它畢竟太簡單，一個明顯的不足是當(dāng)遇到有二義性(有雙重理解意思)的分割時(shí)就無能為力了。比如，對短語“發(fā)展中國家”，正確的分割是“發(fā)展 / 中 / 國家”，而采用從左向右查字典的辦法會將它分割成“發(fā)展 / 中國 / 家”，顯然是錯了。另外，并非所有的最長匹配都一定是正確的。比如“上海大學(xué)城書店”的正確分詞應(yīng)該是“上海-大學(xué)城-書店”，而不是“上海大學(xué)-城-書店”。

斷句和說文解字從根本上講，就是消除歧義性，分詞的二義性是語言歧義性的一部分。20世紀(jì)90年代以前，海內(nèi)外不少學(xué)者試圖用一些文法規(guī)則來解決分詞的二義性問題，都不是很成功。當(dāng)然也有一些學(xué)者開始注意到統(tǒng)計(jì)信息的作用，但是并沒有找到有完善理論基礎(chǔ)的正確方法。1990年前后，當(dāng)時(shí)在清華大學(xué)電子工程系工作的郭進(jìn)博士用統(tǒng)計(jì)語言模型成功解決了分詞二義性問題，將漢語分詞的錯誤率降低了一個數(shù)量級。

利用統(tǒng)計(jì)語言模型分詞的方法，可以用幾個數(shù)學(xué)公式簡單概括。假定個句子S可以有3種分詞方法，如下：

A1 / A2 / A3... / Ai
B1 / B2 / B3... / Bj
C1 / C2 / C3... / Ck

那么，如果A1，A2，A3...，Ai是最好的分詞組合，那么其概率同時(shí)滿足

P(A1 / A2 / A3... / Ai) > P(B1 / B2 / B3... / Bj)
P(A1 / A2 / A3... / Ai) > P(C1 / C2 / C3... / Ck)

因此，只要利用上一章提到的統(tǒng)計(jì)語言模型計(jì)算出每種分詞在訓(xùn)練模型中出現(xiàn)的概率，并找出其中概率最大的，就能找到最好的分詞方法。

需要指出的是任何方法都有它的局限性，雖然利用統(tǒng)計(jì)語言模型進(jìn)行分詞，可以取得比人工更好的結(jié)果，但是也不可能做到百分之百準(zhǔn)確。因?yàn)榻y(tǒng)計(jì)語言模型很大程度上是依照“大眾的想法”，或者“多數(shù)句子的用法”，而在特定情況下可能是錯的。另外，有些人為創(chuàng)造出的“兩難”的句子，比如對聯(lián)“此地安能居住，其人好不悲傷”，用什么方法都無法消除二義性（它的兩種分詞方法“此地-安能-居住，其人-好不-悲傷”和“此地安-能居住，其人好-不悲傷”意思完全相反。）好在真實(shí)文本中，這些情況幾乎不會發(fā)生。

如何衡量分詞的結(jié)果？看似容易，其實(shí)不那么簡單。說容易，是因?yàn)橹灰糜?jì)算機(jī)分詞的結(jié)果與人工分詞的結(jié)果進(jìn)行比較就可以了。說它不那么簡單，是因?yàn)?b>不同的人對詞切分看法上的差異遠(yuǎn)比我們想象的大得多。人工分詞產(chǎn)生不一致的原因主要在于人們對詞的顆粒度的認(rèn)識問題。詞匯是表達(dá)意思的最基本的單位，在小就沒意思了。這就如同在化學(xué)里分子是保持化學(xué)性質(zhì)的最小單位一樣，再往下分到原子，化學(xué)特性就變了。好的做法是讓一個分詞器能夠支持不同層次的詞的切分，讓不同的應(yīng)用場景自行決定切分的顆粒度。

中文分詞以統(tǒng)計(jì)語言模型為基礎(chǔ)，經(jīng)過幾十年的發(fā)展和完善，今天基本上可以看做是一個已經(jīng)解決的問題。當(dāng)然不同的分詞器也有質(zhì)量差異，主要的差別在于數(shù)據(jù)的使用和工程實(shí)現(xiàn)的精度。

點(diǎn)擊這里可以查看《數(shù)學(xué)之美》的其它學(xué)習(xí)筆記。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第4章談?wù)劮衷~

第4章談?wù)劮衷~

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第4章 談?wù)劮衷~

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第4章談?wù)劮衷~