篤行百天日志 - 025
當(dāng)我們談完了可以利用統(tǒng)計(jì)語言模型進(jìn)行自然語言處理,而這些語言模型是建立在詞的基礎(chǔ)上的,因?yàn)樵~是表達(dá)語義的最小單位。對于西方拼音語言來講,詞之間有明確的分界符( Delimit),統(tǒng)計(jì)和使用語言模型非常直接。
而對于中、日、韓、泰等語言,詞之間沒有明確的分界符。因此,首先需要對句子進(jìn)行分詞,才能做進(jìn)一步的自然語言處理。
“中國航天官員應(yīng)邀到美國與太空總署官員開會。”
分詞的輸出是用分界符,比如用斜線或者豎線分割的一串詞。
“中國/航天/官員/應(yīng)邀/到/美國/與/太空/總署/官員/開會?!?/strong>
最容易想到的分詞方法,也是最簡單的辦法,就是查字典。但當(dāng)復(fù)雜性提高,出現(xiàn)二義性詞時(shí),這個(gè)方法就無能為力。
比如:
- 發(fā)展中國家:正確 —— 發(fā)展 - 中 - 國家,錯誤 —— 發(fā)展 - 中 - 國家。
- 北京大學(xué)生:正確 —— 北京 - 大學(xué)生,錯誤 —— 北京大學(xué) - 生。
語言中的歧義,伴隨著語言的發(fā)展,困擾了學(xué)者上千年。
在古代,短句和說文解字從根本上講,就是消除歧義性。各種不同學(xué)者的春秋正義或者論語的注釋,都是各家按照自己的理解消除歧義性。
而,利用我們昨天談到的統(tǒng)計(jì)語言模型,計(jì)算出各種分詞后句子出現(xiàn)的概率,并找出其中概率最大的,就能夠找到最好的分詞方法。
在我們實(shí)際生活中,溝通的歧義性,經(jīng)常不知不覺的產(chǎn)生。借鑒數(shù)學(xué)模型處理自然語言的思維:不同的模型處理結(jié)果在于數(shù)據(jù)的使用與工程實(shí)現(xiàn)的精度。而我們的溝通效率和成果,也在于雙方溝通信息的有效傳收,以及對彼此信息的精確理解。
100個(gè)基本之貳拾伍
不競爭,不爭奪。
有這樣一種說法:為了拿出成果、提高干勁,競爭是必要的。我認(rèn)為這完全是無稽之談。因?yàn)楣ぷ鳎皇菫榱吮葎e人站在更有利的位置而做,而是為了把喜悅帶給他人。倘若我在相互競爭的環(huán)境里工作,一定會果斷地讓位。說著“您先請”,后退一步。
祝春安,李木子,
第025日,以上。