語(yǔ)義相似度

一、語(yǔ)義相似度的簡(jiǎn)介

?????? 在很多情況下,直接計(jì)算詞語(yǔ)之間的相似度非常的困哪,一般情況下,先計(jì)算詞語(yǔ)之間的距離,再轉(zhuǎn)換為相似度。

??????? 語(yǔ)義之間的距離,通常有兩種計(jì)算方式,一種是通過(guò)大量的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),一種是根據(jù)某種本體或分類關(guān)系。

??????? 利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),這種基于統(tǒng)計(jì)的方法主要將上下文信息的概率分布作為詞匯語(yǔ)義相似度的參照依據(jù)?;诮y(tǒng)計(jì)的詞語(yǔ)語(yǔ)義相似度計(jì)算方法是一種經(jīng)驗(yàn)主義方法,它把詞語(yǔ)相似度的研究建立在可觀察的語(yǔ)言事實(shí)上。它是建立在兩個(gè)詞語(yǔ)語(yǔ)義相似當(dāng)且僅當(dāng)它們處于相似的上下文環(huán)境中的這一假設(shè)的基礎(chǔ)上。它利用大規(guī)模語(yǔ)料庫(kù),將詞語(yǔ)的上下文信息作為語(yǔ)義相似度計(jì)算的參照依據(jù)?;诮y(tǒng)計(jì)的定量分析方法能夠?qū)υ~匯間的語(yǔ)義相似性進(jìn)行比較精確和有效的度量,但是這種方法比較依賴于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量大,計(jì)算方法復(fù)雜,另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時(shí)會(huì)出現(xiàn)明顯的錯(cuò)誤。

??? 根據(jù)本體或分類關(guān)系計(jì)算詞語(yǔ)語(yǔ)義距離的方法,一般是利用一部同義詞詞典。一般同義詞詞典都是將所有的詞組織在一棵或幾棵樹(shù)狀的層次結(jié)構(gòu)中。在一棵樹(shù)狀圖中,任何結(jié)點(diǎn)之間有且只有一條路徑,于是這條路徑的長(zhǎng)度就可以作為這兩個(gè)概念的語(yǔ)義距離的一種度量。有些研究者考慮的情況更復(fù)雜。除了節(jié)點(diǎn)件的路徑長(zhǎng)度外,還考慮到了其它一些因素。如:概念層次樹(shù)的深度,概念層次樹(shù)的區(qū)域密度等等。基于本體或分類關(guān)系的計(jì)算方法比較簡(jiǎn)單有效,無(wú)需用語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,也比較直觀,易于理解,但這種方法得到的結(jié)果受人的主觀意識(shí)影響較大,有時(shí)并不能準(zhǔn)確反映客觀事實(shí)。


?二、基于WordNet語(yǔ)義相似度算法研究

????? WordNet中的概念是由概念間關(guān)系連接在一起的,每個(gè)概念都通過(guò)關(guān)系和其他概念相連,而整個(gè)WordNet則是由概念和關(guān)系組成的巨大的網(wǎng)絡(luò)。最上面圖是WordNet中部分概念網(wǎng)絡(luò)結(jié)構(gòu)圖。

?????? 下圖是以"car"和“bag”為主體的概念,得到is_a關(guān)系樹(shù)狀分類圖



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容