第 14 章：余弦定律和新聞分類

計(jì)算機(jī)根本讀不懂新聞，計(jì)算機(jī)的本質(zhì)上只能做快速計(jì)算。

計(jì)算向量余弦的技巧

image.png

墳?zāi)共糠植恍枰貜?fù)計(jì)算，向量的長(zhǎng)度計(jì)算保存起來(lái)
只考慮向量中的非零元素，計(jì)算的復(fù)雜度取決于兩個(gè)向量中非零元素個(gè)數(shù)的最小值。
刪除虛詞，不僅可以提高計(jì)算速度，對(duì)新聞分類的準(zhǔn)確性也大有好處，因?yàn)樘撛~的權(quán)重其實(shí)是一種噪音，干擾分類的正常進(jìn)行。
位置的加權(quán)，出現(xiàn)在文本不同位置的詞在分類時(shí)的重要性也不相同。顯然，出現(xiàn)- - 在標(biāo)題中的詞對(duì)主題的貢獻(xiàn)遠(yuǎn)比出現(xiàn)在新聞?wù)闹械闹匾?/li>
出現(xiàn)在文章開(kāi)頭和結(jié)尾的詞比出現(xiàn)在中間的詞重要
要對(duì)標(biāo)題和重要位置的詞進(jìn)行額外加權(quán)，以提高文本分類的準(zhǔn)確性。

第 15 章：矩陣運(yùn)算和文本處理中兩個(gè)分類問(wèn)題

文本和詞匯的矩陣

最常見(jiàn)的兩個(gè)分類問(wèn)題：

將文本按主題歸類
將詞匯表中的字詞按意思?xì)w類
新聞分類乃至各種分類其實(shí)是一個(gè)聚類問(wèn)題，關(guān)鍵是計(jì)算兩篇新聞的相似程度。
奇異值分解（SVD）
每一行對(duì)應(yīng)一篇文章，每一列對(duì)應(yīng)一個(gè)詞，如果有 N 個(gè)詞，M 篇文章，則得到一個(gè) M*N 的矩陣：

image.png

奇異值分解，就是把上面這樣一個(gè)大矩陣，分解成三個(gè)小矩陣相乘。相應(yīng)的存儲(chǔ)量和計(jì)算量都會(huì)小很多。

image.png

第一個(gè)矩陣 X 是對(duì)詞進(jìn)行分類的一個(gè)結(jié)果。它的每一行表示一個(gè)詞，每一列表示一個(gè)語(yǔ)義相近的詞類，簡(jiǎn)稱語(yǔ)義類。這一行的每個(gè)非零元素表示這個(gè)詞在每個(gè)語(yǔ)義類中的重要性，數(shù)值越大越相關(guān)。

image.png
矩陣 Y 是文本的分類結(jié)果。它的每一列對(duì)應(yīng)一篇文本，每一行對(duì)應(yīng)一個(gè)主題。這一列的每個(gè)元素表示這篇文本在不同主題中的相關(guān)性。

image.png
中間的矩陣則表示詞的類和文章的類之間的相關(guān)性

image.png

只要對(duì)關(guān)聯(lián)矩陣 A 進(jìn)行一次奇異值分解，就可以同時(shí)完成近義詞分類和文章的分類，另外，還能得到每個(gè)主題和每個(gè)詞的語(yǔ)義類之間的相關(guān)性。

在實(shí)際應(yīng)用中，可以先進(jìn)行奇異值分解，得到粗分類結(jié)果，再利用計(jì)算向量余弦的方法，在粗分類結(jié)果的基礎(chǔ)上，進(jìn)行幾次迭代，得到比較精確的結(jié)果。這樣，這兩個(gè)方法一先一后結(jié)合使用，可以充分利用兩者的優(yōu)勢(shì)，既節(jié)省時(shí)間，又能獲得很好的準(zhǔn)確性。

第 20 章：最大熵模型

最大熵原理和最大熵模型

最大熵：要保留全部的不確定性，將風(fēng)險(xiǎn)降到最小。
最大熵原理指出：對(duì)一個(gè)隨機(jī)事件的概率分布預(yù)測(cè)時(shí)，我們的預(yù)測(cè)應(yīng)當(dāng)滿足全部已知的條件，而對(duì)未知的情況不要做任何主觀假設(shè)。在這種情況下，概率分布均勻，預(yù)測(cè)的風(fēng)險(xiǎn)最小。因?yàn)檫@時(shí)概率分布的信息熵最大，“最大熵模型”。

image.png

第 21 章：拼音輸入法的數(shù)學(xué)原理

個(gè)性化的語(yǔ)言模型

image.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

分類

分類

第 14 章：余弦定律和新聞分類

計(jì)算向量余弦的技巧

第 15 章：矩陣運(yùn)算和文本處理中兩個(gè)分類問(wèn)題

文本和詞匯的矩陣

第 20 章：最大熵模型

最大熵原理和最大熵模型

第 21 章：拼音輸入法的數(shù)學(xué)原理

個(gè)性化的語(yǔ)言模型

第 23 章：布隆過(guò)濾器

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

分類

第 14 章：余弦定律和新聞分類

計(jì)算向量余弦的技巧

第 15 章：矩陣運(yùn)算和文本處理中兩個(gè)分類問(wèn)題

文本和詞匯的矩陣

第 20 章：最大熵模型

最大熵原理和最大熵模型

第 21 章：拼音輸入法的數(shù)學(xué)原理

個(gè)性化的語(yǔ)言模型

第 23 章：布隆過(guò)濾器

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av