第 14 章:余弦定律和新聞分類
計(jì)算機(jī)根本讀不懂新聞,計(jì)算機(jī)的本質(zhì)上只能做快速計(jì)算。
計(jì)算向量余弦的技巧

- 墳?zāi)共糠植恍枰貜?fù)計(jì)算,向量的長(zhǎng)度計(jì)算保存起來(lái)
- 只考慮向量中的非零元素,計(jì)算的復(fù)雜度取決于兩個(gè)向量中非零元素個(gè)數(shù)的最小值。
- 刪除虛詞,不僅可以提高計(jì)算速度,對(duì)新聞分類的準(zhǔn)確性也大有好處,因?yàn)樘撛~的權(quán)重其實(shí)是一種噪音,干擾分類的正常進(jìn)行。
位置的加權(quán),出現(xiàn)在文本不同位置的詞在分類時(shí)的重要性也不相同。顯然,出現(xiàn)- - 在標(biāo)題中的詞對(duì)主題的貢獻(xiàn)遠(yuǎn)比出現(xiàn)在新聞?wù)闹械闹匾?/li> - 出現(xiàn)在文章開(kāi)頭和結(jié)尾的詞比出現(xiàn)在中間的詞重要
要對(duì)標(biāo)題和重要位置的詞進(jìn)行額外加權(quán),以提高文本分類的準(zhǔn)確性。
第 15 章:矩陣運(yùn)算和文本處理中兩個(gè)分類問(wèn)題
文本和詞匯的矩陣
最常見(jiàn)的兩個(gè)分類問(wèn)題:
- 將文本按主題歸類
- 將詞匯表中的字詞按意思?xì)w類
新聞分類乃至各種分類其實(shí)是一個(gè)聚類問(wèn)題,關(guān)鍵是計(jì)算兩篇新聞的相似程度。
奇異值分解(SVD)
每一行對(duì)應(yīng)一篇文章,每一列對(duì)應(yīng)一個(gè)詞,如果有 N 個(gè)詞,M 篇文章,則得到一個(gè) M*N 的矩陣:
image.png
奇異值分解,就是把上面這樣一個(gè)大矩陣,分解成三個(gè)小矩陣相乘。相應(yīng)的存儲(chǔ)量和計(jì)算量都會(huì)小很多。

-
第一個(gè)矩陣 X 是對(duì)詞進(jìn)行分類的一個(gè)結(jié)果。它的每一行表示一個(gè)詞,每一列表示一個(gè)語(yǔ)義相近的詞類,簡(jiǎn)稱語(yǔ)義類。這一行的每個(gè)非零元素表示這個(gè)詞在每個(gè)語(yǔ)義類中的重要性,數(shù)值越大越相關(guān)。
image.png -
矩陣 Y 是文本的分類結(jié)果。它的每一列對(duì)應(yīng)一篇文本,每一行對(duì)應(yīng)一個(gè)主題。這一列的每個(gè)元素表示這篇文本在不同主題中的相關(guān)性。
image.png - 中間的矩陣則表示詞的類和文章的類之間的相關(guān)性
image.png
只要對(duì)關(guān)聯(lián)矩陣 A 進(jìn)行一次奇異值分解,就可以同時(shí)完成近義詞分類和文章的分類,另外,還能得到每個(gè)主題和每個(gè)詞的語(yǔ)義類之間的相關(guān)性。
在實(shí)際應(yīng)用中,可以先進(jìn)行奇異值分解,得到粗分類結(jié)果,再利用計(jì)算向量余弦的方法,在粗分類結(jié)果的基礎(chǔ)上,進(jìn)行幾次迭代,得到比較精確的結(jié)果。這樣,這兩個(gè)方法一先一后結(jié)合使用,可以充分利用兩者的優(yōu)勢(shì),既節(jié)省時(shí)間,又能獲得很好的準(zhǔn)確性。
第 20 章:最大熵模型
最大熵原理和最大熵模型
最大熵:要保留全部的不確定性,將風(fēng)險(xiǎn)降到最小。
最大熵原理指出:對(duì)一個(gè)隨機(jī)事件的概率分布預(yù)測(cè)時(shí),我們的預(yù)測(cè)應(yīng)當(dāng)滿足全部已知的條件,而對(duì)未知的情況不要做任何主觀假設(shè)。在這種情況下,概率分布均勻,預(yù)測(cè)的風(fēng)險(xiǎn)最小。因?yàn)檫@時(shí)概率分布的信息熵最大,“最大熵模型”。

第 21 章:拼音輸入法的數(shù)學(xué)原理
個(gè)性化的語(yǔ)言模型





