04 特征工程 - 特征轉(zhuǎn)換 - 文本特征屬性轉(zhuǎn)換

03 特征工程 - 特征轉(zhuǎn)換 - 分詞、Jieba分詞

機(jī)器學(xué)習(xí)的模型算法均要求輸入的數(shù)據(jù)必須是數(shù)值型的,所以對于文本類型的特征屬性,需要進(jìn)行文本數(shù)據(jù)轉(zhuǎn)換,也就是需要將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。常用方式如下:

1、詞袋法(BOW/TF)
2、TF-IDF(Term frequency-inverse document frequency)
3、HashTF
4、Word2Vec(主要用于單詞的相似性考量)


詞袋法

詞袋法(Bag of words, BOW)是最早應(yīng)用于NLP和IR領(lǐng)域的一種文本處理模型,該模型忽略文本的語法和語序,用一組無序的單詞(words)來表達(dá)一段文字或者一個(gè)文檔,詞袋法中使用單詞在文檔中出現(xiàn)的次數(shù)(頻數(shù))來表示文檔。


詞集法

詞集法(Set of words, SOW)是詞袋法的一種變種,應(yīng)用的比較多,和詞袋法的原理一樣,是以文檔中的單詞來表示文檔的一種的模型,區(qū)別在于:詞袋法使用的是單詞的頻數(shù),而在詞集法中使用的是單詞是否出現(xiàn),如果出現(xiàn)賦值為1,否則為0。


TF-IDF

在詞袋法或者詞集法中,使用的是單詞的詞頻或者是否存在來進(jìn)行表示文檔特征,但是不同的單詞在不同文檔中出現(xiàn)的次數(shù)不同,而且有些單詞僅僅在某一些文檔中出現(xiàn)(eg:專業(yè)名稱等等),也就是說不同單詞對于文本而言具有不同的重要性,那么,如何評估一個(gè)單詞對于一個(gè)文本的重要性呢?

1、單詞的重要性隨著它在文本中出現(xiàn)的次數(shù)成正比增加,也就是單詞的出現(xiàn)次數(shù)越多,該單詞對于文本的重要性就越高。

2、同時(shí)單詞的重要性會隨著在語料庫中出現(xiàn)的頻率成反比下降,也就是單詞在語料庫中出現(xiàn)的頻率越高,表示該單詞與常見,也就是該單詞對于文本的重要性越低。

TF-IDF(Term frequency-inverse document frequency)是一種常用的用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),TF的意思是詞頻(TermFrequency),IDF的意思是逆向文件頻率(Inverse DocumentFrequency)。

TF-IDF可以反映語料中單詞對文檔/文本的重要程度。

假設(shè)單詞用t表示,文檔用d表示,語料庫用D表示,那么N(t,D)表示包含單詞t的文檔數(shù)量,|D|表示文檔數(shù)量,|d|表示文檔d中的所有單詞數(shù)量。N(t,d)表示在文檔d中單詞t出現(xiàn)的次數(shù)。

TF-IDF除了使用默認(rèn)的tf和idf公式外,tf和idf公式還可以使用一些擴(kuò)展之后公式來進(jìn)行指標(biāo)的計(jì)算,常用的公式有:

有兩個(gè)文檔,單詞統(tǒng)計(jì)如下,請分別計(jì)算各個(gè)單詞在文檔中的TF-IDF值以及這些文檔使用單詞表示的特征向量。


HashTF-IDF

不管是前面的詞袋法還是TF-IDF,都避免不了計(jì)算文檔中單詞的詞頻,當(dāng)文檔數(shù)量比較少、單詞數(shù)量比較少的時(shí)候,我們的計(jì)算量不會太大,但是當(dāng)這個(gè)數(shù)量上升到一定程度的時(shí)候,程序的計(jì)算效率就會降低下去,這個(gè)時(shí)候可以通過HashTF的形式來解決該問題。HashTF的計(jì)算規(guī)則是:在計(jì)算過程中,不計(jì)算詞頻,而是計(jì)算單詞進(jìn)行hash后的hash值對應(yīng)的樣本的數(shù)量(有的模型中可能存在正則化操作);

HashTF的特點(diǎn):運(yùn)行速度快,但是無法獲取高頻詞,有可能存在單詞碰撞問題(hash值一樣)


Scikit Text Feature Extraction

在scikit中,對于文本數(shù)據(jù)主要提供了三種方式將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型的特征向量,同時(shí)提供了一種對TF-IDF公式改版的公式。所有的轉(zhuǎn)換方式均位于模塊:sklearn.feature_extraction.text


案例:

05 特征工程 - 缺省值填充

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容