色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<sup id="cphbo"></sup>

<bdo id="cphbo"><address id="cphbo"></address></bdo>

登錄注冊(cè)寫文章

5 文本表示

空無(wú)_ae80

5 文本表示

離散表示

One-hot

One-hot表示很容易理解。在一個(gè)語(yǔ)料庫(kù)中，給每個(gè)字/詞編碼一個(gè)索引，根據(jù)索引進(jìn)行one-hot表示。

John likes to watch movies. Mary likes too.

John also likes to watch football games.

如果只需要表示出上面兩句話中的單詞，可以只對(duì)其中出現(xiàn)過(guò)的單詞進(jìn)行索引編碼：

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7,

"games": 8, "Mary": 9, "too": 10}

其中的每個(gè)單詞都可以用one-hot方法表示：

John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

當(dāng)語(yǔ)料庫(kù)非常大時(shí)，需要建立一個(gè)很大的字典對(duì)所有單詞進(jìn)行索引編碼。比如100W個(gè)單詞，每個(gè)單詞就需要表示成100W維的向量，而且這個(gè)向量是很稀疏的，只有一個(gè)地方為1其他全為0。還有很重要的一點(diǎn)，這種表示方法無(wú)法表達(dá)單詞與單詞之間的相似程度

Bag of Words

詞袋表示，也稱為計(jì)數(shù)向量表示(Count Vectors)。文檔的向量表示可以直接用單詞的向量進(jìn)行求和得到。

John likes to watch movies? ?also football games? ?Mary? too

John likes to watch movies. Mary likes too.? -->> [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

John also likes to watch football games.? ? -->> [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

橫向來(lái)看我們把每條文本表示成了一個(gè)向量，縱向來(lái)看，不同文檔中單詞的個(gè)數(shù)又可以構(gòu)成某個(gè)單詞的詞向量。如上文中的"John"縱向表示成[1,1]。

無(wú)序,無(wú)語(yǔ)法

功能(1)tf-idf,

? ? ? ? ? (2)文本建模和分類

Bi-gram和N-gram

與詞袋模型原理類似，Bi-gram將相鄰兩個(gè)單詞編上索引，N-gram將相鄰N個(gè)單詞編上索引。

為 Bi-gram建立索引：

{"John likes”: 1,

"likes to”: 2,

"to watch”: 3,

"watch movies”: 4,

"Mary likes”: 5,

"likes too”: 6,

"John also”: 7,

"also likes”: 8,

"watch football": 9,

"football games": 10}

這樣，原來(lái)的兩句話就可以表示為：

John likes to watch movies. Mary likes too.? -->> [1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

John also likes to watch football games.? ? -->> [0, 1, 1, 0, 0, 0, 1, 1, 1, 1]

這種做法的優(yōu)點(diǎn)是考慮了詞的順序，但是缺點(diǎn)也很明顯，就是造成了詞向量的急劇膨脹。

TF-IDF

上面的詞袋模型和Bi-gram、N-gram模型是基于計(jì)數(shù)得到的，而TF-IDF則是基于頻率統(tǒng)計(jì)得到的。TF-IDF的分?jǐn)?shù)代表了詞語(yǔ)在當(dāng)前文檔和整個(gè)語(yǔ)料庫(kù)中的相對(duì)重要性。TF-IDF 分?jǐn)?shù)由兩部分組成：第一部分是詞語(yǔ)頻率（Term Frequency），第二部分是逆文檔頻率（Inverse Document Frequency）。其中計(jì)算語(yǔ)料庫(kù)中文檔總數(shù)除以含有該詞語(yǔ)的文檔數(shù)量，然后再取對(duì)數(shù)就是逆文檔頻率。

TF(t)= 該詞語(yǔ)在當(dāng)前文檔出現(xiàn)的次數(shù) / 當(dāng)前文檔中詞語(yǔ)的總數(shù)

IDF(t)= log_e（文檔總數(shù) / 出現(xiàn)該詞語(yǔ)的文檔總數(shù)）

?根據(jù)公式可以看出，TF 判斷的是該字/詞語(yǔ)是否是當(dāng)前文檔的重要詞語(yǔ)，但是如果只用詞語(yǔ)出現(xiàn)頻率來(lái)判斷其是否重要可能會(huì)出現(xiàn)一個(gè)問(wèn)題，就是有些通用詞可能也會(huì)出現(xiàn)很多次，如：a、the、at、in等。當(dāng)然我們對(duì)文本進(jìn)行預(yù)處理的時(shí)候一般會(huì)去掉這些所謂的stopwords，即停用詞，但仍然會(huì)有很多通用詞無(wú)法避免地出現(xiàn)在很多文檔，而其實(shí)它們不是那么重要。

逆文檔頻率（IDF）用于判斷是否在很多文檔中都出現(xiàn)了此詞語(yǔ)，即很多文檔或所有文檔中都出現(xiàn)的就是通用詞。出現(xiàn)該詞語(yǔ)的文檔越多，IDF越小，其作用是抑制通用詞的重要性。

將上述求出的 TF 和 IDF 相乘記得到詞語(yǔ)在當(dāng)前文檔和整個(gè)語(yǔ)料庫(kù)中的相對(duì)重要性。TF-IDF與一個(gè)詞在當(dāng)前文檔中的出現(xiàn)次數(shù)成正比，與該詞在整個(gè)語(yǔ)料庫(kù)中的出現(xiàn)次數(shù)成反比

TF-IDF算法的優(yōu)點(diǎn)是簡(jiǎn)單快速，結(jié)果比較符合實(shí)際情況。缺點(diǎn)是，單純以"詞頻"衡量一個(gè)詞的重要性，不夠全面，有時(shí)重要的詞可能出現(xiàn)次數(shù)并不多。而且，這種算法無(wú)法體現(xiàn)詞的位置信息，出現(xiàn)位置靠前的詞與出現(xiàn)位置靠后的詞，都被視為重要性相同，這是不正確的。

可以使用sklearn中的TfidfVectorizer生成TF-IDF特征。

共現(xiàn)矩陣 (Cocurrence matrix)

首先解釋下“共現(xiàn)”，即共同出現(xiàn)，如一句話中共同出現(xiàn)，或一篇文章中共同出現(xiàn)。這里給共同出現(xiàn)的距離一個(gè)規(guī)范——窗口，如果窗口寬度是2，那就是在當(dāng)前詞的前后各2個(gè)詞的范圍內(nèi)共同出現(xiàn)。可以想象，其實(shí)是一個(gè)總長(zhǎng)為5的窗口依次掃過(guò)所有文本，同時(shí)出現(xiàn)在其中的詞就說(shuō)它們共現(xiàn)。

John likes to watch movies.

John likes to play basketball.

上面兩句話設(shè)窗口寬度為1，則共現(xiàn)矩陣如下：

可以看到，當(dāng)前詞與自身不存在共現(xiàn)，共現(xiàn)矩陣實(shí)際上是對(duì)角矩陣。

實(shí)際應(yīng)用中，我們用共現(xiàn)矩陣的一行（列）作為某個(gè)詞的詞向量，其向量維度還是會(huì)隨著字典大小呈線性增長(zhǎng)，而且存儲(chǔ)共生矩陣可能需要消耗巨大的內(nèi)存。一般配合PCA或SVD將其進(jìn)行降維，如將原來(lái) m×n 的矩陣降為 m×r的矩陣，其中 r<n，即將詞向量的長(zhǎng)度進(jìn)行縮減。

下面是奇異值分解的步驟。

分布式表示

word2vec

http://www.itdecent.cn/p/471d9bfbd72f

glove

https://blog.csdn.net/linchuhai/article/details/97135612

fastText

https://blog.csdn.net/feilong_csdn/article/details/88655927

elmo

https://zhuanlan.zhihu.com/p/51679783

最后編輯于：2020.08.10 11:09:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

晋城| 绥芬河市| 怀柔区| 漠河县| 丹巴县| 桃园市| 青海省| 张家川| 嵊州市| 罗平县| 洪雅县| 江达县| 大埔县| 射阳县| 和田县| 博客| 永嘉县| 海城市| 玛多县| 肃宁县| 南岸区| 治县。| 吴旗县| 文安县| 古浪县| 准格尔旗| 广州市| 子长县| 武隆县| 嘉兴市| 汾阳市| 泰顺县| 中阳县| 澄江县| 上高县| 上犹县| 正定县| 安徽省| 灵宝市| 镇坪县| 得荣县|

<dfn id="narkq"><tbody id="narkq"></tbody></dfn>

<center id="narkq"><em id="narkq"><span id="narkq"></span></em></center>