2021-04-10 ch7 文本表示

文本表示基礎(chǔ)

單詞和句子的表示

迭代1:one-hot表示
詞庫(kù):[今天 天氣 很好]
句子1:[今天 天氣 很好] = [1,1,1]
缺點(diǎn):沒(méi)有順序和權(quán)重;稀疏;無(wú)法比較語(yǔ)義相似度

迭代2:出現(xiàn)次數(shù)
句子1:[今天 天氣 很好 很好 啊] = [1,1,2]
缺點(diǎn):所以,如果只記錄單詞的個(gè)數(shù)也是不夠的,我們還需要考慮單詞的權(quán)重,也可以認(rèn)為是質(zhì)量。這有點(diǎn)類似于,一個(gè)人有很多朋友不代表這個(gè)人有多厲害,還需要社交的質(zhì)量,其實(shí)是同一個(gè)道理。 那如何把這種所謂的“質(zhì)量”引入到表示中呢?答案是tf-idf

迭代3:TF-IDF
首先,單詞在該篇文檔中的頻率要高,同時(shí),單詞不能出現(xiàn)在過(guò)多的文檔中。例如,“的”會(huì)100%出現(xiàn)在任何一篇文檔中,因此 idf("的") = log(100/100) = 0
向量長(zhǎng)度為詞庫(kù)的長(zhǎng)度
對(duì)每一個(gè)詞庫(kù)的單詞進(jìn)行計(jì)算tfidf(w)

image.png

計(jì)算向量相似度
歐氏距離,沒(méi)有考慮方向;通常使用 余弦相似度

import numpy as np
def cos_sim(a, b):
    """給定兩個(gè)向量,a和b,計(jì)算它倆之間的余弦相似度
    """
    dot_product = np.dot(a,b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b)

詞向量基礎(chǔ)

image.png

image.png

詞向量到句向量

mean_pooling

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 文本表示的意思是把字詞處理成向量或矩陣,以便計(jì)算機(jī)能進(jìn)行處理。文本表示是自然語(yǔ)言處理的開(kāi)始環(huán)節(jié)。 文本表示按照細(xì)粒...
    dingtom閱讀 2,727評(píng)論 0 1
  • 自然語(yǔ)言處理中的輿情分析、情感分析有很多種方法,但是基于模型的方法對(duì)語(yǔ)料的質(zhì)量要求高,如果不能弄到高質(zhì)量的語(yǔ)料,很...
    wong11閱讀 15,410評(píng)論 4 18
  • 一、文本特征 (一)基本文本特征提取 詞語(yǔ)數(shù)量常,負(fù)面情緒評(píng)論含有的詞語(yǔ)數(shù)量比正面情緒評(píng)論更多。 字符數(shù)量常,負(fù)面...
    cherryleechen閱讀 1,963評(píng)論 0 1
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂(lè)有人憂愁,有人驚喜有人失落,有的覺(jué)得收獲滿滿有...
    陌忘宇閱讀 8,814評(píng)論 28 54
  • 信任包括信任自己和信任他人 很多時(shí)候,很多事情,失敗、遺憾、錯(cuò)過(guò),源于不自信,不信任他人 覺(jué)得自己做不成,別人做不...
    吳氵晃閱讀 6,355評(píng)論 4 8

友情鏈接更多精彩內(nèi)容