2021-12-17 第二章1 導(dǎo)言&詞的獨(dú)熱表示

內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》。

本章導(dǎo)言

  • NLP最基礎(chǔ)、最基本的問(wèn)題:
    文本如何在計(jì)算機(jī)內(nèi)表示,才能達(dá)到易于處理和計(jì)算的目的。
  • “詞的表示” 發(fā)展
    ①獨(dú)熱(One-hot)表示
    ② 分布式表示
    ③ 詞向量
  • 本章介紹三大類NLP任務(wù)
    ① 語(yǔ)言模型
    ② 基礎(chǔ)任務(wù):分詞,詞性標(biāo)注,句法分析,語(yǔ)義分析
    ③ 應(yīng)用任務(wù):信息抽取,情感分析,問(wèn)答系統(tǒng),機(jī)器翻譯,對(duì)話系統(tǒng)
  • 上述任務(wù)歸納為文本分類,結(jié)構(gòu)預(yù)測(cè),序列到序列。介紹此三類問(wèn)題解決思路。
  • 最后介紹NLP任務(wù)評(píng)價(jià)方法
    確定答案:準(zhǔn)確率和F值
    不確定答案:BLEU值
    開(kāi)發(fā)答案:人工評(píng)價(jià)

2.1 文本的表示

基于機(jī)器學(xué)習(xí)的NLP技術(shù),本質(zhì)的思想是將文本表示為向量,其中的每一維代表一個(gè)特征

2.1.1 詞的獨(dú)熱表示(One-not Encoding)

  • 獨(dú)熱表示
    使用一個(gè)詞表大小的向量表示一個(gè)詞,然后將詞表(假設(shè)詞表維V,大小為|V|)中的第i個(gè)詞w_i表示向量:
    e_{w_i}[0,0,..., 1,...,0]\in{0,1}^{|V|}
    詞表的第i個(gè)詞的第i維上被設(shè)置維1,其余維均為0。
  • 獨(dú)熱表示的問(wèn)題
    為什么要獨(dú)熱編碼、優(yōu)缺點(diǎn)、 - it610.com
    ① 不同詞使用完全不同的向量進(jìn)行表示,使得兩個(gè)語(yǔ)義很相似的詞,其余弦相似度值卻為0
    ② 機(jī)器學(xué)習(xí)方法中,獨(dú)熱模型會(huì)導(dǎo)致數(shù)據(jù)稀疏(Data Sparsity)。數(shù)據(jù)稀疏會(huì)導(dǎo)致當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模有限時(shí),很多語(yǔ)言現(xiàn)象沒(méi)有被充分學(xué)習(xí)到。
    為了緩解數(shù)據(jù)系數(shù)問(wèn)題,傳統(tǒng)的做法是除了詞自身,再提取更多和詞相關(guān)的泛化特征,如詞性特征、詞義特征和詞聚類特征等。如語(yǔ)義問(wèn)題中引入WordNet等語(yǔ)義詞典。

總結(jié):使用傳統(tǒng)機(jī)器學(xué)習(xí)方法解決自然語(yǔ)言處理問(wèn)題時(shí),研究者的很大一部分精力都用在了挖掘有效的特征上。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容