內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》。
本章導(dǎo)言
- NLP最基礎(chǔ)、最基本的問(wèn)題:
文本如何在計(jì)算機(jī)內(nèi)表示,才能達(dá)到易于處理和計(jì)算的目的。 - “詞的表示” 發(fā)展
①獨(dú)熱(One-hot)表示
② 分布式表示
③ 詞向量 - 本章介紹三大類NLP任務(wù)
① 語(yǔ)言模型
② 基礎(chǔ)任務(wù):分詞,詞性標(biāo)注,句法分析,語(yǔ)義分析
③ 應(yīng)用任務(wù):信息抽取,情感分析,問(wèn)答系統(tǒng),機(jī)器翻譯,對(duì)話系統(tǒng) - 上述任務(wù)歸納為文本分類,結(jié)構(gòu)預(yù)測(cè),序列到序列。介紹此三類問(wèn)題解決思路。
- 最后介紹NLP任務(wù)評(píng)價(jià)方法
確定答案:準(zhǔn)確率和F值
不確定答案:BLEU值
開(kāi)發(fā)答案:人工評(píng)價(jià)
2.1 文本的表示
基于機(jī)器學(xué)習(xí)的NLP技術(shù),本質(zhì)的思想是將文本表示為向量,其中的每一維代表一個(gè)特征
2.1.1 詞的獨(dú)熱表示(One-not Encoding)
- 獨(dú)熱表示
使用一個(gè)詞表大小的向量表示一個(gè)詞,然后將詞表(假設(shè)詞表維,大小為
)中的第
個(gè)詞
表示向量:
詞表的第個(gè)詞的第
維上被設(shè)置維1,其余維均為0。
- 獨(dú)熱表示的問(wèn)題
為什么要獨(dú)熱編碼、優(yōu)缺點(diǎn)、 - it610.com
① 不同詞使用完全不同的向量進(jìn)行表示,使得兩個(gè)語(yǔ)義很相似的詞,其余弦相似度值卻為0
② 機(jī)器學(xué)習(xí)方法中,獨(dú)熱模型會(huì)導(dǎo)致數(shù)據(jù)稀疏(Data Sparsity)。數(shù)據(jù)稀疏會(huì)導(dǎo)致當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模有限時(shí),很多語(yǔ)言現(xiàn)象沒(méi)有被充分學(xué)習(xí)到。
為了緩解數(shù)據(jù)系數(shù)問(wèn)題,傳統(tǒng)的做法是除了詞自身,再提取更多和詞相關(guān)的泛化特征,如詞性特征、詞義特征和詞聚類特征等。如語(yǔ)義問(wèn)題中引入WordNet等語(yǔ)義詞典。
總結(jié):使用傳統(tǒng)機(jī)器學(xué)習(xí)方法解決自然語(yǔ)言處理問(wèn)題時(shí),研究者的很大一部分精力都用在了挖掘有效的特征上。