內(nèi)容來(lái)自哈工大車(chē)萬(wàn)翔老師團(tuán)隊(duì)的作品《自然語(yǔ)言處理：基于預(yù)訓(xùn)練模型的方法》。

本章導(dǎo)言

NLP最基礎(chǔ)、最基本的問(wèn)題：
文本如何在計(jì)算機(jī)內(nèi)表示，才能達(dá)到易于處理和計(jì)算的目的。
“詞的表示” 發(fā)展
①獨(dú)熱（One-hot）表示
② 分布式表示
③ 詞向量
本章介紹三大類NLP任務(wù)
① 語(yǔ)言模型
② 基礎(chǔ)任務(wù)：分詞，詞性標(biāo)注，句法分析，語(yǔ)義分析
③ 應(yīng)用任務(wù)：信息抽取，情感分析，問(wèn)答系統(tǒng)，機(jī)器翻譯，對(duì)話系統(tǒng)
上述任務(wù)歸納為文本分類，結(jié)構(gòu)預(yù)測(cè)，序列到序列。介紹此三類問(wèn)題解決思路。
最后介紹NLP任務(wù)評(píng)價(jià)方法
確定答案：準(zhǔn)確率和F值
不確定答案：BLEU值
開(kāi)發(fā)答案：人工評(píng)價(jià)

2.1 文本的表示

基于機(jī)器學(xué)習(xí)的NLP技術(shù)，本質(zhì)的思想是將文本表示為向量，其中的每一維代表一個(gè)特征

獨(dú)熱表示
使用一個(gè)詞表大小的向量表示一個(gè)詞，然后將詞表（假設(shè)詞表維 $V$ ，大小為 $|V|$ ）中的第 $i$ 個(gè)詞 $w_i$ 表示向量：
$e_{w_i}[0,0,..., 1,...,0]\in{0,1}^{|V|}$
詞表的第 $i$ 個(gè)詞的第 $i$ 維上被設(shè)置維1，其余維均為0。
獨(dú)熱表示的問(wèn)題
為什么要獨(dú)熱編碼、優(yōu)缺點(diǎn)、 - it610.com
① 不同詞使用完全不同的向量進(jìn)行表示，使得兩個(gè)語(yǔ)義很相似的詞，其余弦相似度值卻為0
② 機(jī)器學(xué)習(xí)方法中，獨(dú)熱模型會(huì)導(dǎo)致數(shù)據(jù)稀疏（Data Sparsity）。數(shù)據(jù)稀疏會(huì)導(dǎo)致當(dāng)訓(xùn)練數(shù)據(jù)規(guī)模有限時(shí)，很多語(yǔ)言現(xiàn)象沒(méi)有被充分學(xué)習(xí)到。
為了緩解數(shù)據(jù)系數(shù)問(wèn)題，傳統(tǒng)的做法是除了詞自身，再提取更多和詞相關(guān)的泛化特征，如詞性特征、詞義特征和詞聚類特征等。如語(yǔ)義問(wèn)題中引入WordNet等語(yǔ)義詞典。