六月份學(xué)習(xí)計(jì)劃

上個(gè)月看知乎的時(shí)候,復(fù)旦大學(xué)邱教授發(fā)布的一個(gè)NLP初學(xué)者入門項(xiàng)目,包括NLP四大任務(wù)類型:分類、序列標(biāo)注、文本匹配、文本生成。
https://github.com/FudanNLP/nlp-beginner
當(dāng)時(shí)看了一下,發(fā)現(xiàn)似乎有點(diǎn)難,需要從numpy開始造輪子,然后慢慢轉(zhuǎn)到深度學(xué)習(xí),每個(gè)項(xiàng)目大概兩周時(shí)間。剛好我的課程已經(jīng)結(jié)束了,接下來要做的就是文獻(xiàn)綜述和編程學(xué)習(xí)。自己的編碼能力依舊不行,所以還是從頭再來一遍吧。
一共五個(gè)項(xiàng)目,對應(yīng)的是《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》這本書,里面有ppt和相應(yīng)的練習(xí)資源。涉及到的章節(jié)主要是2、3、6、7、11、15。我會閱讀章節(jié)內(nèi)容,完成課后習(xí)題,閱讀參考論文,然后實(shí)現(xiàn)相應(yīng)任務(wù),看起來好頭疼啊……
目前來看,唯一走對的路就是選擇了pytorch……
六月份希望能夠完成前三個(gè)任務(wù)……

任務(wù)說明頁內(nèi)容(https://github.com/FudanNLP/nlp-beginner

任務(wù)一:基于機(jī)器學(xué)習(xí)的文本分類

實(shí)現(xiàn)基于logistic/softmax regression的文本分類

  1. 參考

    1. 文本分類
    2. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第2/3章
  2. 數(shù)據(jù)集:Classify the sentiment of sentences from the Rotten Tomatoes dataset

  3. 實(shí)現(xiàn)要求:NumPy

  4. 需要了解的知識點(diǎn):

    1. 文本特征表示:Bag-of-Word,N-gram
    2. 分類器:logistic/softmax regression,損失函數(shù)、(隨機(jī))梯度下降、特征選擇
    3. 數(shù)據(jù)集:訓(xùn)練集/驗(yàn)證集/測試集的劃分
  5. 實(shí)驗(yàn):

    1. 分析不同的特征、損失函數(shù)、學(xué)習(xí)率對最終分類性能的影響
    2. shuffle 、batch、mini-batch
  6. 時(shí)間:兩周

任務(wù)二:基于深度學(xué)習(xí)的文本分類

熟悉Pytorch,用Pytorch重寫《任務(wù)一》,實(shí)現(xiàn)CNN、RNN的文本分類;

  1. 參考

    1. https://pytorch.org/
    2. Convolutional Neural Networks for Sentence Classification https://arxiv.org/abs/1408.5882
    3. https://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/
  2. word embedding 的方式初始化

  3. 隨機(jī)embedding的初始化方式

  4. 用glove 預(yù)訓(xùn)練的embedding進(jìn)行初始化 https://nlp.stanford.edu/projects/glove/

  5. 知識點(diǎn):

    1. CNN/RNN的特征抽取
    2. 詞嵌入
    3. Dropout
  6. 時(shí)間:兩周

任務(wù)三:基于注意力機(jī)制的文本匹配

輸入兩個(gè)句子判斷,判斷它們之間的關(guān)系。參考ESIM(可以只用LSTM,忽略Tree-LSTM),用雙向的注意力機(jī)制實(shí)現(xiàn)。

  1. 參考
    1. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第7章
    2. Reasoning about Entailment with Neural Attention https://arxiv.org/pdf/1509.06664v1.pdf
    3. Enhanced LSTM for Natural Language Inference https://arxiv.org/pdf/1609.06038v3.pdf
  2. 數(shù)據(jù)集:https://nlp.stanford.edu/projects/snli/
  3. 實(shí)現(xiàn)要求:Pytorch
  4. 知識點(diǎn):
    1. 注意力機(jī)制
    2. token2token attetnion
  5. 時(shí)間:兩周

任務(wù)四:基于LSTM+CRF的序列標(biāo)注

用LSTM+CRF來訓(xùn)練序列標(biāo)注模型:以Named Entity Recognition為例。

  1. 參考
    1. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第6、11章
    2. https://arxiv.org/pdf/1603.01354.pdf
    3. https://arxiv.org/pdf/1603.01360.pdf
  2. 數(shù)據(jù)集:CONLL 2003,https://www.clips.uantwerpen.be/conll2003/ner/
  3. 實(shí)現(xiàn)要求:Pytorch
  4. 知識點(diǎn):
    1. 評價(jià)指標(biāo):precision、recall、F1
    2. 無向圖模型、CRF
  5. 時(shí)間:兩周

任務(wù)五:基于神經(jīng)網(wǎng)絡(luò)的語言模型

用LSTM、GRU來訓(xùn)練字符級的語言模型,計(jì)算困惑度

  1. 參考
    1. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第6、15章
  2. 數(shù)據(jù)集:poetryFromTang.txt
  3. 實(shí)現(xiàn)要求:Pytorch
  4. 知識點(diǎn):
    1. 語言模型:困惑度等
    2. 文本生成
  5. 時(shí)間:兩周
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容