循環(huán)神經(jīng)網(wǎng)絡(luò)-Question

1. 如何進(jìn)行句子編碼,提取句子的特征向量,有哪幾種方式(CNN、LSTM、Attention),各種方式的優(yōu)缺點(diǎn)。

CNN、LSTM、Transformer是目前流行的三大特征抽取器。

  • 長(zhǎng)距離特征捕獲能力:可以任務(wù)Transformer和LSTM在這方便能力差不多,而CNN則顯著弱于前兩者。(CNN提取長(zhǎng)距離特征能力受到其卷積核感受野的限制;Transformer使用attention計(jì)算距離為1,而且使用Multi-Head越多,特征捕獲能力越強(qiáng)。)
  • 并行計(jì)算能力:并行計(jì)算是RNN的嚴(yán)重缺陷,而Transformer和CNN差不多。

2. 介紹RNN、LSTM、GRU并比較。

RNN:
s_t=f(Ws_{t-1}+Ux_t+b) \\ o_t=g(Vs_t+b)=softmax(Vs_t+b) \tag{2.1}

LSTM:
f_t=\sigma(W^f s_{t-1}+U^f x_t) \\ i_t=\sigma(W^i s_{t-1}+U^i x_t) \\ o_t=\sigma(W^o s_{t-1}+U^o x_t) \\ \tilde{c_t}=tanh(W^cs_{t-1}+U^cx_t) \\ c_t=f_t \circ c_{t-1} + i_t \circ \tilde{c}_t \\ s_t=o_t \circ tanh(c_t) \tag{2.2}

GRU:
r_t=\sigma(W^r s_{t-1}+U^r x_t) \\ z_t=\sigma(W^z s_{t-1}+U^r x_t) \\ \tilde{s_t}=tanh(r_t \circ W^s s_{t-1}+U^s x_t) \\ s_t=(1-z_t)\circ s_{t-1} + z_t \circ \tilde{s_t} \tag{2.3}

總結(jié):RNN存在長(zhǎng)依賴問(wèn)題(梯度消失:使用ReLU激活函數(shù);或者梯度爆炸:使用梯度裁剪;)。LSTM使用三個(gè)門(mén)控單元(遺忘門(mén)、輸入門(mén)、輸出門(mén))解決RNN存在的長(zhǎng)依賴問(wèn)題(主要是長(zhǎng)依賴問(wèn)題中的梯度消失問(wèn)題。)。GRU簡(jiǎn)化了LSTM的結(jié)構(gòu),使用兩個(gè)門(mén)控單元(更新門(mén)、重置門(mén))。

3. LSTM中輸入、隱藏層、輸出層的維度都一樣嗎?

輸入的維度可以與隱藏層和輸出不同。
https://www.cnblogs.com/wushaogui/p/9176617.html

4. LSTM中步長(zhǎng)改變,參數(shù)改變嗎?

LSTM的步長(zhǎng)改變,對(duì)參數(shù)數(shù)量沒(méi)有影響。

5. 估計(jì)一層LSTM的參數(shù)量。

對(duì)于LSTM來(lái)說(shuō),假設(shè)你有一個(gè)時(shí)間步特征維度是n=5,經(jīng)過(guò)該LSTM得到的維度是m=10,這樣就可以算出該LSTM層的神經(jīng)元個(gè)數(shù)為:
Neurons_{all}=4 * [(n+m) * m + m]=4*[(5+10)*10+10]=640

from keras.layers import LSTM
from keras.models import Sequential

time_step=13
featrue=5
hidenfeatrue=10

model=Sequential()
model.add( LSTM(hidenfeatrue,input_shape=(time_step,featrue)))
model.summary()

輸出是:

_________________________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================================
lstm_8 (LSTM)                (None, 10)                640       
=================================================================================
Total params: 640
Trainable params: 640
Non-trainable params: 0
_________________________________________________________________________________

6. textcnn和LSTM相比有什么不同?

textcnn是使用CNN做特征抽取的,提取方式類似于n-gram的特征,忽略了詞序,所以在詞序不敏感的場(chǎng)景效果較好。LSTM可以捕獲序列信息,在情感分析這種詞序很重要的場(chǎng)景中效果更好。

7. LSTM和GRU的區(qū)別,GRU具體簡(jiǎn)化了哪個(gè)門(mén)。

GRU(更新門(mén)、重置門(mén))是LSTM(遺忘門(mén)、輸入門(mén)、輸出門(mén))的變種,簡(jiǎn)化了LSTM的結(jié)構(gòu)(記憶單元)。

1. 如何做數(shù)據(jù)增強(qiáng)?

  • 隨機(jī)drop和shuffle
    比如:“如何評(píng)價(jià) 2017 知乎看山杯機(jī)器學(xué)習(xí)比賽?”,drop后“如何 2017 看山杯機(jī)器學(xué)習(xí)”;shuffle后“2017 機(jī)器學(xué)習(xí)?如何比賽知乎評(píng)價(jià)看山杯”
  • 同義詞替換
    例如,我們將句子“我非常喜歡這部電影”改為“我非常喜歡這個(gè)影片”。
  • 回譯
    我們用機(jī)器翻譯把一段英語(yǔ)翻譯成另一種語(yǔ)言,然后再翻譯回英語(yǔ)。
  • 預(yù)訓(xùn)練的語(yǔ)言模型
  • 生成對(duì)抗網(wǎng)絡(luò)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容