重要鏈接
Introduction
作者認為好的詞表征應(yīng)該同時兼顧兩個問題:一是單詞在語義和語法上的復(fù)雜特點;二是隨著語言環(huán)境的改變,這些用法也應(yīng)該隨之變化。
為此,作者提出了 deep contextualized word representation (深度情景化詞表征)。
這種算法的特點是每個詞的表征都是整個輸入語句的函數(shù)。
具體做法:
現(xiàn)在大語料上以 language model為目標訓(xùn)練處 Bi-LSTM模型,利用它產(chǎn)生詞語的表征(pre-trained biLM模型);(ELMo因此得名 embedding from language model)
為了應(yīng)用在下游NLP任務(wù)重,一般先利用下游任務(wù)的語料庫(此時,忽略掉label)進行 language model的微調(diào)(fine tuning),這種微調(diào)相當于一種 domain transfer;
然后才是利用label的信息進行supervised learning。
ELMo表征是“深”的,就是說它們是BiLM的所有層的內(nèi)部表征的函數(shù)。這樣做的好處是能夠產(chǎn)生豐富的詞語表征。高層的LSTM的狀態(tài)可以捕捉詞語以一種和語境相關(guān)的那方面的特征(比如可以應(yīng)用在語義消歧),而地層的LSTM可以找到語法方面的特征(比如可以做詞性標注)。如果把它們結(jié)合在一起,會在下游的NLP任務(wù)中顯出優(yōu)勢。
bidirectional language models
ELMo :??embedding from language model,確切說是來自于bidirectional language models