AttentionCellWrapper的疑問 關(guān)注Attention機(jī)制的同學(xué)們都知道,Attention最初是在Encoder-Decoder結(jié)構(gòu)中由Bahdanau提出...
前面兩篇分別梳理了下BERT的原理和BERT的訓(xùn)練,接著前面的內(nèi)容,梳理下BERT是如何在下游任務(wù)上運(yùn)用的。 原理就是上面這個(gè)圖了。四種任務(wù),實(shí)際上從他的訓(xùn)練模型的代碼和...
寫這篇文章的時(shí)候,跳過了兩個(gè)專題,因?yàn)锽ERT的確太火了,也比較實(shí)用吧,就拿最近的閱讀理解比賽來說,幾乎霸榜了,比如下面這個(gè)圖: 之所以NLP這么多任務(wù)都會(huì)被刷新紀(jì)錄,是因?yàn)?..
0點(diǎn)52分,唉睡不著。 剛讀完第二遍《黃金時(shí)代》。相比上一次的一臉懵逼,這次像是摸到了一點(diǎn)頭緒。 以前讀錢鐘書,心是暖的;讀春上,心是軟的;這次讀王小波,心是涼的。黃金的時(shí)代...