神經(jīng)網(wǎng)絡(luò)擁有很強(qiáng)的預(yù)測能力,但它們往往無法知道自己的預(yù)測何時(shí)可能出錯。與此密切相關(guān)的是out-of-distribution檢測任務(wù),在這個(gè)任務(wù)中,模型必須確定輸入是否超出了...
神經(jīng)網(wǎng)絡(luò)擁有很強(qiáng)的預(yù)測能力,但它們往往無法知道自己的預(yù)測何時(shí)可能出錯。與此密切相關(guān)的是out-of-distribution檢測任務(wù),在這個(gè)任務(wù)中,模型必須確定輸入是否超出了...
文章主要介紹了兩種Multi-dimensional Self-Attention機(jī)制和Directional Self-Attention機(jī)制。在此基礎(chǔ)上設(shè)計(jì)了Direct...
文章認(rèn)為普通的attention存在以下兩個(gè)問題: 對整個(gè)序列使用加權(quán)和來計(jì)算注意力信息,會使相鄰token的注意力被削弱。舉個(gè)栗子:Amy eat a banana, an...
文章的motivation是將soft attention和hard attention結(jié)合起來,使其保留二者的優(yōu)點(diǎn),同時(shí)丟棄二者的缺點(diǎn)。具體地說,hard attentio...
作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio 來源: ICLR 2018 鏈接...
介紹 我們使用一些傳統(tǒng)的監(jiān)督學(xué)習(xí)方法做分類的時(shí)候,往往是訓(xùn)練樣本規(guī)模越大,分類的效果就越好。但是在現(xiàn)實(shí)生活的很多場景中,標(biāo)記樣本的獲取是比較困難的,這需要領(lǐng)域內(nèi)的專家來進(jìn)行人...
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Pos...
詞表示是自然語言處理的基礎(chǔ),一個(gè)好的詞向量在很大程度上決定了后續(xù)任務(wù)的上限。本文是我最近學(xué)習(xí)該部分內(nèi)容的筆記,主要參照的是基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究一文,穿插...