神經網絡擁有很強的預測能力,但它們往往無法知道自己的預測何時可能出錯。與此密切相關的是out-of-distribution檢測任務,在這個任務...
BERT是在OpenAI GPT基礎上發(fā)展起來的,是一種動態(tài)詞向量技術。與傳統(tǒng)靜態(tài)詞向量不同,動態(tài)詞向量可以根據具體的上下文信息,動態(tài)生成詞向量...
作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio 來...
介紹 我們使用一些傳統(tǒng)的監(jiān)督學習方法做分類的時候,往往是訓練樣本規(guī)模越大,分類的效果就越好。但是在現實生活的很多場景中,標記樣本的獲取是比較困難...
這篇文章與Self-Attention with Relative Position Representations和Convolutional...
Introduction 作者認為好的word representation模型應該同時兼顧兩個問題:一是詞語用法在語義和語法上的復雜特點;二是...
這篇文章雖然寫的是Image Recognition,但是它提出殘差網絡的思想在其他任務中也有很多應用,具有廣泛的借鑒意義。 背景 隨著網絡結構...
這篇文章作者是word2vec的作者,主要做的工作是paragraph vector,就是把paragraph變成一個固定長度的向量。其中大量的...
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention wi...