沒有原創(chuàng),都是各處粘貼匯總的,只是為了自己梳理以下結(jié)構(gòu)。
Attention
monotonic attention
一、原理
An attention function can be described as mapping a query and a set of key-value pairs to an output,where the query, keys, values, and output are all vectors
1. Recurrent Models of Visual Attention - deepmind 2014
????在RNN模型上使用了attention機(jī)制來進(jìn)行圖像分類
2.Neural Machine Translation by Jointly Learning to Align and Translate.
????這篇論文算是在NLP中第一個(gè)使用attention機(jī)制的工作。
3.Effective Approaches to Attention-based Neural Machine Translation.
????這篇論文是繼上一篇論文后,一篇很具代表性的論文,他們的工作告訴了大家attention在RNN中可以如何進(jìn)行擴(kuò)展,這篇論文對(duì)后續(xù)各種基于attention的模型在NLP應(yīng)用起到了很大的促進(jìn)作用。在論文中他們提出了兩種attention機(jī)制,一種是全局(global)機(jī)制,一種是局部(local)機(jī)制。
4.ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs
????這篇論文是attention在CNN中較早的探索性工作.ABCNN筆記
5.A Structured Self-attentive Sentence Embedding ICLR-2017
keywords:[self attention]
????這篇文章提出了使用self-attention技術(shù)來生成可解釋句子向量的模型。通常我們使用向量(vector)來表示單詞、短語或者句子向量,在這篇文章中,作者提出可以使用二維句子來表示句子,矩陣的每一行表示句子的不同部分.
Self Attention與傳統(tǒng)的Attention機(jī)制非常的不同:傳統(tǒng)的Attention是基于source端和target端的隱變量(hidden state)計(jì)算Attention的,得到的結(jié)果是源端的每個(gè)詞與目標(biāo)端每個(gè)詞之間的依賴關(guān)系。但Self Attention不同,它分別在source端和target端進(jìn)行,僅與source input或者target input自身相關(guān)的Self Attention,捕捉source端或target端自身的詞與詞之間的依賴關(guān)系;然后再把source端的得到的self Attention加入到target端得到的Attention中,捕捉source端和target端詞與詞之間的依賴關(guān)系。因此,self Attention Attention比傳統(tǒng)的Attention mechanism效果要好,主要原因之一是,傳統(tǒng)的Attention機(jī)制忽略了源端或目標(biāo)端句子中詞與詞之間的依賴關(guān)系,相對(duì)比,self Attention可以不僅可以得到源端與目標(biāo)端詞與詞之間的依賴關(guān)系,同時(shí)還可以有效獲取源端或目標(biāo)端自身詞與詞之間的依賴關(guān)系
5.Attention is all you need
6.Show, Attend and Tell: Neural Image Caption Generation with Visual
?????[image caption]? ??
????基于序列生成的Attention機(jī)制可以應(yīng)用在計(jì)算機(jī)視覺相關(guān)的任務(wù)上,幫助卷積神經(jīng)網(wǎng)絡(luò)重點(diǎn)關(guān)注圖片的一些局部信息來生成相應(yīng)的序列,典型的任務(wù)就是對(duì)一張圖片進(jìn)行文本描述。給定一張圖片作為輸入,輸出對(duì)應(yīng)的英文文本描述。Attention機(jī)制被用在輸出輸出序列的每個(gè)詞時(shí)會(huì)專注考慮圖片中不同的局部信息。Show, Attend and Tell 論文閱讀筆記
6.2?Image Captioning with Semantic Attention.
????加入attention機(jī)制的image caption問題
7.Reasoning about Entailment with Neural Attention, 2016
????Attention機(jī)制被用于關(guān)聯(lián)假設(shè)和前提描述文本之間詞與詞的關(guān)系。我們提出了一種基于LSTM的神經(jīng)網(wǎng)絡(luò)模型,和把每個(gè)輸入文本都獨(dú)立編碼為一個(gè)語義向量的模型不同的是,該模型同時(shí)讀取前提和假設(shè)兩個(gè)描述的文本序列并判斷假設(shè)是否成立。我們?cè)谀P椭屑尤肓薃ttention機(jī)制來找出假設(shè)和前提文本中詞/短語之間的對(duì)齊關(guān)系。
8.Attention-Based Models for Speech Recognition, 2015.
????Attention機(jī)制被用于對(duì)輸出序列的每個(gè)音素和輸入語音序列中一些特定幀進(jìn)行關(guān)聯(lián)。一種基于Attention機(jī)制的端到端可訓(xùn)練的語音識(shí)別模型,能夠結(jié)合文本內(nèi)容和位置信息來選擇輸入序列中下一個(gè)進(jìn)行編碼的位置。該模型有一個(gè)優(yōu)點(diǎn)是能夠識(shí)別長(zhǎng)度比訓(xùn)練數(shù)據(jù)長(zhǎng)得多的語音輸入。
9.A Neural Attention Model for Abstractive Sentence Summarization, 2015
????給定一篇英文文章作為輸入序列,輸出一個(gè)對(duì)應(yīng)的摘要序列。Attention機(jī)制被用于關(guān)聯(lián)輸出摘要中的每個(gè)詞和輸入中的一些特定詞。在最近神經(jīng)網(wǎng)絡(luò)翻譯模型的發(fā)展基礎(chǔ)之上,提出了一個(gè)用于生成摘要任務(wù)的基于Attention的神經(jīng)網(wǎng)絡(luò)模型。通過將這個(gè)概率模型與一個(gè)生成式方法相結(jié)合來生成出準(zhǔn)確的摘要。
10.Attention and Augmented Recurrent Neural Networks
11.Hierarchical Attention Networks for Document Classification
????本文采用document級(jí)分類,即document由sentence組成,而sentence由word組成,因此天然的具有層級(jí)關(guān)系。以word為粒度輸入網(wǎng)絡(luò)抽取word級(jí)特征得到表示sentence的特征向量;然后將sentence級(jí)向量輸入網(wǎng)絡(luò)抽取sentence級(jí)特征得到最終的document級(jí)特征,然后將document特征通過一個(gè)線性表示和softmax。為了給與不同的word和不同的sentence分配不同的權(quán)重,論文設(shè)計(jì)一個(gè)層級(jí)架構(gòu)的attention機(jī)制用于提升模型的性能。
12.Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition
這種網(wǎng)絡(luò)可以更精準(zhǔn)地找到圖像中有判別力的子區(qū)域,然后采用高分辨率、精細(xì)化特征描述這些區(qū)域,進(jìn)而大大提高精細(xì)化物體分類的精度。
12.list
????從2017年頂會(huì)論文看Attention Model
????http://mini.eastday.com/mobile/171011124829097.html
????ICLR 2017:注意力與記憶網(wǎng)絡(luò)
????http://baijiahao.baidu.com/s?id=1562210686081237&wfr=spider&for=pc
13.CVPR 2017: Attention Models
https://github.com/ArcherFMY/Paper_Reading_List/tree/master/CVPR2017-Attention-model
14.Attentive Memory Networks: Efficient Machine Reading for Conversational Search
rest:
Attention and memory in deep learning and NLP
Survey on Attention-based Models Applied in NLP
What is exactly the attention mechanism introduced to RNN(Quora問答)
What is Attention Mechanism in Neural Networks?
14.Gentle Introduction to Global Attention for Encoder-Decoder Recurrent Neural Networks
https://machinelearningmastery.com/global-attention-for-encoder-decoder-recurrent-neural-networks/
list:
模型匯總24 - 深度學(xué)習(xí)中Attention Mechanism詳細(xì)介紹:原理、分類及應(yīng)用https://zhuanlan.zhihu.com/p/31547842
Attention!神經(jīng)網(wǎng)絡(luò)中的注意機(jī)制到底是什么https://mp.weixin.qq.com/s/VotQNDmJiBUnNS116IzaLQ
Memory:
1.Structured Attention Networks
2.Neural Turing Machines-NTM系列
http://blog.csdn.net/rtygbwwwerr/article/details/50548311
讀《Neural Turing Machines》:??https://zhuanlan.zhihu.com/p/22513016
3.A Closer Look at Memorization in Deep Networks
4.記憶網(wǎng)絡(luò)之Memory Networks
https://zhuanlan.zhihu.com/p/29590286