最近在看王喆的知乎專欄,第三、四、十三篇都是Youtube的經(jīng)典論文DNN:https://zhuanlan.zhihu.com/p/52169...
好久沒寫了,看了一下中間隔了居然有一個(gè)月,這種沒有活水流入的生活,確實(shí)會(huì)讓人feel bad; 這篇要講到DQN,主要是Nature2015那版...
Q-learning: 這里并不知道為啥每一輪都要初始化s,但是在每一輪需要采取動(dòng)作的每一步(step)要做的事情如下: 根據(jù)epsilon-g...
from:http://www.itdecent.cn/p/295d7a8ebe48 都說要做強(qiáng)化學(xué)習(xí)先要搞明白馬爾可夫決策過程,也還沒明白為...
通過上一節(jié)的zhihu鏈接明白了從這開始講ee,以及后面講rl的原因,都是源自這個(gè)zhihu專欄:https://zhuanlan.zhihu....
bandit基礎(chǔ)看了一下并不是很難,先記錄一下,文集里沒有貼個(gè)公眾號(hào)地址吧:https://mp.weixin.qq.com/s?src=11&...
參考:http://www.itdecent.cn/p/6173dbde4f53 NCF全稱Neural Collaborative Filt...
文集里的下一篇是AUC,應(yīng)該也是我看的第一篇了,重新看了之后,梳理了一些易忘的和以前沒考慮過的,再拎出來寫一下。 1.為什么AUC的最低值為0....
Deepfm是把FM和DNN并行了,但是其實(shí)FM和DNN還有一種串行模式,接下來要講的這三種就是; 先說PNN,老規(guī)矩先放圖(https://w...