一份關(guān)于 LQR 的簡(jiǎn)單易懂的入門級(jí)教程,它是最優(yōu)控制的基礎(chǔ)概念。 我將會(huì)在這篇文章中討論最優(yōu)控制,并會(huì)更具體的討論性能非常優(yōu)秀的線性二次調(diào)節(jié)器...
偽隨機(jī)數(shù)算法 平方取中法(Middle-square method)是個(gè)產(chǎn)生偽隨機(jī)數(shù)的方法,由馮·諾伊曼在1946年提出。 算法: 即 平方取中...
卷積網(wǎng)絡(luò) 這里討論通過卷積的方式表達(dá)CNN反向傳播 池化層 假設(shè)我們的池化區(qū)域大小是2x2,并且下一層的梯度為: 如果是MAX,假設(shè)我們之前在前...
在計(jì)算機(jī)上編程做信號(hào)處理時(shí),我們通常用的是FFT, 但是開始學(xué)信號(hào)處理時(shí),一般是從FS開始的。所以這里整理一下從FS到FFT“演變”的過程。以下...
說到噪聲對(duì)比估計(jì),或者“負(fù)采樣”,大家可能立馬就想到了Word2Vec。事實(shí)上,它的含義遠(yuǎn)不止于此,噪音對(duì)比估計(jì)(NCE, Noise Cont...
The Communication Problem 當(dāng)將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并行化到許多GPU上時(shí),你必須選擇如何將不同的操作分配到你可用的不同GPU...
什么是自然梯度 首先,我們必須理解標(biāo)準(zhǔn)梯度下降。 假設(shè)我們有一個(gè)神經(jīng)網(wǎng)絡(luò),由一些參數(shù)向量參數(shù)化。我們想要調(diào)整這個(gè)網(wǎng)絡(luò)的參數(shù),所以網(wǎng)絡(luò)的輸出在某種...
在這一章中,我們討論策略梯度 Policy Approximation and its Advantages the approximate p...
資格跡是增強(qiáng)學(xué)習(xí)的一個(gè)基本的機(jī)制。比如在流行的TD(k)算法中,k涉及到資格跡的使用。幾乎所有的時(shí)間差分算法如Q-Learning,Sarsa,...