【JF Lu】 Deep Network Approximation for Smooth Functions

目標(biāo)是用Relu網(wǎng)絡(luò)去逼近更加光滑的函數(shù)空間C^{s}\left([0,1]^u0z1t8os\right),在L^{\infty}范數(shù)的意義下。

定理1.1簡(jiǎn)單而言是說(shuō):可以用寬度\mathcal{O}(N \ln N)?深度\mathcal{O}(L \ln L)?的Relu FNN去接近f \in C^{s}\left([0,1]^u0z1t8os\right),而且接近誤差是:\mathcal{O}\left(\|f\|_{C^{s}\left([0,1]^u0z1t8os\right)} N^{-2 s / d} L^{-2 s / d}\right)

這是一個(gè)非漸近的結(jié)果,而且同時(shí)顯示了深度和寬度在網(wǎng)絡(luò)逼近能力的中的影響。

這個(gè)誤差是漸近最優(yōu)的。


1.光滑性確實(shí)提高了接近的效率。

2.如果足夠光滑,s大于d,那么就不會(huì)有維數(shù)災(zāi)難。

3.如果把寬度和深度的要求寫成比較簡(jiǎn)潔的形式就是如下的版本:


4.如果突出逼近誤差,并且合并考慮網(wǎng)絡(luò)參數(shù)數(shù)量,就是以下的定理:





本文作者的幾篇文章關(guān)于各種函數(shù)空間的Relu FNN逼近情況的非漸近估計(jì)。





定理1.1的證明思路:

引入了trifling region

引入region區(qū)域的主要原因是Relu FNN是連續(xù)的,所以不能很好地一致逼近階梯函數(shù)。

利用以下的兩個(gè)定理:

定理2.1:顯示了可以在trifling 區(qū)域之外用Relu FNN 逼近的話,通過(guò)增大Relu FNN的規(guī)??梢栽趖rifling 里面也很好地逼近。

這個(gè)定理的證明思路是:顯示middle 函數(shù)是可以用Relu寫成的,然后利用小的偏移產(chǎn)生的三個(gè)函數(shù)的middle取說(shuō)明可以在整體上逼近得很好。


定理2.2:顯示了可以有Relu FNN 在trifling 區(qū)域以外一致逼近。

證明的思路按照以下的步驟:

首先既然函數(shù)區(qū)域在去掉trifling 區(qū)域的一個(gè)個(gè)小方塊中,所以每個(gè)小方塊里面的可以做泰勒展開(kāi):

f(x)=\sum_{|\alpha|_{1} \leq s-1} \frac{\partial^{\alpha} f(\theta / K)}{\alpha !} h^{\alpha}+\sum_{|\alpha|_{1}=s} \frac{\partial^{\alpha} f\left(\theta / K+\xi_{x} h\right)}{\alpha !} h^{\alpha}: = \mathscr{T}_{1}+\mathscr{T}_{2}

后面的一部分本身就有bound\mathcal{O}\left(N^{-2 s / d} L^{-2 s / d}\right),所以主要關(guān)心前面的部分。這是多項(xiàng)式函數(shù)的和。

所以對(duì)多項(xiàng)式的Relu逼近是至關(guān)重要的。

步驟一:證明多項(xiàng)式函數(shù)可以用Relu FNN 是可以逼近的。最后的結(jié)果是:規(guī)模為O(N),O(L)的網(wǎng)絡(luò)是可以逼近多項(xiàng)式的,\mathcal{O}(N)^{-\mathcal{O}(L)}的速率。

步驟二:證明階梯函數(shù)是可以用Relu FNN逼近的,階梯函數(shù)指的是:每個(gè)x可以map到\boldsymbol{\theta} / K

步驟三:證明可以有Relu FNN,去逼近f在\boldsymbol{\theta} / K點(diǎn)的各階導(dǎo)數(shù):\left|\phi_{\alpha}\left(\frac{\theta}{K}\right)-\partial^{\alpha} f\left(\frac{\theta}{K}\right)\right| \leq \mathcal{O}\left(N^{-2 s / d} L^{-2 s / d}\right), \quad \text { for any } \theta \in\{0,1, \cdots, K-1\}^u0z1t8os





還可以證明這里1.1獲得得結(jié)果是漸近最優(yōu)的:

也就是有下面的定理:


也就是說(shuō)控制了這樣大的網(wǎng)絡(luò)規(guī)模之后,在誤差上已經(jīng)是最好的了。

證明的思路是用反證法, 先做一個(gè)反證假設(shè):


如果有這樣的反證假設(shè),就可以利用VC維度得到矛盾:

正常來(lái)說(shuō),VC維度有以下的估計(jì):


但是如果上面的claim成立,那么就會(huì)有VC維度的下界b_{\ell}(N, L)=\left\lfloor(N L)^{\frac{2}u0z1t8os+\frac{\rho}{2s} }\right\rfloor^u0z1t8os

下界的證明方法就是做一個(gè)shatter:方法是做這么多的方塊分割,然后每個(gè)里面可以用鼓包函數(shù)弄出一個(gè)光滑函數(shù)來(lái),結(jié)合正負(fù)性這些光滑函數(shù)可以把里面的所有小方塊中心點(diǎn)給shatter了。然后取證明這些光滑函數(shù)是可以用Relu函數(shù)去近似的,并不會(huì)改變中心點(diǎn)處的正負(fù)性。就可以了。








去了解一下以下的:

萬(wàn)有逼近理論:

G. Cybenko. Approximation by superpositions of a sigmoidal function. MCSS, 2:303–314, 1989

K. Hornik. Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2):251 – 257, 1991

K. Hornik, M. Stinchcombe, and H. White. Multilayer feedforward networks are universal approximators. Neural Networks, 2(5):359 – 366, 1989.


淺層網(wǎng)絡(luò)逼近:

A. R. Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information Theory, 39(3):930–945, May 1993



VC維度:

N. Harvey, C. Liaw, and A. Mehrabian. Nearly-tight VC-dimension bounds for piecewise linear neural networks. In S. Kale and O. Shamir, editors, Proceedings of the 2017 Conference on Learning Theory, volume 65 of Proceedings of Machine Learning Research, pages 1064–1068, Amsterdam, Netherlands, 07–10 Jul 2017. PMLR.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容