目標(biāo)是用Relu網(wǎng)絡(luò)去逼近更加光滑的函數(shù)空間,在
范數(shù)的意義下。
定理1.1簡(jiǎn)單而言是說(shuō):可以用寬度?深度
?的Relu FNN去接近
,而且接近誤差是:
這是一個(gè)非漸近的結(jié)果,而且同時(shí)顯示了深度和寬度在網(wǎng)絡(luò)逼近能力的中的影響。
這個(gè)誤差是漸近最優(yōu)的。

1.光滑性確實(shí)提高了接近的效率。
2.如果足夠光滑,s大于d,那么就不會(huì)有維數(shù)災(zāi)難。
3.如果把寬度和深度的要求寫成比較簡(jiǎn)潔的形式就是如下的版本:

4.如果突出逼近誤差,并且合并考慮網(wǎng)絡(luò)參數(shù)數(shù)量,就是以下的定理:


本文作者的幾篇文章關(guān)于各種函數(shù)空間的Relu FNN逼近情況的非漸近估計(jì)。
定理1.1的證明思路:
引入了trifling region

引入region區(qū)域的主要原因是Relu FNN是連續(xù)的,所以不能很好地一致逼近階梯函數(shù)。
利用以下的兩個(gè)定理:
定理2.1:顯示了可以在trifling 區(qū)域之外用Relu FNN 逼近的話,通過(guò)增大Relu FNN的規(guī)??梢栽趖rifling 里面也很好地逼近。
這個(gè)定理的證明思路是:顯示middle 函數(shù)是可以用Relu寫成的,然后利用小的偏移產(chǎn)生的三個(gè)函數(shù)的middle取說(shuō)明可以在整體上逼近得很好。

定理2.2:顯示了可以有Relu FNN 在trifling 區(qū)域以外一致逼近。

證明的思路按照以下的步驟:
首先既然函數(shù)區(qū)域在去掉trifling 區(qū)域的一個(gè)個(gè)小方塊中,所以每個(gè)小方塊里面的可以做泰勒展開(kāi):
后面的一部分本身就有bound,所以主要關(guān)心前面的部分。這是多項(xiàng)式函數(shù)的和。
所以對(duì)多項(xiàng)式的Relu逼近是至關(guān)重要的。
步驟一:證明多項(xiàng)式函數(shù)可以用Relu FNN 是可以逼近的。最后的結(jié)果是:規(guī)模為的網(wǎng)絡(luò)是可以逼近多項(xiàng)式的,
的速率。
步驟二:證明階梯函數(shù)是可以用Relu FNN逼近的,階梯函數(shù)指的是:每個(gè)x可以map到
步驟三:證明可以有Relu FNN,去逼近f在點(diǎn)的各階導(dǎo)數(shù):
還可以證明這里1.1獲得得結(jié)果是漸近最優(yōu)的:
也就是有下面的定理:

也就是說(shuō)控制了這樣大的網(wǎng)絡(luò)規(guī)模之后,在誤差上已經(jīng)是最好的了。
證明的思路是用反證法, 先做一個(gè)反證假設(shè):

如果有這樣的反證假設(shè),就可以利用VC維度得到矛盾:
正常來(lái)說(shuō),VC維度有以下的估計(jì):

但是如果上面的claim成立,那么就會(huì)有VC維度的下界
下界的證明方法就是做一個(gè)shatter:方法是做這么多的方塊分割,然后每個(gè)里面可以用鼓包函數(shù)弄出一個(gè)光滑函數(shù)來(lái),結(jié)合正負(fù)性這些光滑函數(shù)可以把里面的所有小方塊中心點(diǎn)給shatter了。然后取證明這些光滑函數(shù)是可以用Relu函數(shù)去近似的,并不會(huì)改變中心點(diǎn)處的正負(fù)性。就可以了。
去了解一下以下的:
萬(wàn)有逼近理論:
G. Cybenko. Approximation by superpositions of a sigmoidal function. MCSS, 2:303–314, 1989
K. Hornik. Approximation capabilities of multilayer feedforward networks. Neural Networks, 4(2):251 – 257, 1991
K. Hornik, M. Stinchcombe, and H. White. Multilayer feedforward networks are universal approximators. Neural Networks, 2(5):359 – 366, 1989.
淺層網(wǎng)絡(luò)逼近:
A. R. Barron. Universal approximation bounds for superpositions of a sigmoidal function. IEEE Transactions on Information Theory, 39(3):930–945, May 1993
VC維度:
N. Harvey, C. Liaw, and A. Mehrabian. Nearly-tight VC-dimension bounds for piecewise linear neural networks. In S. Kale and O. Shamir, editors, Proceedings of the 2017 Conference on Learning Theory, volume 65 of Proceedings of Machine Learning Research, pages 1064–1068, Amsterdam, Netherlands, 07–10 Jul 2017. PMLR.