原文:http://www.itdecent.cn/p/5329ad3561ea
后面可以看下這篇文章:https://www.cnblogs.com/lliuye/p/9486500.html
一、激活函數(shù)
激活函數(shù)是每一層神經(jīng)網(wǎng)絡(luò)之后用的非線性函數(shù),因?yàn)樯窠?jīng)網(wǎng)絡(luò)本身是線型的,利用激活函數(shù)可以使之實(shí)現(xiàn)非線性。
激活函數(shù)主要有四個(gè): sigmoid, tanh, RELU, Leaky RELU. 還有一位博主將softmax 也加了進(jìn)來。也有一定的道理,因?yàn)檫@五個(gè)小兄弟都是將一個(gè)K?維的向量映射為另一個(gè)K?維的向量。
接下來的話照搬這個(gè)知乎專欄
1. sigmoid

sigmoid函數(shù)及其導(dǎo)數(shù)
sigmoid函數(shù)會(huì)導(dǎo)致梯度消失(gradient vanishing)。
2. tanh
非線性激活函數(shù),y的值是-1-1,TensorFlow對(duì)應(yīng)的是tf.nn.tanh(x,name=None)

tanh
3. ReLU
f(x)=max(0,x),tensorflow中對(duì)應(yīng)的是tf.nn.relu(features,name=None)
這個(gè)函數(shù)的優(yōu)點(diǎn)是處理后的數(shù)據(jù)具有更好額稀疏性,只有最大數(shù)值與0.

5. leaky ReLU

leaky ReLU
5. softmax
Softmax的使得映射后的元素之和為1,通常用在分類任務(wù)最后一層。
二、梯度下降
梯度下降是神經(jīng)網(wǎng)絡(luò)優(yōu)化的方法,令輸出逼近目標(biāo)值。
三、損失函數(shù)
這篇博文講述了
均值平方差
就是mse,均方誤差越小,表明模型越好,
交叉熵
表現(xiàn)預(yù)測(cè)輸入樣本屬于某一類的概率,越小,預(yù)測(cè)的效果越準(zhǔn)
損失函數(shù)的選取取決于輸入標(biāo)簽數(shù)據(jù)的的類型,如果輸入的是實(shí)數(shù),無界的值,那么就應(yīng)該使永平方差,如果輸入的標(biāo)簽是位矢量,使用交叉熵可能會(huì)更合適。
tensorflow 中常見的loss函數(shù)
均值平方差,就是tf.reduce_mean(tf.pow(tf.sub(logits,outputs),2.0))
交叉熵:主要有sigmoid函數(shù),softmax函數(shù)