2018-08-28

一,前言

利用暑假學(xué)習(xí)了一段時(shí)間的DL,德國(guó)交通標(biāo)志馬上實(shí)踐一下,下面主要提到我用的模型以及數(shù)據(jù)處理,如果有哪些地方大佬們覺(jué)得哪些地方做得不好或者可以改進(jìn)得,非常歡迎直接在評(píng)論里提出來(lái),初學(xué)需要一起努力。

二,數(shù)據(jù)

數(shù)據(jù)內(nèi)容

上面是網(wǎng)站中給出來(lái)的數(shù)據(jù)我已經(jīng)下載下來(lái)并且保存到百度網(wǎng)盤(pán)中了,看情況下載(網(wǎng)盤(pán)限速),網(wǎng)盤(pán)鏈接:鏈接:https://pan.baidu.com/s/1yJ202EtrwUa7ihlfHPp9PQ 密碼:v3t0。

我只需要上面四類(lèi)文件中“圖像與注釋”的內(nèi)容(其他feature我也不會(huì)用。。。),下載下來(lái)之后打開(kāi)看看文件構(gòu)成。

文件組成

像官網(wǎng)介紹的一樣,一共43個(gè)種類(lèi)的數(shù)據(jù),43個(gè)文件夾,每個(gè)文件夾都有小到幾百?gòu)?,大到上千張圖片,在文件的最后都以csv格式給出來(lái)了label,圖像用ppm格式給了出來(lái),接下來(lái)我們嘗試對(duì)數(shù)據(jù)進(jìn)行處理。

1, 首先官網(wǎng)給出了從文件夾中讀取數(shù)據(jù)的py程序,可以直接拿來(lái)用,可以省掉很多時(shí)間,我們先來(lái)看看他的程序以及讀取結(jié)果。

讀取程序

上面中文注釋是我看程序的時(shí)候加上去的方便理解,range()函數(shù)中的數(shù)字是你要讀取的文件種類(lèi),現(xiàn)在是(1,2),表示讀取了第二類(lèi)文件!如果全數(shù)據(jù)集的話(huà)應(yīng)該是(0,43),中間有一段resize()函數(shù),這一段是方便讀取的時(shí)候就統(tǒng)一照片尺寸,有利于后面的參數(shù)設(shè)置。

接下來(lái)用matplotlib繪制圖像,將每個(gè)種類(lèi)的第一張照片以及他的數(shù)量輸出,代碼以及效果如下圖所示:

效果圖
繪制圖像

三,模型分析

對(duì)數(shù)據(jù)有了初步的認(rèn)識(shí),接下來(lái)我們就要準(zhǔn)備模型,這里選擇了難度程度較低的LeNet-5模型,LeNet-5模型由兩個(gè)卷積層與兩個(gè)池化層,以及兩個(gè)全連接層構(gòu)成。在前向傳播traffic_inference中卷積層,池化層以及全連接層的參數(shù)設(shè)置如下:第一層卷積層深度為32,卷積核大小為5,第一層池化層中strides=[1,2,2,1],padding='SAME'。第一層全連接節(jié)點(diǎn)個(gè)數(shù)為512

后面的卷積層以及池化層參數(shù)設(shè)置都類(lèi)似,這里不再一一寫(xiě)出 , 下面給出一組卷積層以及池化層的代碼作為參考。

卷積池化

接下來(lái)應(yīng)該是全連接神經(jīng)網(wǎng)絡(luò),現(xiàn)在我們的數(shù)據(jù)是一個(gè)矩陣形式,而全鏈接神經(jīng)網(wǎng)絡(luò)需要我們把數(shù)據(jù)進(jìn)行“拍扁”,變成一維的數(shù)據(jù)才能繼續(xù)進(jìn)行,我們對(duì)矩陣進(jìn)行拉伸成一個(gè)一維數(shù)組,具體代碼如下:

數(shù)據(jù)變形

上面經(jīng)過(guò)第二層池化層之后,我們將數(shù)據(jù)通過(guò)pool2的shape()函數(shù)來(lái)獲取里面一共有多少個(gè)參數(shù),將其轉(zhuǎn)化為list,注意我們是一個(gè)一個(gè)batch訓(xùn)練的,所以shape中的第一個(gè)數(shù)字表示batch_size的大小,后面才是我們的參數(shù),求得nodes之后我們就求得了pool2中一共的參數(shù)個(gè)數(shù),通過(guò)reshape()函數(shù)我們將pool2重現(xiàn)拉伸為一維數(shù)組,之后便可以輸入到全鏈接神經(jīng)網(wǎng)絡(luò)中,具體代碼最后給出。

目前為止我們實(shí)現(xiàn)了前向傳播的整個(gè)過(guò)程,接下來(lái)我們要實(shí)現(xiàn)反向傳播過(guò)程,也就是我們的循環(huán)訓(xùn)練過(guò)程,所有代碼在最后的github連接中給了出來(lái)

滑動(dòng)平均類(lèi)

其中我們定義了滑動(dòng)平均類(lèi)為:
variable_average = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECARY, global_step)
其中我們?cè)O(shè)定了MOVING_AVERAGE_DECARY中是滑動(dòng)平均率,滑動(dòng)平均可以讓我們采取一種這種的方式更新我們的參數(shù),可以防止一定的噪聲。

cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=y, labels=tf.argmax(y_,1))

cross_entropy采用了tf.nn.sparse_softmax_cross_entropy_with_logits(),因?yàn)樽詈蟮慕Y(jié)果只有一個(gè),所以可以采用上面的函數(shù),把損失函數(shù)和softmax()函數(shù)結(jié)合到一起了,加快了運(yùn)算速度,而最后的tf.argmax()函數(shù)是因?yàn)槟愕恼_標(biāo)簽是one-hot類(lèi)型的,至于如何轉(zhuǎn)換成one-hot類(lèi)型我們等會(huì)再說(shuō)

learning_rate = tf.train.exponential_decay(
LEARNING_RATE_BASE,
global_step,
400,
LEARNING_RATE_DECAY,
staircase = True
)

learning_rate采用的指數(shù)下降函數(shù),學(xué)習(xí)率剛開(kāi)始設(shè)置一個(gè)合適的值,然后隨著訓(xùn)練輪數(shù)的疊加而不斷降低,這樣我們就可以在迭代后期采用較小的學(xué)習(xí)率防止產(chǎn)生loss區(qū)線(xiàn)震蕩,同時(shí)學(xué)習(xí)率也不宜過(guò)大,如果過(guò)大會(huì)出現(xiàn)loss值是None或者非常大的情況,如果出現(xiàn)說(shuō)明你應(yīng)該調(diào)低你的初始學(xué)習(xí)率,調(diào)低大概2-3個(gè)位數(shù)。

我們通過(guò)官網(wǎng)給出來(lái)的程序讀取的數(shù)據(jù)不可以直接放進(jìn)網(wǎng)絡(luò)中訓(xùn)練!

不管是images的數(shù)據(jù)還是標(biāo)簽的數(shù)據(jù)都不符合網(wǎng)絡(luò)要求。
①首先我們應(yīng)該把照片的size重新置成一個(gè)固定值,這個(gè)我們已經(jīng)在讀取程序中更改過(guò)了,就是在readTrafficSign.py中的resize()函數(shù)中做的。
②接下來(lái)將圖片矩陣轉(zhuǎn)換成numpy矩陣才可以輸入到網(wǎng)絡(luò)中。而且讀取出來(lái)的標(biāo)簽中是str格式,我們也需要將其轉(zhuǎn)換成int形式,并且轉(zhuǎn)換成one-hot數(shù)據(jù)形式,普通的數(shù)據(jù)list不能被算法學(xué)習(xí),簡(jiǎn)單來(lái)說(shuō)就是你輸入進(jìn)去一堆一維的數(shù)組,每個(gè)數(shù)字都表示一個(gè)實(shí)例的標(biāo)簽,感覺(jué)數(shù)據(jù)和標(biāo)簽都輸入進(jìn)去就可以訓(xùn)練了,但是有一個(gè)問(wèn)題,程序根本不知道你有多少個(gè)標(biāo)簽,以后可以嘗試用sklearn來(lái)快速轉(zhuǎn)化一下(無(wú)奈現(xiàn)在還不會(huì)),所以現(xiàn)在我們需要構(gòu)造一個(gè)稀疏矩陣,具體代碼如下:


數(shù)據(jù)轉(zhuǎn)換

關(guān)于如何轉(zhuǎn)化成one-hot數(shù)據(jù)類(lèi)型有兩種方法詳細(xì)可以參考這篇文章:
https://blog.csdn.net/chaojipikaqiu/article/details/81504944

這樣的話(huà)數(shù)據(jù)就可以使用了,用一個(gè)一個(gè)batch_size輸入到程序中訓(xùn)練,需要注意的是從文件中讀取數(shù)據(jù)訓(xùn)練的時(shí)候需要打亂順序讀取,不再給出打亂文件的程序自己感興趣的可以自己完成。

其實(shí)中間還有很多細(xì)節(jié)沒(méi)有提到,其中的具體內(nèi)容就不在這里寫(xiě)出來(lái),感興趣可以去看一看。

最后給出來(lái)整個(gè)程序的連接:
https://github.com/liumengkai/Germany-traffic-sign

參考文章:https://blog.csdn.net/fu_shuwu/article/details/77073857
http://www.terrylmay.com/2017/06/generate-one-hot-data/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容