沒吃過豬肉,但得看過豬跑。雖然我們暫時對深度學(xué)習(xí)及神經(jīng)網(wǎng)路的基本原理知之甚少,但獲得深刻理性認(rèn)識必須建立在足夠的感性認(rèn)知之上,就像掌握游泳技巧的前提是把自己泡到水里。因此我們在研究分析神經(jīng)網(wǎng)絡(luò)的技術(shù)原理時,先用代碼構(gòu)建一個實用的智能系統(tǒng),通過運行后看結(jié)果的方式,我們就能快速建立起對深度學(xué)習(xí)相關(guān)技術(shù)的感知,這為我們后續(xù)建立扎實的理論體系奠定堅實的基礎(chǔ)。
神經(jīng)網(wǎng)絡(luò)系統(tǒng)的開發(fā)一般都使用python語言,我們也不例外,我們的手寫數(shù)字識別系統(tǒng)將使用python來開發(fā),首先要做的是在機器上安裝開發(fā)環(huán)境,也就是Anacoda。安裝好了后,我們需要繼續(xù)安裝開發(fā)神經(jīng)網(wǎng)絡(luò)最常用的開發(fā)框架,這里我們選擇Keras,打開控制臺,輸入下面命令行:
install -c conda-forge keras
這樣我們就能自動在Anacoda開發(fā)環(huán)境里嵌入Keras框架,上面命令運行后如圖所示:
我們需要注意的是,要選擇Linux系列系統(tǒng)來進(jìn)行開發(fā),Kares框架對windows的支持不是很好。完成上面開發(fā)環(huán)境的設(shè)置后,我們盡可以著手代碼的編寫。
首先我們先引入用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集,代碼如下:
from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
print(train_images.shape)
這段代碼將訓(xùn)練數(shù)據(jù)和檢測數(shù)據(jù)加載到內(nèi)存中,train_images是用于訓(xùn)練系統(tǒng)的手寫數(shù)字圖片,train_labels是用于標(biāo)志圖片的信息,test_images是用于檢測系統(tǒng)訓(xùn)練效果的圖片,test_labels是test_images圖片對應(yīng)的數(shù)字標(biāo)簽。代碼運行后,情況如下:
第一行打印結(jié)果表明,train_images是一個含有60000個元素的數(shù)組,數(shù)組中的元素是一個二維數(shù)組,二維數(shù)組的行和列都是28.也就是說,一個首先數(shù)字圖片的像素大小是28*28。我們打印出來的train_lables數(shù)組表明,第一張手寫數(shù)字圖片的內(nèi)容是數(shù)字5,第二種圖片是數(shù)字0,以此類推。
print(test_images.shape)的結(jié)果表示,用于檢驗系統(tǒng)效果的圖片有10000張,print(test_labels)輸出結(jié)果表明,用于檢測的第一張圖片內(nèi)容是數(shù)字7,第二張是數(shù)字2,依次類推。
接下來我們把用于測試的第一張圖片打印出來看看,代碼如下:
digit = test_images[0]
import matplotlib.pyplot as plt
plt.imshow(digit, cmap=plt.cm.binary)
plt.show()
上面代碼執(zhí)行后的結(jié)果為:
通過我們?nèi)搜圩R別可以看出,圖片里面黑色圖案表示的確實是一個數(shù)字7,我們需要做的就是讓計算機也能把它識別出來。接下來我們要使用Keras迅速搭建一個有效識別圖案的神經(jīng)網(wǎng)絡(luò),代碼如下:
from keras import models
from keras import layers
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28*28,)))
network.add(layers.Dense(10, activation='softmax'))
我們先將代碼相關(guān)組件從keras框架里引入,代碼里的layers表示的就是神經(jīng)網(wǎng)絡(luò)中的一個數(shù)據(jù)處理層。models.Sequential() 表示我們要把每一個數(shù)據(jù)處理層串聯(lián)起來,就好像用一根線把一排珠子串起來一樣。神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理層之間的組合方式有多種,串聯(lián)是其中一種,也是最常用的一種。
layers.Dense(...)就是構(gòu)造一個數(shù)據(jù)處理層。input_shape(28*28,)表示當(dāng)前處理層接收的數(shù)據(jù)格式必須是長和寬都是28的二維數(shù)組,后面的“,“表示數(shù)組里面的每一個元素到底包含多少個數(shù)字都沒有關(guān)系,例如:
[
[1,2], [3,4],
[5,6], [7,8]
]
表示的就是一個2*2的二維數(shù)組,只不過數(shù)組的每個元素是一個含有兩個數(shù)組的一維數(shù)組。代碼構(gòu)造了兩個數(shù)據(jù)處理層,接下來我們需要把數(shù)據(jù)處理層連接起來,并設(shè)置網(wǎng)絡(luò)的其他部分,回想上一節(jié)我們提到的神經(jīng)網(wǎng)絡(luò)模型:
前面代碼完成了上圖中,上半部分含有四個矩形的部分,接著我們要完成下半部分,代碼如下:
network.compile(optimizer='rmsprop', loss='categorical_crossentropy',
metrics=['accuracy'])
代碼中的輸入?yún)?shù)optimizer, loss都對應(yīng)著上圖中相關(guān)組件,metrics的含義我們以后再深究。上面代碼完成后,整個神經(jīng)網(wǎng)絡(luò)就建立好了,接下來我們需要把數(shù)據(jù)喂給它,以便對它進(jìn)行訓(xùn)練,在輸入數(shù)據(jù)前,我們需要把數(shù)據(jù)做一個處理,相關(guān)代碼如下:
train_images = train_images.reshape((60000, 28*28))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape((10000, 28*28))
test_images = test_images.astype('float32') / 25
其中reshape(60000, 28*28) 的意思是,train_images數(shù)組原來含有60000個元素,每個元素是一個28行,28列的二維數(shù)組,現(xiàn)在把每個二維數(shù)組轉(zhuǎn)變?yōu)橐粋€含有28*28個元素的一維數(shù)組。由于數(shù)字圖案是一個灰度圖,圖片中每個像素點值的大小范圍在0到255之間,代碼train_images.astype("float32")/255 把每個像素點的值從范圍0-255轉(zhuǎn)變?yōu)榉秶?-1之間的浮點值。
接著我們把圖片對應(yīng)的標(biāo)記也做一個更該,目前所有圖片的數(shù)字圖案對應(yīng)的是0到9,例如test_images[0]對應(yīng)的是數(shù)字7的手寫圖案,那么其對應(yīng)的標(biāo)記test_labels[0]的值就是7,我們需要把數(shù)值7變成一個含有10個元素的數(shù)組,然后在低7個元素設(shè)置為1,其他元素設(shè)置為0,例如test_lables[0] 的值由7轉(zhuǎn)變?yōu)閿?shù)組[0,0,0,0,0,0,0,1,0,0,], 實現(xiàn)這個功能的代碼如下:
from keras.utils import to_categorical
print("before change:" ,test_labels[0])
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
print("after change: ", test_labels[0])
上面代碼執(zhí)行后效果如下:
數(shù)據(jù)格式處理完畢后,我們就把數(shù)據(jù)輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這里我們只需要一行代碼:
network.fit(train_images, train_labels, epochs=5, batch_size = 128)
上面代碼參數(shù)需要解析一下,train_images是用于訓(xùn)練的手寫數(shù)字圖片,train_labels對應(yīng)的是圖片的標(biāo)記,batch_size 的意思是,每次網(wǎng)絡(luò)從輸入的圖片數(shù)組中隨機選取128個作為一組進(jìn)行計算,每次計算的循環(huán)是五次,這些概念我們后面講解原理時,會詳細(xì)解釋。這句代碼運行結(jié)果如下:
網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,我們就可以把測試數(shù)據(jù)輸入,檢驗網(wǎng)絡(luò)學(xué)習(xí)后的圖片識別效果了,代碼如下:
test_loss, test_acc = network.evaluate(test_images, test_labels, verbose=1)
print(test_loss)
print('test_acc', test_acc)
代碼運行的結(jié)果如下:
運行結(jié)果的意思是,用訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)判斷test_images中的一萬張手寫數(shù)字圖案,網(wǎng)絡(luò)能夠正確識別的比率是0.9128,也就是說網(wǎng)絡(luò)對給定測試圖案識別的正確率是91.28%,這個比率不算太高,里面有若干原因,一是神經(jīng)網(wǎng)絡(luò)需要運行在GPU上,而我的個人電腦只有CPU沒有GPU,由于硬件的原因影響了識別效果,而是網(wǎng)絡(luò)訓(xùn)練的強度不夠大,后面我們講解原理時,會體驗到網(wǎng)絡(luò)是如何改進(jìn)自己的識別效率的。
最后,我們輸入一張手寫數(shù)字圖片到網(wǎng)絡(luò)中,看看它的識別效果,代碼如下:
from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
digit = test_images[1]
plt.imshow(digit, cmap=plt.cm.binary)
plt.show()
test_images = test_images.reshape((10000, 28*28))
res = network.predict(test_images)
for i in range(res[1].shape[0]):
if (res[1][i] == 1):
print("the number for the picture is : ", i)
break
我們把數(shù)據(jù)重新加載以便,調(diào)用神經(jīng)網(wǎng)絡(luò)對象的predict接口,將要檢測的圖片數(shù)據(jù)傳入,接口執(zhí)行后,會把網(wǎng)絡(luò)的識別結(jié)果返回,上面代碼完成后,運行效果如下:
我們將識別的第二張圖片顯示出來,通過肉眼判斷它應(yīng)該是數(shù)字2,神經(jīng)網(wǎng)絡(luò)識別后給出的結(jié)果也是數(shù)字2,可見網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,具備了足夠強的圖像識別能力。在沒有深度學(xué)習(xí)算法前,實現(xiàn)這種功能的算法叫OCR,也就是光字符識別,算法的實現(xiàn)異常復(fù)雜,而且效果也是很好,而有了深度學(xué)習(xí)后,不到百行代碼就能更好的完成相應(yīng)功能,這就是深度學(xué)習(xí)的強大威力。
更詳細(xì)的講解和代碼調(diào)試演示過程,請點擊鏈接
如果你點擊鏈接后,沒有發(fā)現(xiàn)名為《人工智能實戰(zhàn):使用深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)構(gòu)建圖像識別與語義分析系統(tǒng)》的課程,那表明視頻還在制作和審批中,敬請期待!
更多技術(shù)信息,包括操作系統(tǒng),編譯器,面試算法,機器學(xué)習(xí),人工智能,請關(guān)照我的公眾號: