K近鄰算法

機器學(xué)習(xí)算法是從數(shù)據(jù)中產(chǎn)生模型，也就是進行學(xué)習(xí)的算法。我們把經(jīng)驗提供給算法，它就能夠根據(jù)經(jīng)驗數(shù)據(jù)產(chǎn)生模型。在面對新的情況時，模型就會為我們提供預(yù)測的結(jié)果。例如，識別數(shù)字，文字時，其實識別它們并不需要顏色，使用二值圖像就行，而二值圖像的數(shù)字文字都是0，1組成，機器學(xué)習(xí)會根據(jù)0與1的位置匹配最相近的文字或者數(shù)字，從而得出結(jié)果。而機器學(xué)習(xí)中的K近鄰算法最適合識別圖像中的文字或者數(shù)字信息。

K近鄰算法又稱為KNN算法，是非常經(jīng)典的機器學(xué)習(xí)算法。其原理非常簡單：對于一個新樣本，這里可以理解為一個新數(shù)字圖像或文字圖像，K近鄰算法會在已有數(shù)據(jù)中尋找與它最相似的K個數(shù)據(jù)，或者說離它最近的K個數(shù)據(jù)，如果這K個數(shù)據(jù)大多數(shù)屬于某個類別，則該樣本也屬于這個類別。

識別數(shù)字

在OpenCV-Python開發(fā)指南的第一篇我們就介紹了二值圖像，二值圖像可以區(qū)分形狀已經(jīng)物體大概的輪廓。如下圖所示：

1.png

這里的圖像A就是0和1的矩陣集合，數(shù)字1代表有顏色的地方，數(shù)字0代表無顏色的地方。

這里，我們提供給機器學(xué)習(xí)的樣本數(shù)據(jù)為1024個元素的一維數(shù)組，通過Excel表格提供，而圖像是一個矩陣并不是一維數(shù)組。所以，在處理原始圖像時，我們需要將圖片的矩陣數(shù)據(jù)轉(zhuǎn)換為一維數(shù)組，以便于機器學(xué)習(xí)的匹配預(yù)測。

調(diào)整圖像

首先，我們需要識別的數(shù)字圖像可能并不是一個二值圖像，甚至可能不是一個灰度圖像。所以我們需要將其轉(zhuǎn)換為二值圖像。

其次，OpenCV轉(zhuǎn)換的二值圖像是一個矩陣，而機器學(xué)習(xí)訓(xùn)練的數(shù)據(jù)是一個1024長度的一維數(shù)組。所以，我們還需要將圖像縮小為32*32像素的圖像，這樣其轉(zhuǎn)換為一維數(shù)組才是1024個0，1數(shù)據(jù)。

具體代碼如下：

import cv2

img = cv2.imread("40.jpg")
img = cv2.resize(img, (32, 32))
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
t, img = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY_INV)
img[img == 255] = 1
img_array= img.reshape(1, -1)  # 轉(zhuǎn)換為一維數(shù)組

這里，我們首先獲取圖像，然后將圖像轉(zhuǎn)換為32*32像素的大小。接著，在轉(zhuǎn)換為灰度圖像，并通過二值化處理將圖像變更為0和255兩個值，最后將255白色的部分替換成1。最后，將其轉(zhuǎn)換為一維數(shù)組。

K近鄰算法模型搭建

不管是K近鄰算法還是機器學(xué)習(xí)算法，我們一般搭建機器學(xué)習(xí)模型都分為2個步驟。第1步，劃分訓(xùn)練集與測試集，第2步完成模型的搭建.

下面我們具體實現(xiàn)，代碼如下：

import cv2
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier as KNN

df = pd.read_excel("手寫字體識別.xlsx")
# 提取特征變量，識別數(shù)字時，其特征就是1024個0，1數(shù)據(jù)，而目標(biāo)變量就是1024個數(shù)字組成對應(yīng)的結(jié)果數(shù)字
X = df.drop(columns="對應(yīng)數(shù)字")
Y = df['對應(yīng)數(shù)字']

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=111)
knn = KNN(n_neighbors=5)
knn.fit(x_train, y_train)

answer=knn.predict(img_array)
print("圖中的數(shù)字是："+str(answer[0]))

這里，我們首先讀取手寫字體識別的數(shù)據(jù)集，然后提取特征變量與目標(biāo)變量。

再然后，使用train_test_split函數(shù)將獲取的數(shù)據(jù)集分為測試集與訓(xùn)練集，test_size=0.2表示將20%的數(shù)據(jù)劃為測試集，訓(xùn)練集返回x_train，y_train，測試集返回x_test，y_test。

接著，使用訓(xùn)練集數(shù)據(jù)建模fit，這里K近鄰算法n_neighbors=5，表示選取5個近鄰點來決定數(shù)字圖片的分類，或者說識別判斷。

建模完成之后，可以將上面轉(zhuǎn)換圖片的一維數(shù)組，直接代入到knn.predict函數(shù)中，得到預(yù)測的結(jié)果。我們測試的圖片如下：

運行之后，得到的結(jié)果如下：

1.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

K近鄰算法識別數(shù)字---OpenCV-Python開發(fā)指南（40）

K近鄰算法識別數(shù)字---OpenCV-Python開發(fā)指南（40）

K近鄰算法

識別數(shù)字

調(diào)整圖像

K近鄰算法模型搭建

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

K近鄰算法識別數(shù)字---OpenCV-Python開發(fā)指南（40）

K近鄰算法

識別數(shù)字

調(diào)整圖像

K近鄰算法模型搭建

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av