姓名:張慶慶
學(xué)號:19021211151
嵌牛導(dǎo)讀:計算機視覺領(lǐng)域(cv)主要目標(biāo)是智能的處理圖像,其中圖像描述領(lǐng)域最關(guān)鍵的便是特征的提取以及更人性化的提取目標(biāo)圖片中人類所更關(guān)注的特點,學(xué)好特征提取就是為學(xué)好圖像描述打好重要的基礎(chǔ)。
?嵌牛鼻子:特征提取 圖像描述
嵌牛提問:如何學(xué)好圖像描述的重要基礎(chǔ)
轉(zhuǎn)載源:OpenCV+Python特征提取算法與圖像描述符之SIFT / SURF / ORB - 簡書
嵌牛正文:
有許多用于特征檢測和提取的算法,我們將會對其中大部分進行介紹。OpenCV最常使用的特征檢測和提取算法有:
Harris:該算法用于檢測角點;
SIFT:該算法用于檢測斑點;
SURF:該算法用于檢測角點;
FAST:該算法用于檢測角點;
BRIEF:該算法用于檢測斑點;
ORB:該算法代表帶方向的FAST算法與具有旋轉(zhuǎn)不變性的BRIEF算法;
通過以下方法進行特征匹配:
暴力(Brute-Force)匹配法;
基于FLANN匹配法;
可以采用單應(yīng)性進行空間驗證。
特征提取算法比較
計算速度:? ? ? ? ? ? ORB>>SURF>>SIFT(各差一個量級)
旋轉(zhuǎn)魯棒性:? ? ? ? SURF>ORB~SIFT(表示差不多)
模糊魯棒性:? ? ? ? SURF>ORB~SIFT
尺度變換魯棒性: SURF>SIFT>ORB(ORB并不具備尺度變換性)
基本概念
特征向量
用于表示和量化圖像的數(shù)字列表,簡單理解成將圖片轉(zhuǎn)化為一個數(shù)字列表表示。特征向量中用來描述圖片的各種屬性的向量稱為特征矢量。
特征描述符(特征描述子)Descriptor
是一種算法和方法,輸入1個圖像,返回多個特征向量(主要用來處理圖像的局部,往往會把多個特征向量組成一個一維的向量)。主要用于圖像匹配(視覺檢測),匹配圖像中的物品。
SIFT特征算法與DoG尺度空間
實質(zhì)是在不同的尺度空間上查找關(guān)鍵點(特征點),并計算出關(guān)鍵點的方向。SIFT所查找到的關(guān)鍵點是一些十分突出,不會因光照,仿射變換和噪音等因素而變化的點,如角點、邊緣點、暗區(qū)的亮點及亮區(qū)的暗點等。
SIFT
尺度不變特征轉(zhuǎn)換(Scale-invariant feature transform或SIFT)是一種電腦視覺的算法用來偵測與描述影像中的局部性特征,它在空間尺度中尋找極值點,并提取出其位置、尺度、旋轉(zhuǎn)不變量。
其應(yīng)用范圍包含物體辨識、機器人地圖感知與導(dǎo)航、影像縫合、3D模型建立、手勢辨識、影像追蹤和動作比對。
尺度空間
對現(xiàn)實中物體的描述一定要在一個十分重要的前提下進行,這個前提就是對自然界建模時的尺度。當(dāng)用一個機器視覺系統(tǒng)分析未知場景時,計算機沒有辦法預(yù)先知道圖像中物體的尺度,因此我們需要同時考慮圖像在多尺度下的描述,獲知感興趣物體的最佳尺度。圖像的尺度空間表達指的是圖像的所有尺度下的描述。

DoG尺度空間


DoG空間極值點

特征點方向歸一化

計算特征點描述子
SIFT算法分解為如下四步:
尺度空間極值檢測:搜索所有尺度上的圖像位置。通過高斯微分函數(shù)來識別潛在的對于尺度和旋轉(zhuǎn)不變的興趣點。
關(guān)鍵點定位:在每個候選的位置上,通過一個擬合精細的模型來確定位置和尺度。關(guān)鍵點的選擇依據(jù)于它們的穩(wěn)定程度。
方向確定:基于圖像局部的梯度方向,分配給每個關(guān)鍵點位置一個或多個方向。所有后面的對圖像數(shù)據(jù)的操作都相對于關(guān)鍵點的方向、尺度和位置進行變換,從而提供對于這些變換的不變性。
關(guān)鍵點描述:在每個關(guān)鍵點周圍的鄰域內(nèi),在選定的尺度上測量圖像局部的梯度。這些梯度被變換成一種表示,這種表示允許比較大的局部形狀的變形和光照變化。
sift=cv2.xfeatures2d.SIFT_create()'''
SIFT_create([, nfeatures[, nOctaveLayers[, contrastThreshold[, edgeThreshold[, sigma]]]]]) -> retval
? ? .? @param nfeatures The number of best features to retain. The features are ranked by their scores
? ? .? (measured in SIFT algorithm as the local contrast)
? ? .?
? ? .? @param nOctaveLayers The number of layers in each octave. 3 is the value used in D. Lowe paper. The
? ? .? number of octaves is computed automatically from the image resolution.
? ? .?
? ? .? @param contrastThreshold The contrast threshold used to filter out weak features in semi-uniform
? ? .? (low-contrast) regions. The larger the threshold, the less features are produced by the detector.
? ? .?
? ? .? @param edgeThreshold The threshold used to filter out edge-like features. Note that the its meaning
? ? .? is different from the contrastThreshold, i.e. the larger the edgeThreshold, the less features are
? ? .? filtered out (more features are retained).
? ? .?
? ? .? @param sigma The sigma of the Gaussian applied to the input image at the octave \#0. If your image
? ? .? is captured with a weak camera with soft lenses, you might want to reduce the number.
'''keypoints,descriptor=sift.detectAndCompute(img_gray,None)'''
? ? ? ? detectAndCompute(image, mask[, descriptors[, useProvidedKeypoints]]) -> keypoints, descriptors
? ? ? ? .? Detects keypoints and computes the descriptors
? ? ? ? 算法分成了兩步,第一步特征提取,第二步計算描述符
''''''
keypoints數(shù)據(jù)結(jié)構(gòu)
pt, 坐標(biāo)
size, 特征直徑
angle, 特征方向
response, 特征強度
octave,該特征在金字塔的第幾層被找到
class_id
'''
KeyPoint數(shù)據(jù)結(jié)構(gòu)解析
img=cv2.imread('laugh.jpg')img_large=cv2.imread('laugh_large.jpg')gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)gray_large=cv2.cvtColor(img_large,cv2.COLOR_BGR2GRAY)sift=cv2.xfeatures2d.SIFT_create()keypoints,descriptor=sift.detectAndCompute(gray,None)keypoints2,descriptor2=sift.detectAndCompute(gray_large,None)img=cv2.drawKeypoints(image=img,outImage=img,keypoints=keypoints,flags=cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS,color=(0,0,255))img_large=cv2.drawKeypoints(image=img_large,outImage=img_large,keypoints=keypoints2,flags=cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS,color=(0,0,255))cv2.imshow('sift',img)cv2.imshow('sift_large',img_large)

SIFT效果
SURF算法和Fast Hessian矩陣
SURF是SIFT的加速版,它善于處理具有模糊和旋轉(zhuǎn)的圖像,但是不善于處理視角變化和光照變化。在SIFT中使用DoG對LoG進行近似,而在SURF中使用盒子濾波器對LoG進行近似,這樣就可以使用積分圖像了(計算圖像中某個窗口內(nèi)所有像素和時,計算量的大小與窗口大小無關(guān))。總之,SURF最大的特點在于采用了Haar特征以及積分圖像的概念,大大加快了程序的運行效率。
surf=cv2.xfeatures2d.SURF_create(hessian_threshold)# hessian_threshold 保留的特征值越少,越強大的特征值才會被保留,需要根據(jù)具體圖像進行調(diào)整
img=cv2.imread("laugh.jpg")gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)alg=cv2.xfeatures2d.SURF_create(10000)keypoints,descriptor=alg.detectAndCompute(gray,None)img=cv2.drawKeypoints(img,keypoints,img,(0,0,255),cv2.DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS)cv2.imshow('hessian_10000',img)

SURF - hessan閾值效果對比

SURF - 不同尺度效果對比
注意事項
因為專利原因,OpenCV3.3開始不再免費開放SIFT\SURF,需要免費的請使用ORB算法
ORB特征算法
ORB算法綜合了FAST角點檢測算法和BRIEFF描述符。
FAST特征檢測
FAST只是一種特征點檢測算法,并不涉及特征點的特征描述。
fast = cv2.FastFeatureDetector_create(threshold=10)
img=cv2.imread("laugh.jpg",0)fast=cv2.FastFeatureDetector_create()keypoints=fast.detect(img,None)img=cv2.drawKeypoints(img,keypoints,None,(0,0,255))
FAST - threshold100效果圖
FAST - 默認threshold(10)效果圖
BRIEF特征描述符
Brief是Binary Robust Independent Elementary Features的縮寫。這個特征描述子是由EPFL的Calonder在ECCV2010上提出的。主要思路就是在特征點附近隨機選取若干點對,將這些點對的灰度值的大小,組合成一個二進制串,并將這個二進制串作為該特征點的特征描述子。文章同樣提到,在此之前,需要選取合適的gaussian kernel對圖像做平滑處理。
缺點
1:不具備旋轉(zhuǎn)不變性。
2:對噪聲敏感
3:不具備尺度不變性。
img=cv2.imread("laugh.jpg",0)# Initiate FAST detectorstar=cv2.xfeatures2d.StarDetector_create()# Initiate BRIEF extractorbrief=cv2.xfeatures2d.BriefDescriptorExtractor_create()# find the keypoints with STARkp=star.detect(img,None)# compute the descriptors with BRIEFkp,des=brief.compute(img,kp)print(brief.descriptorSize())print(des.shape)
ORB
ORB采用了FAST作為特征點檢測算子,特征點的主方向是通過矩(moment)計算而來解決了BRIEF不具備旋轉(zhuǎn)不變性的問題。
ORB還做了這樣的改進,不再使用pixel-pair,而是使用9×9的patch-pair,也就是說,對比patch的像素值之和,解決了BRIEF對噪聲敏感的問題。
關(guān)于計算速度:
ORB是sift的100倍,是surf的10倍。
importcv2img=cv2.imread("A.jpg",0)orb=cv2.ORB_create()kp,des=orb.detectAndCompute(img,None)# len(kp) : 485# des.shape:? (485, 32)

ORB效果
附:相關(guān)知識
特征提取方法
直方圖
對圖片數(shù)據(jù)、特征分布的一種統(tǒng)計
對數(shù)據(jù)空間(bin)進行量化
聚類
Kmeans
顏色特征
量化顏色直方圖,適用于均勻分布的顏色空間,如RGB,HSV等。
統(tǒng)計落在量化單元上的像素數(shù)量,bin內(nèi)的像素由bin中心的顏色代表
聚類顏色直方圖,適用于非均勻分布的顏色空間,如Lab等
幾何特征
邊緣:尺度問題->不同的標(biāo)準(zhǔn)差
捕捉到不同尺度的邊緣
斑點 Blob:二階高斯導(dǎo)數(shù)濾波LoG

LoG圖找零點就是邊緣

LoG圖找極值點就是斑點

DoG:LoG近似于2個不同尺度的高斯差分,計算量大大減小

藍色是LoG,黑色是DoG
關(guān)鍵點(keypoint):不同視角圖片之間的映射,圖片配準(zhǔn)、拼接、運動跟蹤、物體識別、機器人導(dǎo)航、3D重建
紋理特征
HOG方向梯度直方圖
LBP局部二值模式
Gabor濾波器組:多尺度多方向。原理:頻域中是加窗傅里葉變換,時域中是一個高斯核和正弦平面波的乘積

三尺度、八方向
局部特征
SIFT\SURF
嵌??偨Y(jié):特征提取是圖像描述的關(guān)鍵,如何做到更智能化的目標(biāo)提取,關(guān)系到圖像描述的質(zhì)量及精確程度。