數(shù)字圖像目標檢測與識別----理論與實踐

【波蘭】Boguslaw Cyganek 著

疑問:

1)目標檢測?目標識別?概念定義及原理

2)如何實現(xiàn)?實現(xiàn)方法

3)如何應用?是否有成熟的框架或者開源項目?

總體感覺,這本書概念很多,很專業(yè)的一本圖像目標檢測與識別的書,很燒腦,很多我基本直接pass,記錄下索引,需要時,回頭細看。

以下的筆記,僅作為索引。

計算機視覺(CV)的關鍵技術:分類、檢測、跟蹤和識別。

本書配套的網(wǎng)址:www.wiley.com/go/cyganekobject,包含了代碼,彩圖,PPT,勘誤表等。

第1章 引言

本書的脈絡:

1)計算機視覺中的張量方法

2)分類方法和算法

3)目標檢測和跟蹤

4)目標識別

第2章 計算機視覺中的張量方法

本章的目標是展現(xiàn)用張量進行很好表示和分析的CV和PR的不同領域。

張量的兩個最明顯的特征是它們關于坐標系的變換規(guī)則;另一個是它們的多維性,該特性使得他們成為數(shù)據(jù)處理的恰當工具。

張量的概念

基于向量空間及其對偶空間的概念如下所述:

三種張量定義:

在數(shù)據(jù)挖掘中,使用多維陣列命名為張量。

將張量視為多維數(shù)據(jù)陣列,其中,每個維度分別對應于所述對象或現(xiàn)象的不同特征。

比如:3*4*2維的3D張量。一副簡單彩色圖像以及它的紅綠藍三個彩色通道,由于圖像的每個元素(即一個像素)恰好具有三個獨立的坐標,分別是列,行和通道,所以可以將其解釋為三維數(shù)據(jù)陣列或者一個3D張量。對于視頻序列,存在第四個自由指標--時間(幀編號)。

張量積:外積、縮并積、內(nèi)(標量)積,正交張量,F(xiàn)robenius范數(shù)。

張量距離測量:數(shù)據(jù)點之間的距離。

半度量、度量、大小不變測量、旋轉(zhuǎn)不變測量、形狀不變測量、張量距離

歐幾里得圖像距離和標準化變換。

張量場的濾波:最簡單的方法是在每個通道或者分量中分別應用標量濾波。順序統(tǒng)計濾波器和各向異性擴散濾波器。

采用結(jié)構(gòu)張量觀察圖像

二維圖像空間中的結(jié)構(gòu)張量、空時結(jié)構(gòu)張量、多通道和尺度空間結(jié)構(gòu)張量、擴展結(jié)構(gòu)張量

張量的特征分解和表示

張量不變量等等。

非常多的數(shù)學概念,我感覺要把線性代數(shù)拿出來好好復習一下。

第3章 分類方法和算法

分類是基于對目標的觀察給目標命名的過程。

分類框架

在分類過程中,假設將多個目標分配到C個類之一。分類器、判別函數(shù)、最大成員規(guī)則。

用于目標識別的子空間方法

主成分分析(PCA):是數(shù)據(jù)分析中最重要的方法之一,其根源于統(tǒng)計學。

子空間模式分類:PCA可以用于降維和輸入數(shù)據(jù)濾波,其也可以用于多個模式的直接分類。

目標識別的統(tǒng)計公式

參數(shù)化和非參數(shù)化方法、概率框架、貝葉斯決策規(guī)則(基于概率理論提供了模式識別中最重要的推理方法之一)、最大后驗分類方案、

二元分類問題:在計算機視覺中一個常遇見的分類任務是二元分類,例如在CV中從背景中區(qū)分出一個物體。

參數(shù)化方法----混合高斯、卡爾曼濾波器(操作可以分為兩個階段:時間更新階段(預測器);測量更新階段(校正器))。

非參數(shù)化方法----基于直方圖的技術、比較直方圖、多維直方圖的實現(xiàn)、Parzen方法(基于核的方法、最近鄰方法)。

均值移位方法----均值移位是一種追蹤分布模式(即最大概率密度位置)的非參數(shù)化方法。多特征跟蹤、多目標跟蹤。

神經(jīng)網(wǎng)絡----人工神經(jīng)網(wǎng)絡(ANN)背后的基本思想是產(chǎn)生計算機模型,這些模型在某種意義上模仿存在于大腦中的生物神經(jīng)網(wǎng)絡的行為。

概率神經(jīng)網(wǎng)絡(PNN):遵循于貝葉斯最大后驗分類方法式以及Parzen核PDF估計式的分類方法。是經(jīng)常用于多類分類問題方法。

漢明神經(jīng)網(wǎng)絡(HNN):可以進行模式分類,其特征可以用漢明距離來測量。直接實現(xiàn)了最近鄰分類規(guī)則。

HNN的自聯(lián)想版本包含4個神經(jīng)元層,而異聯(lián)想版本包含了5個神經(jīng)元層。屬于遞歸NN的范疇。

形態(tài)神經(jīng)網(wǎng)絡(MNN):構(gòu)成了有趣甚至令人驚奇的一組神經(jīng)網(wǎng)絡,展現(xiàn)出了很多可取的屬性,諸如高模式容量、耐受腐蝕及膨脹類型的噪聲以及只需一步獲得MNN響應的事實。

視覺模式識別中的核:核函數(shù)、核的實現(xiàn)

數(shù)據(jù)聚類:數(shù)據(jù)聚類的過程旨在發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)部結(jié)構(gòu)和關系。聚類的作用是將輸入數(shù)據(jù)分為若干數(shù)據(jù)集,稱為數(shù)據(jù)分割,其在每個分割內(nèi)展現(xiàn)了共同的屬性。

支持向量域描述:支持向量機(SVM)是一種相對新型的分類器。

第4章 目標檢測和跟蹤

致力于介紹目標檢測和跟蹤中的部分選定問題。這種情況下目標的特性是它們諸如色彩、形狀、紋理或其他特質(zhì)的顯著特征。

問題是要辨別圖像是否包含已定義的目標,如果包含,那么就指出它在圖像中的位置。

直接像素分類

基于顏色特性將目標從場景中分割出來。通過直接將像素分為目標和背景兩類來實現(xiàn)。通過提供所允許的一組顏色或顏色范圍來定義目標或可能屬于目標的像素。另一方面,也可以明確定義背景,或者可以將背景理解為“所有其他值”。

基準數(shù)據(jù)采集;實例研究----人類皮膚檢測;實例研究----基于像素的路標檢測;采用分類器集成的基于像素的圖像分割。

基本形狀檢測

線、圓、橢圓等基本形狀的檢測屬于CV的基本任務之一。基本形狀是那些可以用某一數(shù)學模型進行參數(shù)化描述的形狀,對于它們的檢測,最流行的方法是Hough的方法。

線段的檢測。凸形狀的UpWrite檢測。

圖形檢測

從特征點進行的規(guī)則形狀檢測;顯著點的聚類;自適應窗生長方法;圖形驗證。

實例研究----路標檢測系統(tǒng)。

實例研究----路標跟蹤和識別。

如前所述,目標檢測意味著要找到目標在圖像中的位置,并且找到它存在的確定性。目標跟蹤意味著要找到該特定目標在一系列圖像中的位置。

本節(jié)給出了在彩色視頻中進行路標識別的系統(tǒng),處理包括兩個階段:采用CamShift方法的模糊版本進行跟蹤,隨后采用形態(tài)神經(jīng)網(wǎng)絡MNN進行分類。

實例研究----用于目標跟蹤的框架。

行人檢測:圖像預處理-->前景分割-->目標分類-->驗證或細化-->跟蹤--

第5章 目標識別

主要采用面向汽車系統(tǒng)的例子和實現(xiàn)對各種目標識別方法進行討論。

從張量相位直方圖和形態(tài)尺度空間進行的識別

基于不變量的識別:實例研究----采用仿射不變矩的象形圖識別,基于統(tǒng)計不變量的路標識別方法。

基于模板的識別:用于路標識別的模板匹配;用于模板匹配的專用距離;采用對數(shù)極坐標和尺度空間進行的識別。

從可變形模型進行的識別

分類器集成

實例研究----用于從變形原型中進行路標識別的分類器集成。

基于張量分解的識別

實例研究----采用張量分解方法進行的手寫數(shù)字識別

用于駕駛員狀態(tài)監(jiān)控的人眼識別

目標分類識別

簡單討論解決大型圖像數(shù)據(jù)庫中目標分類的一般問題的最新方法。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容