主要內(nèi)容包括:
1、基于boosting級聯(lián)學(xué)習(xí)的遙感目標(biāo)檢測
Adaboost算法、前向分步算法、提升樹、梯度提升、級聯(lián)學(xué)習(xí)框架、Haar特征、級聯(lián)分類器訓(xùn)練方法
2、基于隨機(jī)幾何模型的遙感目標(biāo)檢測
點(diǎn)過程、標(biāo)記點(diǎn)過程
3、基于主題語義模型的遙感目標(biāo)提取
分水嶺分割、特征提取、主題語義建模、PLSA統(tǒng)計(jì)、分割區(qū)域語義判定
1、基于boosting級聯(lián)學(xué)習(xí)的遙感目標(biāo)檢測
【Adaboost算法】
boosting算法通過改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類器,并將這些分類器線性組合以提高分類的性能。其中強(qiáng)分類器是指正確率很高的學(xué)習(xí)算法;弱分類器是指正確率只比隨機(jī)猜測好一點(diǎn)的學(xué)習(xí)算法。
總的來說是對于同一個(gè)訓(xùn)練樣本集,設(shè)置初始權(quán)重,求另損失函數(shù)最小的弱分類器,對錯(cuò)分的樣本更改權(quán)重使其更加重要,再次求弱分類器,最后將這些弱分類器進(jìn)行線性相加。
兩個(gè)關(guān)鍵問題:1、權(quán)值如何改變? 2、如何組合弱分類器
Adaboost算法的具體步驟
輸入:二類分類的訓(xùn)練集 T ={(x_1,y_1), (x_2,y_2)..(x_n,y_n)} 其中x_i為樣本實(shí)例,y_i為標(biāo)記;弱學(xué)習(xí)算法
輸出:最終分類器
(1) 初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,得到D1 = {w_1...w_n}。假設(shè)數(shù)據(jù)集有均勻權(quán)值分布時(shí)表示訓(xùn)練樣本正在基本分類器學(xué)習(xí)中作用相同
(2) 對 m =1,2,3..M,使用具有權(quán)值分布的Dm的訓(xùn)練集進(jìn)行學(xué)習(xí),得到基本分類器Gm(x)。隨后Adaboost會反復(fù)學(xué)習(xí)基本分類器。
(3) 計(jì)算Gm(x)的分類誤差率e_m,為權(quán)值乘以分錯(cuò)的概率。
(4) 通過某種方式計(jì)算Gm(x)的系數(shù),參數(shù)為e_m。e_m大于1/2時(shí)α_m大于零且隨e的減小而增大,所以分類誤差率越小的基本分類器在最終分類器作用越大。

(5) 更新訓(xùn)練數(shù)據(jù)的權(quán)值分布為Dm+1,計(jì)算方式為


Sum(D)是對權(quán)重的規(guī)范化,它使Dm+1成為概率分布。被誤分類的樣本權(quán)值得以擴(kuò)大,在下一輪起到更大作用。
(6) 構(gòu)建基本分類器的線性集合 f(x) = Σ(α_m × Gm(x) ),最后得到最終分類器G(x) = sign( f(x) )。實(shí)現(xiàn)M個(gè)分類器的加權(quán)表決, f(x)表示分類的確信度。
【前向分步算法】
可以認(rèn)為Adaboost算法是“模型為加法模型、損失函數(shù)為指數(shù)函數(shù)、學(xué)習(xí)算法為前向分布算法”時(shí)的二類分類學(xué)習(xí)方法。在Adaboost算法中,我們的最終目的是通過構(gòu)建弱分類器的線性組合來得到最終分類器:

加法模型的一般形式:

顯然式8.6是一個(gè)加法模型。
???????? 對于加法模型,在給定訓(xùn)練數(shù)據(jù)及損失函數(shù)L(y, f(x))的條件下,學(xué)習(xí)加法模型f(x)就成為經(jīng)驗(yàn)風(fēng)險(xiǎn)極小化損失函數(shù)極小化問題,但這是一個(gè)復(fù)雜的優(yōu)化問題。

前向分布算法(forward stagewise algorithm)求解這一優(yōu)化問題的想法是:因?yàn)閷W(xué)習(xí)的是加法模型,那如果能夠從前向后,每一步只學(xué)習(xí)一個(gè)基函數(shù)及其系數(shù),然后逐步逼近優(yōu)化目標(biāo)式8.14,那么就可以簡化優(yōu)化的復(fù)雜度。具體的,每步只需優(yōu)化如下?lián)p失函數(shù):

前向分布算法步驟

這樣,前向分布算法將同時(shí)求解從m=1到M的所有參數(shù)βm, rm的優(yōu)化問題簡化為逐次求解各個(gè)βm, rm的優(yōu)化問題。
【提升樹】
提升樹是以決策樹為弱分類器的提升方法,通常使用CART樹。提升樹被認(rèn)為是統(tǒng)計(jì)學(xué)習(xí)中性能最好的方法之一。
提升樹方法實(shí)際采用:加法模型 + 前向分布算法 + CART樹(基函數(shù))。在Adaboost的例子中看到的弱分類器xv,可以看做是由一個(gè)根結(jié)點(diǎn)直接連接兩個(gè)葉結(jié)點(diǎn)的簡單決策樹,即所謂的決策樹樁。提升樹模型可以表示為決策樹的加法模型:

提升樹算法
首先,確定初始提升樹f0(x)= 0,于是第m步的模型就是:

其中fm-1(x)是當(dāng)前模型,通過經(jīng)驗(yàn)風(fēng)險(xiǎn)極小化確定下一棵決策樹的參數(shù)θm,

由于樹的線性組合可以很好的擬合訓(xùn)練數(shù)據(jù),即使數(shù)據(jù)中的輸入與輸出之間的關(guān)系很復(fù)雜也可以很好的擬合。所以提升樹是一個(gè)高功能的學(xué)習(xí)算法。
針對不同問題的提升樹學(xué)習(xí)算法,其主要區(qū)別在于使用的損失函數(shù)不同。包括用平方誤差損失函數(shù)的回歸問題,用指數(shù)損失函數(shù)的分類問題,以及用一般損失函數(shù)的一般決策問題。
對于二類分類問題,提升樹算法只需將Adaboost中的弱分類器限制為二類分類樹即可。下面敘述回歸問題的提升樹:已知一個(gè)訓(xùn)練數(shù)據(jù)集T={(x1,y1), (x2, y2), ..., (xN, yN)},x∈X? Rn,X為輸入空間,yi∈Y? R,Y為輸出空間。如果將輸入空間X劃分為J個(gè)互不相交的區(qū)域R1, R2, ..., RJ,并且在每個(gè)區(qū)域上確定輸出的常量cj,那么樹可以表示為:

回歸問題提升樹使用以下前向分布算法:

R是當(dāng)前模型擬合數(shù)據(jù)的殘差。所以對回歸問題的提升樹算法來說,只需簡單的擬合當(dāng)前模型的殘差。這樣,算法是相當(dāng)簡單的。
現(xiàn)將回歸問題的提升樹算法敘述如下

【梯度提升】
上面的提升樹算法利用加法模型與前向分步算法實(shí)現(xiàn)學(xué)習(xí)的優(yōu)化過程。雖然當(dāng)損失函數(shù)時(shí)平方損失和指數(shù)損失函數(shù)時(shí),每一步的優(yōu)化很簡單,但對于一般損失函數(shù)而言,往往每一步的優(yōu)化并不那么容易。而梯度提升(gradient boosting)算法就是解決這個(gè)問題的。梯度提升算法利用最速下降法的近似方法,其關(guān)鍵是利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為回歸問題提升樹算法中殘差的近似值,擬合一個(gè)回歸樹。

【級聯(lián)學(xué)習(xí)框架】
傳統(tǒng)的Adaboost算法關(guān)注最小化錯(cuò)誤率,但是目標(biāo)檢測時(shí)負(fù)樣本出現(xiàn)的概率通常遠(yuǎn)高于正樣本概率,有人提出了非對稱的Adaboost算法,引入非對稱的損失函數(shù)使正樣本被錯(cuò)分的損失更大。目前遙感圖像數(shù)據(jù)特點(diǎn)導(dǎo)致利用級聯(lián)學(xué)習(xí)來檢測的方法不多見。介紹一套實(shí)時(shí)的遙感目標(biāo)自動檢測系統(tǒng)。

【Haar特征】
構(gòu)建分類器時(shí)主要采用Haar特征。Haar特征是一種反映圖像的灰度變化的,像素分模塊求差值的一種特征。它分為三類:邊緣特征、線性特征、中心特征和對角線特征。用黑白兩種矩形框組合成特征模板,在特征模板內(nèi)用 黑色矩形像素和 減去 白色矩形像素和來表示這個(gè)模版的特征值。

如上圖A、B、D模塊的圖像Haar特征為:v=Sum白-Sum黑 ; C模塊的圖像Haar特征為:v=Sum白(左)+Sum白(右)-2*Sum黑.這里要保證白色矩形模塊中的像素與黑色矩形的模塊的像素?cái)?shù)相同,所以乘2
對于一幅圖像來說,可以通過通過改變特征模板的大小和位置,可窮舉出大量的特征來表示一幅圖像。上圖的特征模板稱為“特征原型”;特征原型在圖像子窗口中擴(kuò)展(平移伸縮)得到的特征稱為“矩形特征”;矩形特征的值稱為“特征值”。矩形特征值是矩形模版類別、矩形位置和矩形大小這三個(gè)因素的函數(shù)。在工程中需要進(jìn)行快速計(jì)算某個(gè)矩形內(nèi)的像素值的和,這就需要引入積分圖的概念,有利于大尺寸遙感圖像中小尺度目標(biāo)的檢測
積分圖的定義:

那么我們實(shí)現(xiàn)的時(shí)候是如何進(jìn)行計(jì)算積分圖的呢?

計(jì)算方塊內(nèi)的像素和:

有四個(gè)位置分別為1、2、3、4。要計(jì)算D區(qū)域內(nèi)部的像素和:記位置4的左上的所有像素為rectsum(4),那么
D位置的像素之和就是rectsum(1)+rectsum(4)?rectsum(2)?rectsum(3)。
有了積分圖,就可以很快地計(jì)算出了任意矩形內(nèi)的像素之和
三種類型的Haar-like特征中,二矩形特征需要6次查找積分圖中的值,而三矩形特征需要8次查找積分圖中的值,而對角的特征需要9次。
【使用級聯(lián)分類器對Haar特征進(jìn)行訓(xùn)練】
在輸入圖像之后首先計(jì)算積分圖,然后通過積分圖在計(jì)算上述三種特征,如果窗口的大小為24*24像素,那么生成的特征數(shù)目有16000之多。
(1)弱分類器的定義
Adaboost算法中需要定義弱分類器,該弱分類器的定義如下:

上述公式中的pj是為了控制不等式的方向而設(shè)置的參數(shù)。
fj(x)表示輸入一個(gè)窗口x,比如24*24像素的窗口,通過fj提取特征,得到若干特征。通過一個(gè)閾值θ判定該窗口是不是所要檢測的物體。
(2)adaboost算法
假設(shè)訓(xùn)練樣本圖像為(x1,y1),…,(xn,yn),其中yi=0,1,0表示負(fù)樣本,1表示正樣本。
首先初始化權(quán)重w1,i=12m,初始化yi為22l,其中m表示負(fù)樣本的個(gè)數(shù),l表示正樣本的個(gè)數(shù)。


(3) 動態(tài)級聯(lián)訓(xùn)練
每一級強(qiáng)分類器都是通過前面所有級的樣本訓(xùn)練構(gòu)造而成。難的樣本交給更深級的分類器。
給定一個(gè)級聯(lián)分類器,誤檢率為f1,f2...,fn,檢測率為d1,d2..dn,N個(gè)非目標(biāo)窗口經(jīng)過n個(gè)強(qiáng)分類器后的誤分率為N*f1*f2*...*fn,整個(gè)分類器的誤檢率為F =?f1*f2*...*fn,檢測率為D =?d1*d2*...*dn
訓(xùn)練級聯(lián)分類器以達(dá)到給定的檢測率D和誤檢率F,只需要分別訓(xùn)練N個(gè)具有檢測率 d_i 和誤檢率 f_i 的強(qiáng)分類器。通過增加弱分類器的個(gè)數(shù)來逼近F,但是要考慮計(jì)算時(shí)間。
構(gòu)造級聯(lián)分類器的算法:
(1)確定每級的最大誤檢率 f,最小檢測率 d,以及最終的級聯(lián)分類器誤檢率 F_obj
(2)P = 目標(biāo)訓(xùn)練樣本,N = 非目標(biāo)訓(xùn)練樣本,F(xiàn)_0 = 1.0, D_0 = 1.0, i = 0
(3)F_i > F_obj 時(shí),執(zhí)行循環(huán):
???? a) i =i +1??
???? b) n_i= 0 , F_i = F_i-1
???? c) F_i > f * F_i-1 時(shí),執(zhí)行循環(huán):
???????? i) n_i = n_i? + 1
???????? ii) 利用Adaboost算法訓(xùn)練P和N上具有 n_i 個(gè)特征的強(qiáng)分類器
???????? iii) 計(jì)算當(dāng)前級聯(lián)分類器的檢測率 D_i 和 F_i
???????? iv) 降低第 i 級強(qiáng)分類器閾值知道當(dāng)前級聯(lián)分類器檢測率達(dá)到 d * D_i-1
???? d) N = 空集
???? e) 如果F_i > F_obj,用當(dāng)前的級聯(lián)分類器檢測非目標(biāo)圖像,將誤識別的圖像放入集合N,進(jìn)行Bootstrap過程。(Bootstrap是從離線樣本集合向訓(xùn)練樣本集合中補(bǔ)充訓(xùn)練樣本,形成動態(tài)訓(xùn)練集,將正確分類的負(fù)樣本直接丟棄,錯(cuò)誤分類的負(fù)樣本送入下一級,隨著訓(xùn)練進(jìn)行,負(fù)樣本難度不斷增加)
(4)輸出滿足要求的分類器

【使用級聯(lián)分類器進(jìn)行檢測】
檢測窗掃描整幅圖像。為了提高檢測速度,應(yīng)該盡早丟棄容易判別的非目標(biāo)區(qū)域,訓(xùn)練時(shí)給每一個(gè)弱分類器設(shè)置一個(gè)拒絕閾值,如果樣本累計(jì)輸出大于閾值則送入下一級繼續(xù)分類,否則就直接標(biāo)記為負(fù)樣本區(qū)域

首先第一個(gè)分類器的輸入是所有的子窗口,然后通過級聯(lián)的分類器去除掉一些子窗口,這樣能夠有效地降低窗口的數(shù)目,具體的去除方法就是如果任何一個(gè)級聯(lián)分類器提出拒絕,那么后續(xù)的分類器就不需要處理之前分類器的子窗口。
通過這樣的一種機(jī)制能夠有效地去掉較多的子窗口,因?yàn)檩^大部分的子窗口中都沒有所要檢測的物體。
2、基于隨機(jī)幾何模型的遙感目標(biāo)檢測
有一類遙感人造地物目標(biāo)結(jié)構(gòu)相對復(fù)雜但是幾何部件特性相對單一,可以使用基于隨機(jī)幾何理論的建模方法,通過對目標(biāo)及其組件的組合式建模對物體形狀位置等隨機(jī)變化特征進(jìn)行統(tǒng)計(jì)分析。
目標(biāo)部件結(jié)構(gòu):提出可變形模板,用若干幾何圖形來擬合目標(biāo)的輪廓。
【點(diǎn)過程】
描述隨機(jī)點(diǎn)分布的隨機(jī)過程。很多隨機(jī)現(xiàn)象發(fā)生的時(shí)刻、地點(diǎn)、狀態(tài)等往往可以用某一空間上的點(diǎn)來表示。例如,服務(wù)臺前顧客的到來時(shí)刻,真空管陰極電子的發(fā)射時(shí)刻,可表為實(shí)軸上的點(diǎn)。又如,天空中某一區(qū)域內(nèi)星體的分布,核醫(yī)療中放射性示蹤物質(zhì)在人體器官的各處出現(xiàn),不同能級地震的發(fā)生,都可用二維以上空間的點(diǎn)表示。點(diǎn)過程就是描述這類現(xiàn)象的理想化的數(shù)學(xué)模型。它在隨機(jī)服務(wù)系統(tǒng)、交通運(yùn)輸、物理學(xué)和地球物理學(xué)、生態(tài)學(xué)、神經(jīng)生理學(xué)、傳染病學(xué)、信息傳輸、核醫(yī)療學(xué)等很多方面都有應(yīng)用。
對于X的點(diǎn)過程是從一個(gè)概率空間到(N,N)的一個(gè)可度量映射N。N是最小域可數(shù)子集。

【標(biāo)值點(diǎn)過程】
標(biāo)值點(diǎn)過程(marked pointprocess)一種點(diǎn)過程。令點(diǎn)過程的每一點(diǎn)聯(lián)系一個(gè)標(biāo)值,就得到標(biāo)值點(diǎn)過程。設(shè){N(t),t}是一基本的點(diǎn)過程,如果對這過程的每一點(diǎn)t?(n=1,2,3,...)賦予一個(gè)輔助的隨機(jī)變量u?,并稱之為聯(lián)系于該點(diǎn)的標(biāo)值,變量u隨機(jī)地取值于某一標(biāo)值空間au,這種每一點(diǎn)都帶有一個(gè)標(biāo)值的點(diǎn)過程即稱為標(biāo)值點(diǎn)過程。
標(biāo)值點(diǎn)過程用于目標(biāo)提取,主要有兩個(gè)優(yōu)勢,一、該方法是一種面向?qū)ο蟮姆椒ǘ?、該方法是基于統(tǒng)計(jì)框架的。
從像素到對象
傳統(tǒng)的道路提取的方法一般是建立在基于像素級別的光譜信息分析的基礎(chǔ)上,它們的共同特征是主要使用圖像的強(qiáng)度量即灰度值的統(tǒng)汁信息,而對地物形狀、結(jié)構(gòu)等信息的分析很少涉及。在高分辨率圖像中,道路表現(xiàn)為具有一定的寬度的“面狀物”,具有豐富的細(xì)節(jié)信息,并存在較多的噪聲干擾車輛、樹木、陰影等,使用像素級方法一般很難得到較好的提取結(jié)果。面向?qū)ο蟮乃枷雭碓从谲浖こ填I(lǐng)域,其特點(diǎn)是將影像對象作為影像分析的基本單元。影像對象是指影像分割后若干“同質(zhì)”像素的集合。在很多特征信息提取的問題中,能夠完整表現(xiàn)目標(biāo)特征的并非單個(gè)像元,而是那些“同質(zhì)”像素的集合,因此,基于對象的分析方法更符合實(shí)際情況,能更好地利用目標(biāo)的特征。采用面向?qū)ο蟮姆椒ㄓ幸韵聝?yōu)勢一、可以較好的解決噪聲問題,噪聲區(qū)域?qū)⒑推渲苓叺南裨黄鸷喜⒌教囟ǖ挠跋駥ο笾腥ザ?、可充分利用目?biāo)的幾何結(jié)構(gòu)特征長、寬等和光譜特征方差、均值等三、可充分利用目標(biāo)的空間特征距離、方向等,使專家知識能直接指導(dǎo)圖像分析?;跇?biāo)值點(diǎn)過程提取目標(biāo)的方法是一種面向?qū)ο蟮姆椒?。這種方法根據(jù)對象的幾何特征建立模型,根據(jù)目標(biāo)的光譜特性建立數(shù)據(jù)項(xiàng),根據(jù)目標(biāo)的拓?fù)湫再|(zhì)等空間特性建立先驗(yàn)項(xiàng)。
統(tǒng)計(jì)方法
標(biāo)值點(diǎn)過程的方法克服了MRF的不足。它從對象的角度建立目標(biāo)的模型,每個(gè)標(biāo)值點(diǎn)可以表示復(fù)雜的結(jié)構(gòu),可以較好的解決噪聲問題。而且,這種方法可以通過定義標(biāo)值點(diǎn)之間的相互關(guān)系來描述目標(biāo)形狀和全局結(jié)構(gòu)。
3、基于主題語義模型的遙感目標(biāo)提取
融合了檢測和分割兩個(gè)過程。首先通過多尺度分割,在大尺度圖像上定位感興趣目標(biāo)所在的區(qū)域,然后利用“最優(yōu)語義標(biāo)記結(jié)果”的自動選擇分割提取目標(biāo)的精確輪廓。

將圖像比作文本,將圖像中存在的目標(biāo)比作文本主題,不同目標(biāo)對應(yīng)不同的主題,圖像即為不同模型的混合體。下面的方法首先對圖像進(jìn)行多尺度分割,獲取圖像中各類目標(biāo)以及其背景在各個(gè)尺度上的分割結(jié)果,然后自動提取特征,并且結(jié)合主題語義模型,對圖像各個(gè)尺度中包含的先驗(yàn)知識和相互關(guān)系進(jìn)行定量計(jì)算。
【分水嶺分割】
利用分水嶺進(jìn)行圖像分割的方法。它是一種區(qū)域分割法,區(qū)域分割法利用圖像的空間性質(zhì),以像素點(diǎn)之間的相似性為依據(jù),根據(jù)不同的分割準(zhǔn)則進(jìn)行圖像分割。這樣能彌補(bǔ)閾值、邊緣檢測、輪廓檢測中忽略像素點(diǎn)空間關(guān)系的缺點(diǎn)。分水嶺分割是基于自然的啟發(fā)算法來模擬水流通過地形起伏的現(xiàn)象從而研究總結(jié)出來的一種分割方法,其基本原理是將圖像特征看作地理上的地貌特征,利用像素的灰度值分布特征,對每個(gè)符合特征的區(qū)域進(jìn)行劃分,形成邊界以構(gòu)成分水嶺。下面是分水嶺算法的物理模型:

在上面的水嶺算法示意圖中局部極小值、積水盆地,分水嶺線以及水壩的概念可以描述為:
(1)區(qū)域極小值:導(dǎo)數(shù)為0的點(diǎn),局部范圍內(nèi)的最小值點(diǎn);
(2)集水盆(匯水盆地):當(dāng)“水”落到匯水盆地時(shí),“水”會自然而然地流到匯水盆地中的區(qū)域極小值點(diǎn)處。每一個(gè)匯水盆地中有且僅有一個(gè)區(qū)域極小值點(diǎn);集水盆地就是要識別的物體區(qū)域
(3)分水嶺:當(dāng)“水”處于分水嶺的位置時(shí),會等概率地流向多個(gè)與它相鄰的匯水盆地中;
(4)水壩:人為修建的分水嶺,防止相鄰匯水盆地之間的“水”互相交匯影響。
分水嶺算法最大的不足在于過分割現(xiàn)象,為此在分割之前利用非線性濾波算法對原始圖像進(jìn)行去噪和平滑,之后對分割后的結(jié)果圖像進(jìn)行多尺度區(qū)域合并算法進(jìn)行合并。
【目標(biāo)候選區(qū)域的生成】
首先通過圖像的多尺度分割對訓(xùn)練圖像在不同尺度下進(jìn)行不同分割數(shù)目的劃分,把圖像表現(xiàn)為圖像塊的集合。之后對過小區(qū)域進(jìn)行合并。合并準(zhǔn)則的主要依據(jù)是圖像的光譜和形狀信息。



合并的具體步驟為:
(1)從初始結(jié)果得到區(qū)域的鄰接圖(RAG)
(2)計(jì)算初始分割中最小的區(qū)域面積定義為C_min
(3)挑選出所有面積為C_min的區(qū)域,并根據(jù)鄰接圖找出相鄰區(qū)域,弱=如果區(qū)域?yàn)楣铝^(qū)域,鄰域區(qū)域?yàn)榘瑓^(qū)域
(4)計(jì)算被挑選出的區(qū)域與鄰接區(qū)域的同質(zhì)性度量值(合并準(zhǔn)則),保存具有最小同質(zhì)性值的區(qū)域?qū)?/p>
(5)合并上一步中的區(qū)域?qū)?/p>
(6)重新計(jì)算鄰接圖(RAG),計(jì)算合并后新圖像的C_min
(7)如果新圖像C_min大于閾值則輸出結(jié)果,否則返回(3)
【特征提取】
總希望提取簡單而穩(wěn)定的特征。主要包括Harris-Affine特征和MSER特征
【Harris角點(diǎn)】
在現(xiàn)實(shí)世界中,角點(diǎn)對應(yīng)于物體的拐角,道路的十字路口、丁字路口等。從圖像分析的角度來定義角點(diǎn)可以有以下兩種定義:1)角點(diǎn)可以是兩個(gè)邊緣的角點(diǎn);2)角點(diǎn)是鄰域內(nèi)具有兩個(gè)主方向的特征點(diǎn);
人眼對角點(diǎn)的識別通常是在一個(gè)局部的小區(qū)域或小窗口完成的。如果在各個(gè)方向上移動這個(gè)特征的小窗口,窗口內(nèi)區(qū)域的灰度發(fā)生了較大的變化,那么就認(rèn)為在窗口內(nèi)遇到了角點(diǎn)。如果這個(gè)特定的窗口在圖像各個(gè)方向上移動時(shí),窗口內(nèi)圖像的灰度沒有發(fā)生變化,那么窗口內(nèi)就不存在角點(diǎn);如果窗口在某一個(gè)方向移動時(shí),窗口內(nèi)圖像的灰度發(fā)生了較大的變化,而在另一些方向上沒有發(fā)生變化,那么,窗口內(nèi)的圖像可能就是一條直線的線段。

對于圖像I(x,y),當(dāng)在點(diǎn)(x,y)處平移(Δx,Δy)后的自相似性,可以通過自相關(guān)函數(shù)給出:


橢圓函數(shù)特征值與圖像中的角點(diǎn)、直線(邊緣)和平面之間的關(guān)系如下圖所示。共可分為三種情況:
圖像中的直線。一個(gè)特征值大,另一個(gè)特征值小,λ1?λ2或λ2?λ1。自相關(guān)函數(shù)值在某一方向上大,在其他方向上小。
圖像中的平面。兩個(gè)特征值都小,且近似相等;自相關(guān)函數(shù)數(shù)值在各個(gè)方向上都小。
圖像中的角點(diǎn)。兩個(gè)特征值都大,且近似相等,自相關(guān)函數(shù)在所有方向都增大。

根據(jù)二次項(xiàng)函數(shù)特征值的計(jì)算公式,我們可以求M(x,y)矩陣的特征值。但是Harris給出的角點(diǎn)差別方法并不需要計(jì)算具體的特征值,而是計(jì)算一個(gè)角點(diǎn)響應(yīng)值R來判斷角點(diǎn)。R的計(jì)算公式為:

式中,detM為矩陣M的行列式;traceM為矩陣M的直跡;α為經(jīng)常常數(shù),取值范圍為0.04~0.06。事實(shí)上,特征是隱含在detM和traceM中,因?yàn)椋?/p>

可以將Harris圖像角點(diǎn)檢測算法歸納如下,共分以下五步:

Harris角點(diǎn)檢測算子對亮度和對比度的變化不敏感,具有旋轉(zhuǎn)不變性,不具有尺度不變性
Harris角點(diǎn)檢測雖然對于光照強(qiáng)度、旋轉(zhuǎn)角度改變具有較好的檢測不變性,但是卻不具有尺度不變性及仿射不變性,然后在現(xiàn)實(shí)生活中,兩張圖片中目標(biāo)物體發(fā)生尺度變化,或由視點(diǎn)變化而引起仿射變化是非常常見的。為了獲得尺度不變性,比較直觀的方法就是建立多尺度空間(類似于sift方法),對于每個(gè)特征位置都有在不同尺度下的表示,那么在匹配時(shí)只要找到對應(yīng)尺度空間下的特征點(diǎn)就可以了。所以我們只需要在經(jīng)典的方法里引入多尺度空間,在原特征點(diǎn)空間里增加了多個(gè)其他尺度空間的特征點(diǎn),這些增加的特征點(diǎn)對應(yīng)于不同的尺度空間的圖像,增加了目標(biāo)尺度變化的魯棒性,使其具有了一定程度的尺度不變性。
【MSER特征】
MSER(最穩(wěn)定極值區(qū)域)基于分水嶺的概念:對圖像進(jìn)行二值化,二值化閾值取[0, 255],這樣二值化圖像就經(jīng)歷一個(gè)從全黑到全白的過程(就像水位不斷上升的俯瞰圖)。在這個(gè)過程中,有些連通區(qū)域面積隨閾值上升的變化很小,這種區(qū)域就叫MSER。
如把灰度圖看成高低起伏的地形圖,其中灰度值看成海平面高度的話,MSER的作用就是在灰度圖中找到符合條件的坑洼。條件為坑的最小高度,坑的大小,坑的傾斜程度,坑中如果已有小坑時(shí)大坑與小坑的變化率。


以上便是對坑的舉例,MSER主要流程就三部分組成:
1.預(yù)處理數(shù)據(jù)
2.遍歷灰度圖
3.判斷一個(gè)區(qū)域(坑洼)是否滿足條件
簡單來說,就如將水注入這個(gè)地形中。水遇到低處就往低處流,如果沒有低處了,水位就會一點(diǎn)點(diǎn)增長,直至淹沒整個(gè)地形。在之前預(yù)處理下數(shù)據(jù),在水位提高時(shí)判斷下是否滿足條件。
【主題語義建?!?/h3>
可以采用pLSA模型分析每個(gè)候選區(qū)域包含的特征信息。圖像候選區(qū)域視為文檔(document),待分割提取的目標(biāo)為文檔主題(topic),候選區(qū)域包含的特征就是文檔中的單詞(word)。
用pLSA模型統(tǒng)計(jì)圖像上的特征分布,而后擬合成若干個(gè)已知的主題類別的混合。對于每幅圖像,計(jì)算得到原始圖像的特征描述子后按照不同尺度不同的劃分規(guī)則分配給每個(gè)候選區(qū)域,這樣不同尺度的候選區(qū)域就包含數(shù)量不同和各種類別的特征描述子,用特征描述子的直方圖形式表達(dá)候選區(qū)域信息。
【pLSA】
1.詞袋模型?
? 詞袋模型(BOW, Bag-of-Words) 模型是NLP領(lǐng)域中的一個(gè)基本假設(shè),一個(gè)文檔(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分,存在缺陷:
? 稀疏性: 對于大詞典,尤其是包括了生僻字的詞典,文檔稀疏性不可避免;
? 多義詞: BOW模型只統(tǒng)計(jì)單詞出現(xiàn)的次數(shù),而忽略了一個(gè)詞可能存在多種含義,一詞多義;
? 同義詞(Synonym): 多個(gè)單詞可以表示同一個(gè)意思,一義多詞;
從同義詞和多義詞問題可以看到:單詞也許不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關(guān)系,我們稱之為主題(Topic),我們更關(guān)注隱藏在詞之后的意義和概念。在寫文章時(shí)首先確定的是文章的主題,再根據(jù)主題選擇合適的單詞來表達(dá)觀點(diǎn)。在BOW模型中引入Topic的因素,即潛在語義分析(LSA, Latent SemanticAnalysis)和概率潛在語義分析(pLSA,probabilistic Latent Semantic Analysis)
2.LSA模型
? ? LSA的基本思想就是,將document從稀疏的高維Vocabulary空間映射到一個(gè)低維的向量空間,我們稱之為隱含語義空間(Latent Semantic Space).
??? ?具體說來就是對一個(gè)大型的文檔集合使用一個(gè)合理的維度建模,并將詞和文檔都表示到該空間,比如有2000個(gè)文檔,包含7000個(gè)索引詞,LSA使用一個(gè)維度為100的向量空間將文檔和詞表示到該空間,進(jìn)而在該空間進(jìn)行信息檢索。

在圖上,每一個(gè)圓圈表示一個(gè)主題,每一個(gè)紅色的點(diǎn),都表示一個(gè)詞,每一個(gè)藍(lán)色的點(diǎn),都表示一篇文檔,這樣我們可以對這些詞和文檔進(jìn)行聚類,比如說 stock 和 market 可以放在一類,因?yàn)樗麄兝鲜浅霈F(xiàn)在一起,real 和 estate 可以放在一類,dads,guide 這種詞就看起來有點(diǎn)孤立了,我們就不對他們進(jìn)行合并了。按這樣聚類出現(xiàn)的效果,在某個(gè)主題下,會有多個(gè)文檔和多個(gè)單詞。
而將文檔表示到此空間的過程就是SVD奇異值分解和降維的過程。降維是LSA分析中最重要的一步,通過降維,去除了文檔中的“噪音”,也就是無關(guān)信息(比如詞的誤用或不相關(guān)的詞偶爾出現(xiàn)在一起),語義結(jié)構(gòu)逐漸呈現(xiàn)。

每個(gè)奇異值對應(yīng)的是每個(gè)“語義”維度的權(quán)重,將不太重要的權(quán)重置為0,只保留最重要的維度信息,去掉一些信息“nosie”,因而可以得到文檔的一種更優(yōu)表示形式。理解:矩陣 U 中的每一列表示一個(gè)關(guān)鍵詞,每個(gè)key word與各個(gè)詞的相關(guān)性,數(shù)值越大越相關(guān);矩陣 V 中的每一行表示一類主題,其中的每個(gè)非零元素表示一個(gè)主題與一個(gè)文檔的相關(guān)性。中間的矩陣 D 則表示文章主題和keyword之間的相關(guān)性。因此,我們只要對關(guān)聯(lián)矩陣 X 進(jìn)行一次奇異值分解,我們就可以同時(shí)完成了近義詞分類和文章的分類。(同時(shí)得到每個(gè)主題的相關(guān)性)。
?LSA的優(yōu)點(diǎn)
1)低維空間表示可以刻畫同義詞,同義詞會對應(yīng)著相同或相似的主題。
2)降維可去除部分噪聲,是特征更魯棒。
3)充分利用冗余數(shù)據(jù)。
4)無監(jiān)督/完全自動化。
5)與語言無關(guān)。
LSA的缺點(diǎn)
LSA可以處理向量空間模型無法解決的一義多詞(synonymy)問題,但不能解決一詞多義(polysemy)問題。因?yàn)?b>LSA將每一個(gè)詞映射為潛在語義空間中的一個(gè)點(diǎn),也就是說一個(gè)詞的多個(gè)意思在空間中對于的是同一個(gè)點(diǎn),并沒有被區(qū)分
3.PLSA模型
假設(shè)你要寫M篇文檔,由于一篇文檔由各個(gè)不同的詞組成,所以你需要確定每篇文檔里每個(gè)位置上的詞。再假定你一共有K個(gè)可選的主題,有V個(gè)可選的詞,咱們來玩一個(gè)扔骰子的游戲。
? 1. 假設(shè)你每寫一篇文檔會制作一顆K面的“文檔-主題”骰子(扔此骰子能得到K個(gè)主題中的任意一個(gè)),和K個(gè)V面的“主題-詞項(xiàng)” 骰子(每個(gè)骰子對應(yīng)一個(gè)主題,K個(gè)骰子對應(yīng)之前的K個(gè)主題,且骰子的每一面對應(yīng)要選擇的詞項(xiàng),V個(gè)面對應(yīng)著V個(gè)可選的詞)。
? ?比如可令K=3,即制作1個(gè)含有3個(gè)主題的“文檔-主題”骰子,這3個(gè)主題可以是:教育、經(jīng)濟(jì)、交通。然后令V =
3,制作3個(gè)有著3面的“主題-詞項(xiàng)”骰子,其中,教育主題骰子的3個(gè)面上的詞可以是:大學(xué)、老師、課程,經(jīng)濟(jì)主題骰子的3個(gè)面上的詞可以是:市場、企業(yè)、金融,交通主題骰子的3個(gè)面上的詞可以是:高鐵、汽車、飛機(jī)。
? 2. 每寫一個(gè)詞,先扔該“文檔-主題”骰子選擇主題,得到主題的結(jié)果后,使用和主題結(jié)果對應(yīng)的那顆“主題-詞項(xiàng)”骰子,扔該骰子選擇要寫的詞。???? {每篇文檔有不同的文檔-主題 骰子}
? ?先扔“文檔-主題”的骰子,假設(shè)(以一定的概率)得到的主題是教育,所以下一步便是扔教育主題篩子,(以一定的概率)得到教育主題篩子對應(yīng)的某個(gè)詞:大學(xué)。
上面這個(gè)投骰子產(chǎn)生詞的過程簡化下便是:“先以一定的概率選取主題,再以一定的概率選取詞”。事實(shí)上,一開始可供選擇的主題有3個(gè):教育、經(jīng)濟(jì)、交通,那為何偏偏選取教育這個(gè)主題呢?其實(shí)是隨機(jī)選取的,只是這個(gè)隨機(jī)遵循一定的概率分布。比如3個(gè)主題的概率分布是{教育:0.5,經(jīng)濟(jì):0.3,交通:0.2}, ?????我們把各個(gè)主題z在文檔d中出現(xiàn)的概率分布稱之為主題分布,且是一個(gè)多項(xiàng)分布。
同樣的,從主題分布中隨機(jī)抽取出教育主題后,依然面對著3個(gè)詞:大學(xué)、老師、課程,這3個(gè)詞都可能被選中,但它們被選中的概率也是不一樣的。比如3個(gè)詞的概率分布是{大學(xué):0.5,老師:0.3,課程:0.2},我們把各個(gè)詞語w在主題z下出現(xiàn)的概率分布稱之為詞分布,這個(gè)詞分布也是一個(gè)多項(xiàng)分布。
所以,選主題和選詞都是兩個(gè)隨機(jī)的過程,先從主題分布{教育:0.5,經(jīng)濟(jì):0.3,交通:0.2}中抽取出主題:教育,然后從該主題對應(yīng)的詞分布{大學(xué):0.5,老師:0.3,課程:0.2}中抽取出詞:大學(xué)。
3. 最后,你不停的重復(fù)扔“文檔-主題”骰子和”主題-詞項(xiàng)“骰子,重復(fù)N次(產(chǎn)生N個(gè)詞),完成一篇文檔,重復(fù)這產(chǎn)生一篇文檔的方法M次,則完成M篇文檔。





4、在訓(xùn)練圖像上的應(yīng)用
假設(shè)存在M個(gè)文檔(樣本候選區(qū)域),對應(yīng)N個(gè)詞匯(特征)分布,n(s_i,f_i)表示候選區(qū)域s_i 中特征f_i出現(xiàn)的次數(shù),而隱含目標(biāo)類別變量t_g與單個(gè)特征在特定區(qū)域中的出現(xiàn)概率相關(guān)聯(lián)。隱含概率語義模型的目的是學(xué)習(xí)P(f_i | t_g)和P(t_g|s_i),求得模型參數(shù)后對各個(gè)圖層中待標(biāo)記區(qū)域求解對應(yīng)標(biāo)記的概率,概率值P(t_g|s_i)越大說明該位置屬于目標(biāo)的可能性越大
【分割區(qū)域語義判定】
經(jīng)過對測試圖像的多尺度分割和特征提取與描述,再根據(jù)生成的主題和單詞的對應(yīng)關(guān)系,計(jì)算各個(gè)候選區(qū)域與各個(gè)主題的相似度。最后選擇合適的主題作為該候選主題的所屬主題,實(shí)現(xiàn)圖像目標(biāo)的分割。
基于KL距離的語義相關(guān)函數(shù),對層次之間的不同候選區(qū)域的語義關(guān)系進(jìn)行定量分析,并確定圖像塊的語義屬性。
1、KL距離
是Kullback-Leibler差異(Kullback-Leibler Divergence)的簡稱,也叫做相對熵(Relative Entropy)。它衡量的是相同事件空間里的兩個(gè)概率分布的差異情況。其物理意義是:在相同事件空間里,概率分布P(x)對應(yīng)的每個(gè)事件,若用概率分布Q(x)編碼時(shí),平均每個(gè)基本事件(符號)編碼長度增加了多少比特。我們用D(P||Q)表示KL距離,計(jì)算公式如下:

概率分布P(X)的信息熵為:

利用KL距離計(jì)算圖像區(qū)域和詞統(tǒng)計(jì)模型之間的差異,進(jìn)而統(tǒng)計(jì)候選區(qū)域的語義相關(guān)系數(shù)向量,進(jìn)行候選區(qū)域的語義相關(guān)系數(shù)向量,進(jìn)行候選區(qū)域的語義分析,最終確定候選區(qū)域的語義屬性。

第l個(gè)圖像在詞空間向量的表示為P_l(x),第k個(gè)主題的詞分布記作Q_k(x)。圖像區(qū)域和主題之間的KL距離為

根據(jù)KL距離定義的語義相關(guān)系數(shù)為依據(jù),計(jì)算出語義屬性,將語義屬性和閾值進(jìn)行比較,得到目標(biāo)提取的結(jié)果