轉(zhuǎn)載:圖像特征提取與特征選擇基本方法總結(jié)
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/zx799959906/article/details/39369543
圖像特征的提取和選擇是圖像處理過(guò)程中很重要的環(huán)節(jié),對(duì)后續(xù)圖像分類有著重要的影響,并且對(duì)于圖像數(shù)據(jù)具有樣本少,維數(shù)高的特點(diǎn),要從圖像中提取有用的信息,必須對(duì)圖像特征進(jìn)行降維處理,特征提取與特征選擇就是最有效的降維方法,其目的是得到一個(gè)反映數(shù)據(jù)本質(zhì)結(jié)構(gòu)、識(shí)別率更高的特征子空間 。
一.原始特征提取
1.圖像的基本特征
顏色特征
形狀特征
紋理特征
空間關(guān)系特征
2.基于顏色特征的提取方法?
顏色直方圖
顏色集,是對(duì)顏色直方圖的一種近似,其將圖像表達(dá)為一個(gè)二進(jìn)制的顏色索引集
顏色矩,其將圖像中任何的顏色分布用它的矩來(lái)表示
顏色聚合向量
顏色相關(guān)圖
顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì)。由于顏色對(duì)圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好的捕捉圖像中對(duì)象的局部特征。另外,僅使用顏色特征查詢時(shí),如果數(shù)據(jù)庫(kù)很大,常會(huì)將許多不需要的圖像也檢索出來(lái)。顏色直方圖是最常用的表達(dá)顏色特征的方法,其優(yōu)點(diǎn)是不受圖像旋轉(zhuǎn)和平移變化的影響,進(jìn)一步借助歸一化還可不受圖像尺度變化的影響,基缺點(diǎn)是沒(méi)有表達(dá)出顏色空間分布的信息。
3.基于紋理特征的提取方法
基于統(tǒng)計(jì)的灰度共生矩陣和能量譜函數(shù)法
幾何法,例如基于圖像基元的結(jié)構(gòu)化方法
模型法,以圖像的構(gòu)造模型為基礎(chǔ),采用模型參數(shù)作為紋理特征,典型的方法有隨機(jī)場(chǎng)模型法
信號(hào)處理法,例如,小波變換
紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì)。作為一種統(tǒng)計(jì)特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對(duì)于噪聲有較強(qiáng)的抵抗能力。但紋理只是一種物體表面的特性,無(wú)法完全反映出物體的本質(zhì)屬性,所以僅利用紋理特征無(wú)法獲得高層次圖像內(nèi)容,且紋理特征還有一個(gè)很明顯的缺點(diǎn)是當(dāng)圖像的分辨率變化的時(shí)候,所計(jì)算出來(lái)的紋理可能會(huì)有較大偏差。
4.基于形狀特征的提取方法
基于邊界的,例如Hough變換,傅里葉變換等
基于區(qū)域的,例如矩不變量,幾何矩特征,轉(zhuǎn)動(dòng)慣量等
其他方法,例如有限元法,旋轉(zhuǎn)函數(shù)和小波描述符等
基于形狀特征的檢索方法都可以比較有效地利用圖像中感興趣的目標(biāo)來(lái)進(jìn)行檢索 ,但也存在一些問(wèn)題,例如當(dāng)目標(biāo)有變形時(shí)檢索結(jié)果就不太可靠,且許多形狀特征僅描述了目標(biāo)的局部特征,對(duì)全面描述目標(biāo)有較高的時(shí)間和空間要求等。
5.基于空間關(guān)系的特征提取方法
空間關(guān)系,是指圖像中分割出來(lái)的多個(gè)目標(biāo)之間的相互的空間位置或相對(duì)方向關(guān)系,這些關(guān)系可分為連接/鄰接關(guān)系、交疊/重疊關(guān)系和包含/包容關(guān)系等。提取圖像空間關(guān)系特征可以有兩種方法:一種方法是首先對(duì)圖像進(jìn)行自動(dòng)分割,劃分出圖像中所包含的對(duì)象或顏色區(qū)域,然后根據(jù)這些區(qū)域提取圖像特征,并建立索引;另一種方法則簡(jiǎn)單地將圖像均勻地劃分為若干規(guī)則子塊,然后對(duì)每個(gè)圖像子塊提取特征,并建立索引。
空間關(guān)系特征的使用可加強(qiáng)對(duì)圖像內(nèi)容的描述區(qū)分能力,但空間關(guān)系特征常對(duì)圖像或目標(biāo)的旋轉(zhuǎn)、反轉(zhuǎn)、尺度變化等比較敏感。另外,實(shí)際應(yīng)用中,僅僅利用空間信息往往是不夠的,不能有效準(zhǔn)確地表達(dá)場(chǎng)景信息。
6.小結(jié)
上述特征提取方法是圖像特征的初步獲取,其各有利弊。針對(duì)不同的實(shí)際問(wèn)題,可選擇適當(dāng)?shù)膱D像特征提取方法。但有時(shí)僅用單一的特征來(lái)進(jìn)行圖像檢索或匹配,其結(jié)果準(zhǔn)確度不高,為了提高準(zhǔn)確度,有人提出了多特征融合的圖像檢索或匹配技術(shù)。
二.特征提取
對(duì)于初步獲取的圖像特征,可能維數(shù)依然很大,且可能包含一定的無(wú)關(guān)或冗余特征。這里的特征提取是指從初步獲取的原始特征中通過(guò)一定的數(shù)學(xué)運(yùn)算得到一組新的特征也稱作特征變換,其可以有效的降低特征空間維數(shù)和消除特征之間可能存在的相關(guān)性,減少特征中的無(wú)用信息。
1.特征提取的基本方法
線性方法,如主成分分析法(PCA),線性判別分析法(LDA),多維尺度法(MDS)
非線性方法,如核方法(KPCA,KDA),流型學(xué)習(xí)
2.主成分分析法
PCA方法是從一組特征中通過(guò)求解最優(yōu)的正交變換,得到一組相互間方差最大的新特征,它們是原始特征的線性組合,且相互之間是不相關(guān)的,再對(duì)新特征進(jìn)行重要性排序,選取前幾個(gè)主成分。用較少的主成分來(lái)表示數(shù)據(jù),可以實(shí)現(xiàn)特征的降維,還可以消除數(shù)據(jù)中的噪聲。該算法不考慮樣本的類別信息,是一種無(wú)監(jiān)督的方法。
3.線性判別方法
該方法基本思想是將高維的數(shù)據(jù)樣本投影到最佳判別的矢量空間,以達(dá)到提取分類信息和壓縮特征空間維數(shù)的效果,投影后保證數(shù)據(jù)樣本在新的子空間類間距離最大和類內(nèi)距離最小,即樣本數(shù)據(jù)在該空間中有最佳的可分離性。Fisher線性判別分析是最具有代表性的LDA 法。
4.多維尺度法
MDS是一種很經(jīng)典的數(shù)據(jù)映射方法,其根據(jù)樣本之間的距離關(guān)系或不相似度關(guān)系在低維空間里生成對(duì)樣本的一種表示。MDS分為度量型和非度量型兩種,度量型MDS把樣本間的距離關(guān)系或不相似度關(guān)系看作一種定量的度量,盡可能的在低維空間里保持這種度量關(guān)系;非度量型MDS把樣本間的距離關(guān)系或不相似度關(guān)系看作一種定性的關(guān)系,在低維空間里只需保持這種關(guān)系的順序。
5.核主成分分析法
該方法對(duì)樣本進(jìn)行非線性變換,通過(guò)在變換空間進(jìn)行主成分分析來(lái)實(shí)現(xiàn)在原空間的非線性主成分分析。根據(jù)可再生希爾伯特空間的性質(zhì),在變換空間中的協(xié)方差矩陣可以通過(guò)原空間中的核函數(shù)進(jìn)行運(yùn)算,從而繞過(guò)復(fù)雜的非線性變換。核方法對(duì)于不同的問(wèn)題選擇合適的核函數(shù)類型,不同的核函數(shù)類型反映了對(duì)數(shù)據(jù)分布的不同假設(shè),也可以看作是對(duì)數(shù)據(jù)引入了一種非線性距離度量。
6.基于流型學(xué)習(xí)的方法
其基本思想是通過(guò)局部距離來(lái)定義非線性距離度量,在樣本分布較密集的情況下可以實(shí)現(xiàn)各種復(fù)雜的非線性距離度量。具體方法有:
等容特征映射(IsoMap)--歐氏距離累加
局部線性嵌入(LLE)--近鄰樣本線性重構(gòu)
拉普拉斯特征映射(LE)--鄰域選取和樣本間相似度表達(dá)
其他改進(jìn)算法
三.特征選擇
特征選擇也是降低特征空間維數(shù)的一種基本方法,它是用計(jì)算的方法從一組給定的特征中選出能夠有效識(shí)別目標(biāo)的最小特征子集。與特征提取最本質(zhì)的區(qū)別就是特征提取主要是從原特征空間到新特征空間的一種變換,特征提取到的子特征會(huì)失去對(duì)類別原有主觀意義的具體解釋,而特征選擇可以保持對(duì)這中具體意義的解釋。
1.特征選擇的基本步驟
候選特征子集的生成(搜索策略)
子集評(píng)價(jià)(評(píng)價(jià)準(zhǔn)則)
停止準(zhǔn)則
結(jié)果驗(yàn)證
2.特征選擇方法分類
根據(jù)搜索策略和評(píng)價(jià)準(zhǔn)則的不同,可對(duì)特征選擇方法進(jìn)行如下分類:
按搜索策略分:
基于全局尋優(yōu)的分支定界法
該方法是一種從包含所有候選特征開(kāi)始,逐步去掉不被選中的特征的自頂向下的方法,具有回溯的過(guò)程,能夠考慮到所有可能的組合。
其基本思想是:設(shè)法將所有可能的特征組合構(gòu)建成一個(gè)樹(shù)狀結(jié)構(gòu),按照特定的規(guī)律對(duì)樹(shù)進(jìn)行搜索,使得搜索過(guò)程盡可能早的達(dá)到最優(yōu)解而不必遍歷整棵樹(shù)。
要做到這一點(diǎn)必須要求準(zhǔn)則判據(jù)對(duì)特征具有單調(diào)性,且當(dāng)處理高維數(shù)據(jù)時(shí),算法復(fù)雜度較高,所以很難廣泛使用。
基于啟發(fā)式搜索的方法
很多情況下,即使采取分支定界法,全局尋優(yōu)的方法計(jì)算量可能仍然很大,因此提出了一些基于啟發(fā)式搜索的次優(yōu)選擇算法:?jiǎn)为?dú)最優(yōu)特征組合,序列前向選擇(SFS)及廣義的SFS(GSFS),序列后向選擇(SBS)及廣義的SBS(GSFS),增l去r選擇及廣義的增l去r選擇方法,浮動(dòng)搜索方法及浮動(dòng)的廣義后向選擇方法(FGSBS)等。
隨機(jī)搜索方法
該類方法在計(jì)算中將特征選擇問(wèn)題與遺傳算法、模擬退火算法、粒子群優(yōu)化算法,隨機(jī)森林或一個(gè)隨機(jī)重采樣過(guò)程結(jié)合起來(lái),以概率推理和采樣過(guò)程作為算法基礎(chǔ),基于分類估計(jì)的有效性,在算法運(yùn)行過(guò)程中對(duì)每個(gè)特征賦予一定的權(quán)重,再根據(jù)給定的或自適應(yīng)的閾值對(duì)特征的重要性進(jìn)行評(píng)價(jià)。例如,Relief及其擴(kuò)展算法就是一種典型的根據(jù)權(quán)重選擇特征的隨機(jī)搜索方法,它能有效的去掉無(wú)關(guān)特征,但不能去除冗余特征,且只能用于兩類分類問(wèn)題。
按評(píng)價(jià)準(zhǔn)則分:
特征選擇方法依據(jù)是否獨(dú)立于后續(xù)的學(xué)習(xí)算法可分為過(guò)濾式(Filter)和封裝式(Wrapper)和嵌入式(Embedded)三種。Filter方式獨(dú)立于學(xué)習(xí)算法,直接利用訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)特性來(lái)評(píng)估特征。Wrapper方式利用學(xué)習(xí)算法的訓(xùn)練準(zhǔn)確率來(lái)評(píng)價(jià)特征子集。Embedded方式結(jié)合了Filter和Wrapper方式。
Filter方式
Filter式的特征選擇方法一般使用評(píng)價(jià)準(zhǔn)則來(lái)使特征與類別間的相關(guān)性最大,特征間的相關(guān)性最小。該方式可以很快的排除掉很多不相關(guān)的噪聲特征,縮小優(yōu)化特征子集搜索的規(guī)模,計(jì)算效率高,通用性好,可用作特征的預(yù)篩選器。但當(dāng)特征和分類器息息相關(guān)時(shí),該方法不能保證選擇出一個(gè)優(yōu)化特征子集,即使能找到一個(gè)滿足條件的優(yōu)化子集,其計(jì)算規(guī)模也比較大。根據(jù)評(píng)價(jià)函數(shù)可分為四類:
a.基于距離度量的
常用的距離度量有:歐氏距離,Minkowski距離,Chebychev距離和平方距離等。
Relief及其擴(kuò)展算法ReliefF和RRelidfF,分支定界法和BFF算法都是基于距離度量的特征選擇算法。
b.基于信息度量的
常用信息度量:信息增益與互信息,信息增益:可以有效的選出關(guān)鍵特征,剔除無(wú)關(guān)特征;互信息:描述兩個(gè)隨機(jī)變量之間相互依存關(guān)系的強(qiáng)弱,常見(jiàn)算法如下:
基于互信息的MIFS算法
基于最小冗余最大相關(guān)(mRMR)的方法
基于互信息的快速濾波算法FCBF
基于條件互信息的CMIM算法
基于動(dòng)態(tài)互信息的特征選擇算法
由于信息熵理論不要求假定數(shù)據(jù)分布是已知的能夠以量化的形式度量特征間的不確定程度,且能有效地度量特征間的非線性關(guān)系,基于信息度量的特征選擇算法成為近年來(lái)研究的熱點(diǎn),提出了許多基于信息理論的改進(jìn)算法。
c.基于依賴性度量的
該方法利用一些統(tǒng)計(jì)相關(guān)系數(shù),如Pearson相關(guān)系數(shù),F(xiàn)isher得分,方差得分,t檢驗(yàn),秩和檢驗(yàn)或Hilbert-Schmidt依賴性準(zhǔn)則等來(lái)度量特征相對(duì)于類別可分離性間的重要性程度。有人提出了一種基于稀疏表示的特征選擇方法,且在人臉圖像聚類實(shí)驗(yàn)中取得了較好的結(jié)果。
d.基于一致性度量的
該方法其思想是尋找全集有相同區(qū)分能力的最小子集,盡可能保留原始特征的辨識(shí)能力。它具有單調(diào)、快速、去除冗余和不相關(guān)特征、處理噪聲等優(yōu)點(diǎn),但其對(duì)噪聲數(shù)據(jù)敏感,且只適合處理離散特征。
典型的算法有Focus,LVF等。
Wrapper方式
Wrapper方式依據(jù)選擇子集最終被用于構(gòu)造分類模型,把特征選擇算法作為學(xué)習(xí)算法的一個(gè)組成部分,直接使用訓(xùn)練結(jié)果的準(zhǔn)確率作為特征重要性程度的評(píng)價(jià)標(biāo)準(zhǔn)。該方法在速度上要比Filter方式慢,但它所選的優(yōu)化特征子集規(guī)模相對(duì)要小的多,非常有利于關(guān)鍵特征的辨識(shí);同時(shí)其準(zhǔn)確率比較高,但泛化能力較差,時(shí)間復(fù)雜度較高。
目前,關(guān)于Wrapper方式的研究也比較多,例如:
Hsu等人用決策樹(shù)來(lái)進(jìn)行特征選擇,采用遺傳算法來(lái)尋找使得決策樹(shù)分類錯(cuò)誤率最小的一組特征子集
Chiang等人將Fisher判別分析與遺傳算法結(jié)合,用于化工故障過(guò)程中辨識(shí)關(guān)鍵變量,其效果也不錯(cuò)。
Guyon等人利用支持向量機(jī)的分類性能衡量特征的重要性,最終構(gòu)造了一個(gè)分類性能較高的分類器。
Krzysztof提出了一種基于相互關(guān)系的雙重策略的Wrapper特征選擇方法FFSR(fast feature subset ranking),以特征子集作為評(píng)價(jià)單位,以子集收斂能力作為評(píng)價(jià)標(biāo)準(zhǔn)
戴平等人提出了一種基于SVM的快速特征選擇方法
Embedded方式
針對(duì)Filter和Wrapper方式的利弊,提出了Embedded方式的特征選擇方法,該方式先用filter方法初步去掉無(wú)關(guān)或噪聲特征,只保留少量特征,減少后續(xù)搜索規(guī)模,然后再用Wrapper方法進(jìn)一步優(yōu)化,選擇分類準(zhǔn)確率最高的特征子集。例如,Li G-Z等人先使用互信息度量標(biāo)準(zhǔn)和隨機(jī)重采樣技術(shù)獲取前k個(gè)重要特征,再使用SVM構(gòu)造分類器。
四.總結(jié)
從圖像中提取特征,首先根據(jù)具體的問(wèn)題,判斷選取的圖像特征,如顏色或紋理。針對(duì)不同的特征選擇具體的提取方法,如常用的基于顏色特征的顏色直方圖或基于紋理的灰度共生矩陣和小波變換等。這是第一步對(duì)圖像原始特征的提取。由于原始特征可能維數(shù)很高,或包含大量的冗余特征和無(wú)關(guān)特征,會(huì)使后續(xù)算法的計(jì)算復(fù)雜度變得很高,所以進(jìn)一步進(jìn)行特征提取和特征選擇,抽取樣本最相關(guān)特征,降低數(shù)據(jù)維數(shù)和消除不相關(guān)特征和冗余特征。
統(tǒng)計(jì)意義上的特征提取是由獲取到的原始特征經(jīng)過(guò)線性或非線性變換得到較少數(shù)量且更具有的表達(dá)能力的新特征。常用的線性變換有PCA、LDA、MDS,非線性變換有KPCA、流型學(xué)習(xí)等。有時(shí)基本的特征提取方法由于自身的局限性或不能滿足在某些具體問(wèn)題中的要求,就需要對(duì)這些方法進(jìn)行改進(jìn)。例如,PCA不考慮樣本類別,因此得到的低維空間相對(duì)判別分類而言不是最優(yōu)的;在樣本類內(nèi)分布為高斯分布且協(xié)方差相同時(shí),LDA可以得到最優(yōu)線性判別分析轉(zhuǎn)換矩陣,但現(xiàn)實(shí)世界中類內(nèi)分布的復(fù)雜度遠(yuǎn)遠(yuǎn)超出了高斯分布;MDS方法中目標(biāo)函數(shù)的定義及對(duì)該目標(biāo)函數(shù)最小化選擇適合的優(yōu)化方法;KPCA方法中核函數(shù)的選擇與核函數(shù)的參數(shù)設(shè)定等,都需要根據(jù)具體的情況選擇與設(shè)定;關(guān)于流型學(xué)習(xí)中的各種方法,在樣本分布較稀疏時(shí),對(duì)近鄰樣本間距離的度量可能會(huì)有較大的偏差。
特征提取技術(shù)很難解釋新特征與樣本類別之間的相互關(guān)系,但在某些領(lǐng)域內(nèi)對(duì)這種相互關(guān)系的理解卻很重要,所以,在這種情況下,特征選擇就更加有效。特征選擇是指從原始特征中選擇最少的特征,使所選特征與類別之間具有最大相關(guān)度,特征與特征之間具有最小相關(guān)度。根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)是否依賴于具體的學(xué)習(xí)算法,特征選擇算法分為Filter,Wrapper,Embedded三種方式。Filter方式依據(jù)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)特征選擇最相關(guān)的特征,該方式主要是選取對(duì)樣本距離及相關(guān)性的度量準(zhǔn)則。直接依賴學(xué)習(xí)算法準(zhǔn)確率的Wrapper方式,主要是對(duì)學(xué)習(xí)算法的選擇,通常選擇SVM作為評(píng)估標(biāo)準(zhǔn)。Embeded方式將特征選擇視為學(xué)習(xí)算法的子系統(tǒng),該算法計(jì)算復(fù)雜度介于Wrapper和Filter方式之間,選擇的特征比Filter方式更準(zhǔn)確,但需要與新設(shè)計(jì)的算法相結(jié)合。
最后,獲取特征子集的選擇策略,在高維樣本空間對(duì)所有候選子集進(jìn)行評(píng)估測(cè)試是不實(shí)際的。最優(yōu)特征選擇算法-分支界定法不僅對(duì)準(zhǔn)則判據(jù)有要求,且計(jì)算量還是很大,所以又提出了基于啟發(fā)式的次優(yōu)選擇算法,還可以利用一些群智能的隨機(jī)搜索算法,例如GA、PSO、SAA,可以更好的提高搜索效率。