圖像識別

圖像識別意義:

圖像是指物體的描述信息,數(shù)字圖像是一個物體的數(shù)字表示。視覺是人類感知外部世界的最重要手段,據(jù)統(tǒng)計,在人類獲取的信息中,視覺信息占60%,而圖像正式人類獲取信息的重要途徑,因此,和視覺緊密相關(guān)的數(shù)字圖像處理技術(shù)的項目的開發(fā)越來越受到人們的關(guān)注,逐漸形成圖像識別技術(shù)。
  隨著數(shù)字圖像處理技術(shù)的發(fā)展和實際應用的需求。許多問題不要求其輸出結(jié)果是一幅完整的圖像本身,而是將經(jīng)過一定處理后的圖像再分割和描述,提取有效的特征,進而加以判斷分類,這種技術(shù)就是圖像的模式識別。
  圖像識別技術(shù)是利用計算機視覺采集物理對象,以圖像數(shù)據(jù)為基礎(chǔ),讓機器模仿人類視覺,自動完成某些信息的處理功能,達到人類所具有的對視覺采集圖像進行識別的能力,以代替人去完成圖像分類及辨別的任務。對圖像識別來說,面對的是二維數(shù)據(jù)信號或平面圖形,除掉它們各不相同的物理內(nèi)容,考慮對樣品數(shù)據(jù)分類這一共性來研究的,把同一種共性者歸為一類,另一種共性者歸為一類。要求在最小的錯誤概率條件下,使識別的結(jié)果盡量與客觀物體相符合,具備人所具有的對各種事物、現(xiàn)象進行分析、描述與判斷的能力。
  圖像的識別屬于當代計算機科學研究的重要領(lǐng)域,已發(fā)展成為一門獨立的學科。這一學科在近幾年里,發(fā)展十分迅速,應用范圍相當廣泛,幾乎遍及各個領(lǐng)域,從宇航領(lǐng)域拓展到生物科學、信息科學、資源環(huán)境科學、天文學、物理學、工業(yè)、農(nóng)業(yè)、國防、教育、藝術(shù)等各個領(lǐng)域與行業(yè),在國防經(jīng)濟、國防建設、社會治安和社會發(fā)展等方面得到廣泛應用,對整個社會都產(chǎn)生了深遠的影響。目前,光學字符識別(如手寫數(shù)字識別、郵政編碼識別、汽車牌號識別、漢字識別、條形碼識別等),以及生物特征識別(如人臉識別、指紋識別、虹膜識別等)已經(jīng)在人類日常生活中廣泛應用,對經(jīng)濟、軍事、文化及人們的日常生活產(chǎn)生重大影響。

光學字符識別(Optical Character Recognition, OCR)

光學字符識別使用OCR讀取設備和智能視覺系統(tǒng)軟件,識別可同時被機器和肉眼讀取的文本。OCR所使用的輸設備入設備可以是任何一種圖像采集設備,如CCD、掃描儀、數(shù)字相機等。通過使用這類采集設備,OCR系統(tǒng)將書寫者自己寫好的文字作為圖像輸入到計算機中,然后由計算機去識別。光學字符識別技術(shù)已經(jīng)廣泛應用于各種商業(yè)活動,現(xiàn)在又開始應用到自動化任務中。字符識別處理的信息可分為3大類:文字信息識別、數(shù)字信息識別和條形碼識別。

  • 文字信息識別對各民族文字書寫的或印刷的文本信息進行識別。如漢字識別,目前已經(jīng)趨向成熟,并推出很多應用系統(tǒng)。
  • 數(shù)字信息數(shù)別對阿拉伯數(shù)字和少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù)識別。如郵政編碼、汽車牌照、統(tǒng)計報表、財務報表、銀行票據(jù)等,處理這類信息的核心就是數(shù)字識別。常見的應用包括對郵局信件的分揀、車牌號讀取、同性證處理等。
  • 條形碼識別對由一組按特定編碼規(guī)則排列的寬度不等的多個黑條和空白組成的信息進行識別。根據(jù)條形碼的維度,通常將條形碼分為一維條形碼和二維條形碼。條形碼具有成本低、掃描速度快、識別可靠性高等優(yōu)點,同時為了克服條形碼不能被人工識別的缺點,又在條形碼的下方印上數(shù)字和字符,就成為條形碼識別和光學字符識別的雙重形式,條形碼可以標出物品的生產(chǎn)國、制造廠家、商品名稱、生產(chǎn)日期、圖書分類號、郵件起止地點等許多信息,因而在商品流通、圖書管理、郵政管理、銀行系統(tǒng)等許多領(lǐng)域都得到廣泛應用。

生物特征識別

生物特征識別就是采用某種技術(shù)和手段對人的身份進行標識,從而依據(jù)該標識對人進行身份識別,以達到監(jiān)督、管理和控制目的的一種技術(shù)。用于身份識別和個人信息管理的技術(shù)和手段層出不窮,傳統(tǒng)的個人信息鑒定方法包括個人特征。如身份證、工作者、學生證、磁卡、智能卡、口令密碼等,這些分身驗證方法普遍存在易丟失、易破解、易偽造、不易攜帶等缺點,而且在安全性和鑒定速度方面也已經(jīng)不能滿足人們的需求,這些技術(shù)雖然方便快捷,但其致命的缺點是安全性差、易偽造、易竊取等。近年來,計算機的廣泛應用使得生物特征識別進行身份識別成為可能。
  生物特征識別的方法越來越多地被應用于身份識別領(lǐng)域。生物特征識別技術(shù)(Biometric Identification Technology)是指人體固有的特征為判別標準,達到精確鑒定人身份的技術(shù)。這些固有特征包括人臉、虹膜、指紋、掌紋等,也被稱為生物模態(tài)。這些特征除了外傷等特殊情況下一般會伴隨人的一生,而不會改變或者變化很小。生物識別技術(shù)對每個個體都具有隨身攜帶性和持久性;對不同個體具有普遍性和唯一性等優(yōu)于傳統(tǒng)身份識別的特點?;谌祟惿锾卣鞯淖R別技術(shù)具有安全可靠、特征唯一、不易偽造、不可竊取等優(yōu)點。
  結(jié)合計算機技術(shù),發(fā)展起來了眾多jiy基于人類生物特征的人類身份識別技術(shù),如人臉識別技術(shù)、指紋識別技術(shù)、虹膜識別技術(shù)。這些識別技術(shù)具有特征錄入較為方便、信息豐富、使用范圍廣等優(yōu)點。因此有著廣闊的應用前景。
 ?。?)人臉識別主要通過人臉特征進行識別,也是人們最早使用的生物特征識別技術(shù)之一,是一種比較友好、直觀、更容易被人接受的識別方式。在實際應用中,人臉識別易于使用,無須使用者的主動參與,尤其適用于視屏監(jiān)控等應用。但人臉識別的缺點在于穩(wěn)定性較差,很容易受周圍環(huán)境、飾物、年齡、表情等干擾,造成錯誤的識別。另外,對雙胞胎、多胞胎的鑒別仍然無能為力。
 ?。?)虹膜識別主要基于虹膜的生理結(jié)構(gòu),利用虹膜中存在的細絲、斑點、凸點、射線、皺紋和條紋等特征進行識別。據(jù)稱,沒有任何兩個虹膜是一樣的。虹膜身份認證的可靠性高,其錯誤接受率和錯誤拒絕率很低。
 ?。?)指紋識別主要通過分析指紋的全局特征和局部特征進行識別,常用的特征如指紋中的嵴、谷、終點、分叉點和分歧點等。隨著指紋識別技術(shù)的發(fā)展和指紋采集設備的價格降低,指紋識別不僅廣泛應用于司法和商務活動中,也越來越多地在筆記本電腦、手機、存儲器等終端設備中使用。但采集指紋時要求保持手指的潔凈和光滑,污垢和疤痕都會給識別帶來困難。老年人和手工勞動者的指紋由于磨損嚴重而不易識別。另外,在實際采集中發(fā)現(xiàn),由于在犯罪記錄中常使用指紋,導致很多人害怕將指紋記錄在案,從心理上不愿意接收這種識別方式。
  目前,無論是字符識別(如手寫數(shù)字識別、郵政編碼識別、汽車牌照識別、文字識別等)還是人類生物特征識別(如人臉識別、指紋識別、虹膜識別等)的項目開發(fā)技術(shù),他們涉及數(shù)字圖像處理、模式識別、人工智能、智能計算等多個學科領(lǐng)域。隨著高科技的發(fā)展,這些項目應用已成為衡量當代高科技水平的重要手段。

圖像識別技術(shù):

圖像識別技術(shù)是數(shù)字圖像處理模式識別技術(shù)相結(jié)合的產(chǎn)物。數(shù)字圖象處理是利用計算機或其他數(shù)字設備對圖像信息進行各種加工和處理,以滿足目標識別需求的基礎(chǔ)行為。模式識別研究如何用機器來實現(xiàn)人對事物的學習、識別和判斷能力,因而是以滿足目標識別的判斷行為。
  為了模擬人類圖像識別活動,人們提出了不同的圖像識別模型。例如,模版匹配模型。這種模型認為,識別圖像中的某個物體,必須在過去的經(jīng)驗中有有這個圖像對對物體的記憶模式,又叫模板,當前的刺激如果能與大腦中的模板相匹配,這個物體就被識別了。
  圖像識別的基本過程是抽取代表未知樣本模式的本質(zhì)表達形式(如各種特征)和預先存儲在機器中的標準模式表達形式的集合(稱為字典)逐一匹配,用一定的準則進行判別,在機器存儲的標準模式表達形式的集合中,找到最接近輸入樣本子模式的表達形式,該表達模式對應的類別就是識別結(jié)果。因此,圖像識別技術(shù)是一種從大量信息和數(shù)據(jù)出發(fā),在已有經(jīng)驗和認識的基礎(chǔ)上,利用計算機和數(shù)學推理的方法自動完成圖像中物體的識別和評價的過程。
   圖像識別過程包括圖像采集(特征分析)、圖像預處理、特征提取、模式匹配4個環(huán)節(jié)。

單模態(tài)生物識別過程

  首先,通過高清攝像機、掃描儀或其他圖像采集儀器采集圖像的原始信息。圖像的采集過程中,由于設備的機械原因或是其他人為因素造成的圖像尺寸、角度、格式、光照強度等的不同,會對以后的操作產(chǎn)生較大影響,所以要對采集來的原始圖像進行預處理操作。圖像預處理的作用可以總結(jié)為:采用某種手段將圖像信息歸一化,以便于后續(xù)處理工作。圖像特征提取部分的作用是提取出最能表征一個物體的特征信息,并將其轉(zhuǎn)變成特征向量或矩陣的形式。模式匹配是指系統(tǒng)用待測圖像的特征與特征庫中的信息進行比對,通過選擇合適的分類器達到識別的目的。

關(guān)鍵技術(shù):

圖像識別處理的基本流程

1.圖像預處理

圖像預處理技術(shù)就是對圖像進行正式處理前所做的一系列操作。因為圖像在傳輸過程和存儲過程中難免會受到某種程度的破壞和各種各樣的噪聲污染,導致圖像喪失了本質(zhì)或者偏離了人們的需求,而這就需要一系列的預處理操作來消除圖像受到的影響。總的來說,圖像預處理技術(shù)分為兩大方面,即圖像增強和圖像復原技術(shù)。圖像增強技術(shù)在圖像預處理中占有較大的比重,是圖像預處理所必需的步驟,它與圖像復原技術(shù)的不同之處在于圖像復原是以恢復圖像原來的本質(zhì)為目的的。而圖像增強是以突出人們需要的特征并弱化不需要的特征為原理的。一般來說,圖像增強技術(shù)有兩種方法:空間域和頻率域法??臻g域法則主要是直接在空間域內(nèi)對圖像進行運算處理,分為兩個方面:點運算和領(lǐng)域運算(局部運算)。其中,點運算包括圖像灰度變換、直方圖均衡化和局部統(tǒng)計法等幾種方法;領(lǐng)域運算包括圖像平滑和圖像銳化等幾個方面。頻率域法則只在圖像的某種變換域里對圖像的變換值進行運算,如我們對圖像進行傅立葉變換,然后在變換域里對圖像的頻譜進行某種計算,最后把計算后的圖像逆變換到空間域。頻率域法通常分為高、低通濾波、頻率帶通和帶阻濾波等。圖像復原技術(shù)就是利用圖像的先驗知識來改變一副被退化的圖像的過程。圖像復原技術(shù)需要我們建立圖像模型,然后逆向反解這個退化過程,最后獲得退化前的最優(yōu)圖像。


2.變換域處理

圖像變換域處理是以空間頻率(波數(shù))為自變量描述圖像的特征的,可以將一幅圖像元值在空間上的變化分解為具有不同振幅、空間頻率和相位的簡振函數(shù)的線性疊加,圖像中各種空間頻率成分和分布稱為空間頻譜。這種對圖像的空間頻率特征進行分解、處理和分析稱為空間頻率域處理或波數(shù)域處理。在眾多的圖像變換技術(shù)中,常用的有離散余弦變換、沃什爾變換、傅立葉變換、Gabor變換和小波變換等。
  (1)離散余弦變換DCT變換矩陣的基向量由于近似于托伯利茲向量,常常被認為是對語言和圖像信號進行變換的最佳變換,雖然在壓縮效率上略遜于具有最好壓縮能力的K-L變換,但其可做到的高效處理型是K-L變換無法比擬的,并成為H.261、JPEG和MPEG等國際標準的主要環(huán)節(jié)。被廣泛應用于圖像編碼方面。
 ?。?)沃什爾變換是一種正交變換,能將相鄰取樣點的相關(guān)性消除掉,使信號能量集中在變換矩陣的左上角,其它部分出現(xiàn)很多零值;或在誤差允許范圍內(nèi),允許省略掉小值,這樣可以達到數(shù)據(jù)壓縮的目的。沃什爾變換在圖像傳輸、雷達、通信和生物醫(yī)學等領(lǐng)域曾得到廣泛應用。
 ?。?)傅立葉變換是一種常用的正交變換,其最主要的數(shù)學理論基礎(chǔ)就是傅立葉級數(shù),由著名數(shù)學家Fourier在1822年提出,其主要思想是將周期函數(shù)展開成正弦級數(shù)。傅立葉變換的提出奠定了圖像的理論基礎(chǔ),其通過在時空域和頻率域來回切換圖像,對圖像的信息特征進行提取和分析,簡化了計算工作量,被喻為描述圖像信息的第二種語言,廣泛應用于圖像變換、圖像編碼與壓縮、圖像分割和圖像重建中。
 ?。?)Gabor變換屬于加窗傅立葉變換,是短時Fourier變換中當窗函數(shù)取為高斯函數(shù)時的一種特殊情況。由于傅立葉變換存在一定的局限性,所以Gabor1946年提出了加窗傅立葉變換。加窗傅立葉變換方法的一個典型就是低通濾波器。Gabor 函數(shù)可以在頻域不同尺度和不同方向上提取相關(guān)特征。
  (5)小波變換受到傅立葉變換的啟發(fā),Morlet于1984年提出了小波分析的概念。1986年著名數(shù)學家Meyer和Mallat合作構(gòu)建了圖像小波函數(shù)的統(tǒng)一方法——多尺度分析。目前在圖像去噪應用方面,小波變換理論取得非常好的效果。
  頻率域去噪主要是由于有的圖像在空間域處理的效果并不理想,因此想到轉(zhuǎn)換到頻率域進行處理,即用一組正交的函數(shù)系去逼近要處理的目標函數(shù),從而進一步得到相應級數(shù)的系數(shù)。頻率域處理主要用于與圖像空間頻率有關(guān)的處理中,如圖像恢復、圖像重建、輻射變換、邊緣增強、圖像平滑、噪聲壓制、頻譜分析和紋理分析等處理和分析中。

3.特征提取

特征提取計算機所視覺和圖像處理中的一個概念,它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。特征提取的結(jié)果是把圖像上的點分為不同的子集,這些子集往往屬于孤立的點、連續(xù)曲線或者連續(xù)的區(qū)域。
  (1)特征選擇
  原始數(shù)量的特征很大,或者說原始樣本處于一個高維空間中,從一組特征挑選出一些最有效的特征以達到降低特征空間維數(shù)的目的,這個過程就叫做特征選擇。也就是說,將對類別可分離性無貢獻或者貢獻不大的特征簡單地忽略掉。特征選擇是圖像識別中的一個關(guān)鍵問題。
 ?。?)特征變換
  通過映射或變換的方法可以將高維空間中的特征描述用低維空間的特征來描述,這個過程就叫做特征變換。通過特征變換獲得的特征是原始特征集的某種組合,新的特征中包含了原有全體特征的信息。主成份分析法是最常用的特征變換方法。
  特征的選擇與提取是非常重要的,特征選擇是模式識別中的一個關(guān)鍵問題。由于在很多實際問題中常常不容易找到那些最重要的特征,或受條件限制不能對它們進行測量,這就使特征選擇與提取的任務復雜化而成為構(gòu)造模式識別系統(tǒng)中最困難的任務之一。這個問題已經(jīng)越來越受到人們的重視。特征選擇與提取的基本任務是如何從許多特征中找出那些最有效的特征。解決特征選擇與特征提取問題,最核心的內(nèi)容就是如何對現(xiàn)有特征進行評估,以及如何通過現(xiàn)有特征產(chǎn)生更好的特征。
  常見的圖像特征提取與描述方法如顏色特征、紋理特征和幾何形狀特征提取與描述方法。

4.模式識別

根據(jù)有無標準樣本,模式識別可分為監(jiān)督學習和非監(jiān)督學習。模式識別分類或描述通常是基于已經(jīng)得到分類或描述的模式集合而進行的,人們稱這個模式集合為訓練集,由此產(chǎn)生的學習策略稱為監(jiān)督學習。學習也可以是非監(jiān)督學習,在此意義下產(chǎn)生的系統(tǒng)不需要提供模式類的先驗知識,而是基于模式的統(tǒng)計規(guī)律或模式的相似性學習判斷模式的類別。

模式識別系統(tǒng)框架圖

 ?。?)數(shù)據(jù)采集
  數(shù)據(jù)采集是指利用各種傳感器把被研究對象的各種信息轉(zhuǎn)換為計算機可以接收的數(shù)值或符號(串)集合。習慣上稱這種數(shù)值或符號(串)所組成的空間為模式空間。這一步的關(guān)鍵是傳感器的選取。
   一般獲取的數(shù)據(jù)類型如下。

  • 物理參量和邏輯值:體溫、化驗數(shù)據(jù)、參量正常與否的描述。
  • 一維波形:腦電圖、心電圖、季節(jié)振動波形、語音信號等。
  • 二維圖像:文字、指紋、地圖、照片等。

(2)預處理
  為了從這些數(shù)字或符號(串)中抽取出對識別有效的信息,必須進行預處理,目的是為了消除輸入數(shù)據(jù)或信息中的噪聲,排除不相干的信號,只留下與被研究對象的性質(zhì)和采用的識別方法密切相關(guān)的特征(如表征物體的形狀、周長、面積等)。舉例來說,在啊進行指紋識別時,指紋掃描設備每次輸出的指紋圖像會隨著圖像的對比度、亮度或背景等的不同而不同,有時可能還會產(chǎn)生變形,而人們感興趣的僅僅是圖像中的指紋線、指紋分叉點和端點等,而不需要指紋的其他部分和背景。因此,需要采用合理的濾波算法,如基于塊方圖的方向濾波和二值濾波等,過濾掉指紋圖像中這些不必要的部分。
  (3)特征提取
  對原始數(shù)據(jù)進行交換,從許多特征中尋找出最有效的特征,得到最能反應分類本質(zhì)的特征,將維數(shù)較高的測量空間(原始數(shù)據(jù)組成的空間)轉(zhuǎn)變?yōu)榫S數(shù)較低的特征空間(分類識別賴以進行的空間),以降低后續(xù)處理過程的難度。人類很容易獲取的特征,對于機器來說就很難獲取了,這就是模式識別中的特征選擇與提取的問題。特征選擇與提取是模式識別的一個關(guān)鍵問題。一般情況下,候選特征種類越多,得到的結(jié)果應該越好。但是,由此可能會引發(fā)維數(shù)災害,即特征維數(shù)過高,計算機難以求解。如何確定合適的特征空間是設計模式識別系統(tǒng)一個十分重要的問題。對特征空間進行優(yōu)化有兩種基本方法。一是特征選擇,如果所選用的特征空間能使同類物體分布具有緊致性,為分類器設計成功提供良好的基礎(chǔ);反之,如果不同類別的樣品在該特征空間中混雜在一起,再好的設計方法也無法提高分類器的準確性;另一種是特征的組合優(yōu)化,通過一種映射變換改造原特征空間,構(gòu)造一個新的精簡的特征空間。
 ?。?)分類決策
  基于模式特征空間,就可以進行模式識別的最后一部分:分類決策。該階段最后輸出的可能是對象所屬的類型,也可能是模型數(shù)椐庫中與對象最相似的模式編號。己知若干個樣品的類別及特征,例如,手寫阿拉伯數(shù)字的判別是具有10類的分類問題,機器首先要知道每個手寫數(shù)字的形狀特征,對同一個數(shù)字,不同的人有不同的寫法,甚至同一個人對同一個數(shù)字也行多種寫法,就必須讓機器知道它屬于哪一類。因此,對分類問題需要建立樣品庫。根椐這些樣品庫建立判別分類函數(shù),這—過程是由機器來實現(xiàn)的,稱為學習過程。然后對一個未知的新對象分析它的特征,決定它屬于哪一類,這是一種監(jiān)督分類的方法。
  具體步驟是建立特征空間中的訓練集,已知訓練集里每個點的所屬類別,從這些條件出發(fā),尋求某種判別函數(shù)或判別準則,設計判決函數(shù)模型,然后根據(jù)訓練集中的樣品確定模型中的參數(shù),便可將這模型用于判別,利用判別函數(shù)或判別準則去判別每個未知類別的點應該屬于哪一個類。在模式識別學科中,.一般把這個過程稱為訓練與學習的過程。
  分類的規(guī)則是依據(jù)訓練樣品提供信息確定的。分類器設計在訓練過程中完成,利用一批訓練樣品,包括各種類別的樣品,由這些樣品大致勾畫出各類事物在特征空間分布的規(guī)律性,為確定使用什么樣的數(shù)學公式及這些公式中的參數(shù)提供了信息。一般來說,決定使用什么類型的分類函數(shù)是人決定的。分類器參數(shù)的選擇或者在學習過程中得到的結(jié)果取決于設計者選擇什么樣的準則函數(shù)。不同準則函數(shù)的最優(yōu)解對應不同的學習結(jié)果,得到性能不同的分類器。數(shù)學式子中的參數(shù)則往往通過學習來確定,在學習過程中,如果發(fā)現(xiàn)當前采用的分類函數(shù)會造成分類錯誤,那么利用錯誤提供應如何糾正的信息,就可以使分類函數(shù)朝正確的方向前進,這就形成了一種迭代的過程。如果分類函數(shù)及其參數(shù)使出錯的情況越來越少,就可以說是逐漸收斂,學習過程就收到了效果,設計也就可以結(jié)束。
  針對不問的應用目的,模式識別系統(tǒng)4部分的內(nèi)容有很大的差異,特別楚在數(shù)據(jù)預處理和分類決策這兩部分。為了提高識別結(jié)果的可靠性,往往需要加入知識庫(規(guī)則)以對可能產(chǎn)生的錯誤進行修正,或通過引入限制條件大大縮小待識別模式在模型庫中的搜索空間,以減少匹配計算量。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容