多媒體信息不不同于傳統(tǒng)的?文本或者數(shù)字數(shù)據(jù),多媒體對象需要很?大的內(nèi)存和特 殊的處理理操作。?一個多媒體數(shù)據(jù)庫管理理系統(tǒng)應該能夠處理理多種數(shù)據(jù)類型(圖 像,視頻,語?音,?文本)和?大量量的此類對象,提供?高性能和具有成本效益的對 象存儲,并?支持插?入,刪除,更更新和搜索等功能(Shih, 2002).。典型的多媒體 ?文檔或者演示?文稿包含?大量量不不同類型的對象,如圖?片,?音樂或者?文本。因此基 于內(nèi)容的多媒體信息檢索已經(jīng)成為?一個?非常重要的新的研究課題。與傳統(tǒng)的基 于?文本和數(shù)字數(shù)據(jù)?比較的搜索?方案不不同,多媒體信息的搜索和匹配標準很難建 模。
圖像和視頻檢索基于如何表示圖像或者圖像鏈的內(nèi)容。傳統(tǒng)的?文本數(shù)據(jù)檢索技 術(shù)只有在每個圖像和視頻記錄都附有?文本內(nèi)容描述(圖像的數(shù)據(jù)元)的情況下 才能應?用。但是和?文本相?比,圖像或者視頻內(nèi)容更更加通?用,在?大多數(shù)檢索情況 下,查詢的主題并不不會反映在可?用的?文本元數(shù)據(jù)中。由于圖像本身的性質(zhì),包 括“?非?文本性”,?非結(jié)構(gòu)化信息,這些信息很難被?自動捕獲。追求索引?非結(jié)構(gòu)化 視覺信息?目標的計算機技術(shù)被稱為基于內(nèi)容視頻信息檢索(CBVIR),更更常?用 的是基于內(nèi)容的圖像檢索(CBIR)。因此,基于內(nèi)容的視頻信息檢索和基于通 ?用內(nèi)容的視頻信息檢索使?用相同的縮寫(CBIR)。

在基于內(nèi)容的圖像檢索中,用戶應該根據(jù)視覺特征來描述所需的內(nèi)容,圖像應該根據(jù)與描述的相似度進行排序,并且檢索出最高級(最相似)的圖像,在最低或最初的描述水平上,圖像被認為是像素的集合。雖然像素級的內(nèi)容可能對某些特定的應用(例如,地球表面遙感)有用,但是今天的CBIR是基于更精細的描述符,顯示視覺對象的特定局部和全局光度和幾何特征以及特征之間的語義關(guān)系。
多媒體信息檢索最困難的問題是如何進行查詢來滿足用戶需要的描述。例如,處理“給我找到一個有一匹馬和一輛汽車的圖片”這樣的查詢是一個很艱巨的任務,而在多媒體數(shù)據(jù)庫中的大量圖片文件中匹配規(guī)范更加困難。通常,人工的和自動化的基于內(nèi)容的信息檢索有很大的不同。人工檢索任務(查詢)是在認知層面進行描述,利用人類的知識、分析、核對信息上下文的理解,包括對象,人物,景觀,語言片段的意義或者一般的故事語境。因此,根據(jù)內(nèi)容的查詢可以用不同的方式來表達,例如:
1."尋找澳大利亞總理約翰 · 霍華德的最新照片”
2.”尋找所有美國禿鷹的圖片"
3.”找到泰坦尼克號撞上冰山的電影場景"
4.根據(jù)拍攝地點將所有影像分類
5.”選取朗伊托托島最近的航空照片"
6.”在阿拉巴馬州發(fā)現(xiàn)類似龍卷風的圖片"
7.”選擇最令人印象深刻的日落圖像"等等
目前內(nèi)容的概念很難正式化。在眾多可能的定義中,萬維網(wǎng)上“內(nèi)容”被定義為:
1.藝術(shù)作品所包含和傳達的意義或信息,包括其情感的、智利的、象征性的、主題性的和敘事性的內(nèi)容(see www.ackland.org/tours/classes/glossary.html)
2.除了藝術(shù)家的能力之外,藝術(shù)作品的主題及其價值; 形式和內(nèi)容是構(gòu)成一件作品的兩個要素(see www.worldimages.com/art_glossary.php)
3.傳遞信息的工具,例如文字、數(shù)據(jù)、符號、數(shù)字、圖像、聲音和視覺(see www.naa.gov.au/recordkeeping/er/guidelines/14-glossary.html)
4.文件的“內(nèi)容”,而不是其格式或外觀(see www.microsoft.com/technet/prodtechnol/visio/visio2002/plan/glossary.mspx)
5.傳媒以信息檢索傳遞資訊或知識(see www.cordis.lu/ist/ka1/administrations/publications/glossary.htm)
目前的計算機視覺無法輕松自動地提取語義信息。最終的圖像編碼應該以符合人類解釋的方式捕獲圖像語義內(nèi)容。 但最初感知的圖像編碼包括原始像素值-灰度值或顏色。 圖像分析解決了這兩個極端之間的一系列中間可能性,但主要集中在低層特征是像素值的函數(shù) (Cox e.a.,2000). 雖然一些特征,如顏色,在某些情況下與圖像語義有關(guān),但通常并不反映真實的圖像意義,而且更高層次的圖像描述對于有效和實際地表達內(nèi)容是必要的。
到目前為止,內(nèi)容是根據(jù)通用和特定領(lǐng)域的數(shù)量特征來描述的。通用特征包括顏色、紋理、幾何形狀、草圖和圖像或視頻序列中區(qū)域的空間關(guān)系。 特定領(lǐng)域的特征出現(xiàn)在一些特殊應用中,例如人臉檢測和識別或地球遙感。 語義描述(意義)是一個非常困難的問題,沒有通用的解決方案。
例如,看一下下面的一個自然圖像的小數(shù)據(jù)庫:
在基于內(nèi)容的圖像檢索中,用戶應該根據(jù)視覺特征來描述所需的內(nèi)容,圖像應該根據(jù)與描述的相似度進行排序,并且檢索出最高級(最相似)的圖像,在最低或最初的描述水平上,圖像被認為是像素的集合。雖然像素級的內(nèi)容可能對某些特定的應用(例如,地球表面遙感)有用,但是今天的CBIR是基于更精細的描述符,顯示視覺對象的特定局部和全局光度和幾何特征以及特征之間的語義關(guān)系。
多媒體信息檢索最困難的問題是如何進行查詢來滿足用戶需要的描述。例如,處理“給我找到一個有一匹馬和一輛汽車的圖片”這樣的查詢是一個很艱巨的任務,而在多媒體數(shù)據(jù)庫中的大量圖片文件中匹配規(guī)范更加困難。通常,人工的和自動化的基于內(nèi)容的信息檢索有很大的不同。人工檢索任務(查詢)是在認知層面進行描述,利用人類的知識、分析、核對信息上下文的理解,包括對象,人物,景觀,語言片段的意義或者一般的故事語境。因此,根據(jù)內(nèi)容的查詢可以用不同的方式來表達,例如:
1."尋找澳大利亞總理約翰 · 霍華德的最新照片”
2.”尋找所有美國禿鷹的圖片"
3.”找到泰坦尼克號撞上冰山的電影場景"
4.根據(jù)拍攝地點將所有影像分類
5.”選取朗伊托托島最近的航空照片"
6.”在阿拉巴馬州發(fā)現(xiàn)類似龍卷風的圖片"
7.”選擇最令人印象深刻的日落圖像"等等
目前內(nèi)容的概念很難正式化。在眾多可能的定義中,萬維網(wǎng)上“內(nèi)容”被定義為:
藝術(shù)作品所包含和傳達的意義或信息,包括其情感的、智利的、象征性的、主題性的和敘事性的內(nèi)容(see www.ackland.org/tours/classes/glossary.html)
除了藝術(shù)家的能力之外,藝術(shù)作品的主題及其價值; 形式和內(nèi)容是構(gòu)成一件作品的兩個要素(see www.worldimages.com/art_glossary.php)
傳遞信息的工具,例如文字、數(shù)據(jù)、符號、數(shù)字、圖像、聲音和視覺(see www.naa.gov.au/recordkeeping/er/guidelines/14-glossary.html)
文件的“內(nèi)容”,而不是其格式或外觀(see www.microsoft.com/technet/prodtechnol/visio/visio2002/plan/glossary.mspx)
傳媒以信息檢索傳遞資訊或知識(see www.cordis.lu/ist/ka1/administrations/publications/glossary.htm)
目前的計算機視覺無法輕松自動地提取語義信息。最終的圖像編碼應該以符合人類解釋的方式捕獲圖像語義內(nèi)容。 但最初感知的圖像編碼包括原始像素值-灰度值或顏色。 圖像分析解決了這兩個極端之間的一系列中間可能性,但主要集中在低層特征是像素值的函數(shù) (Cox e.a.,2000). 雖然一些特征,如顏色,在某些情況下與圖像語義有關(guān),但通常并不反映真實的圖像意義,而且更高層次的圖像描述對于有效和實際地表達內(nèi)容是必要的。
到目前為止,內(nèi)容是根據(jù)通用和特定領(lǐng)域的數(shù)量特征來描述的。通用特征包括顏色、紋理、幾何形狀、草圖和圖像或視頻序列中區(qū)域的空間關(guān)系。 特定領(lǐng)域的特征出現(xiàn)在一些特殊應用中,例如人臉檢測和識別或地球遙感。 語義描述(意義)是一個非常困難的問題,沒有通用的解決方案。
例如,看一下下面的一個自然圖像的小數(shù)據(jù)庫:

這些三維場景包含各種各樣的對象,如馬、小馬、牛、草地、灌木、水、山丘等等,其內(nèi)容是多種多樣的,因為場景、對象以及每個這樣的場景中對象之間的關(guān)系的解釋依賴于觀察者、時間、目標以及其他主觀和客觀因素。
最困難的問題是如何描述用戶在進行查詢時的需要和考慮的內(nèi)容。 最簡單但仍然困難的例子是明確概述要搜索的語義元素:"查找一張在灌木附近有一匹棕色小馬駒的圖片"。 甚至更困難的任務是在大型多媒體數(shù)據(jù)庫中匹配這種或更一般的規(guī)范。 人類對于數(shù)據(jù)搜索的查詢總是在認知層面上利用人類對于上下文的認知,包括對象、人、景觀、場景等等。 這些查詢可以使用自然語言和可視示例以不同的方式制定。 但是,對 CBIR 系統(tǒng)的查詢必須考慮到自動數(shù)據(jù)描述和搜索能力的限制。
基于內(nèi)容的視頻信息檢索首先要處理一個“感官鴻溝”(Smeulders e.a., 2000) ,這是由物體在世界上的屬性和它從一個圖像或者一系列圖像衍生出來的計算描述的屬性之間的區(qū)別造成的。感官鴻溝使得內(nèi)容描述問題不適定,明顯限制了圖像內(nèi)容的形式化表示能力。其次,在語義上存在差異,或者說“用戶理想的查詢與用戶實際上可以提交到信息檢索系統(tǒng)的查詢之間存在差異”(Castelli & Bergman, 2002)。語義學(希臘語為“有意義”)描述語言學中詞匯和它們的意義之間的關(guān)系,以及符號和它們在邏輯上的意義之間的關(guān)系。對于圖像而言,語義學關(guān)心的是描述對象的意義及其特征。
語義鴻溝導致了從視覺數(shù)據(jù)中提取的描述和人類在某種特定情況下對相同數(shù)據(jù)的解釋之間的巨大差異。基于內(nèi)容的檢索主要的限制是用戶搜索語義,即意義的相似性,而基于內(nèi)容的檢索系統(tǒng)只提供通過數(shù)據(jù)處理獲得的定量特征的相似性。語義關(guān)系編碼人類對與每個特定應用相關(guān)的圖像的解釋,但這些解釋只是所有可能的有意義解釋中的一小部分。這就是為什么一個”真實"的圖像內(nèi)容的自動描述是一個無法解決的問題,這是由于本質(zhì)上人類對圖像和視頻序列的主觀感知。
到目前為止,內(nèi)容都是用數(shù)字簽名來描述的,結(jié)合了可是別的對象、形狀、特征、和關(guān)系,圖像則根據(jù)它們與查詢描述的數(shù)量相似性按照這些對象、形狀、特征及其關(guān)系進行排序。最頂級的就是檢索和輸出的最相似的圖像集。非正式地,靜態(tài)圖像的內(nèi)容包括,非正式地,靜態(tài)圖像的內(nèi)容包括,在不斷增加的復雜性水平上,視覺信息的感知或算法屬性,語義屬性,例如抽象的原語,例如物體、角色和場景,以及與感知屬性相關(guān)的主觀屬性,例如印象、情感和意義
(Shih, 2002).基于內(nèi)容的視頻記錄檢索不僅涉及到所顯示的對象,還涉及到對象運動的時間和空間模式。
但是基于計算圖像 / 視頻理解、對象跟蹤和語義分析的內(nèi)容描述工具仍然在發(fā)展中,并將在很長一段時間內(nèi)繼續(xù)發(fā)展。 首先,圖像的內(nèi)容是一個非常主觀的概念,沒有"客觀"的方法在語義層面上標注內(nèi)容,以反映所有甚至大部分對圖像的主觀解釋。 其次,通過擴展圖像描述,使用戶查詢適應 CBIR 系統(tǒng)的運行方式,從兩個方面彌合”形式"和"人"(用戶)語義之間的鴻溝。
正如 Cox e.a. ,2000所提到的,編纂圖像語義需要一種語言來表達它們。 因為它必須用于人類查詢和人類解釋數(shù)據(jù)庫圖像的描述,語言必須是自然的表達搜索目標,并給出準確和一致的描述每個數(shù)據(jù)庫圖像。 因此,很難設計出如此一致的形式語言。 今天的 CBIR 系統(tǒng)開發(fā)了一種更加實用的方法,使用隱藏語言進行語義編碼和概率學習,并使用分類框架將圖像特征和語義類聯(lián)系起來。 特別是利用支持向量機(SVM)或貝葉斯網(wǎng)絡等現(xiàn)代特征聚類和分類技術(shù),建立圖像的"語義"表示。 基于特征的圖像塊(區(qū)域)標記用于解釋圖像的語義內(nèi)容。
CBIR系統(tǒng)的用戶有多種目標,特別是關(guān)聯(lián)搜索、特定圖片搜索或類別搜索(Smeulders e.a,2000)。 關(guān)聯(lián)搜索首先沒有局部目標,并且意味著使用草圖或示例圖像對搜索進行高度交互式的迭代精化。 在頭腦中搜索圖像的精確副本(例如,在一個藝術(shù)目錄中) ,或者搜索同一對象的另一個圖像,假定 targer 可以被交互式地指定為與一組給定的例子相似。 類別搜索檢索特定類別的任意圖像代表,或者由示例指定,或者由標簽或其他數(shù)據(jù)庫信息派生。
目前,對視頻、圖像、音樂片段、語音片段或文本的唯一可行分析只能在算法級別進行。 這些分析涉及音頻和視頻信號的可計算特征,例如顏色、紋理、形狀、頻率分量、信號的時間特征,以及根據(jù)這些特征運算的算法。

在圖像和視頻檢索中,使用多種算法對同一個區(qū)域進行圖像分割,在連續(xù)幀中監(jiān)測運動物體,提取特定(例如,空間不變)類型的紋理和幾何形狀,確定不同物體之間的關(guān)系,并分析而為頻譜來獲取特征。但與大多數(shù)計算機視覺應用不同的是,圖像和視頻檢索將自動圖像識別與用戶積極參與檢索過程結(jié)合起來(Castelli & Bergman,2002)。此外,檢索本質(zhì)上與查詢示例的相似性排序相關(guān),而不是與模型匹配的圖像分類相關(guān)。 在 CBIR 系統(tǒng)中,用戶評估系統(tǒng)響應,細化查詢,并確定所收到的答案是否與該查詢相關(guān)。
當然,基于認知和基于特征的檢索結(jié)果幾乎沒有平行性,即使是像"含有一只鳥的圖像"這樣的簡單任務也是如此。 正如 Chang e.a. 中強調(diào)的那樣,"多媒體信息高度分布,索引很少,缺乏適當?shù)哪J健?多媒體搜索的關(guān)鍵問題是如何設計一個可擴展的、可視化的信息檢索搜索系統(tǒng)? 這種視聽信息系統(tǒng)需要大量資源用于傳輸、存儲和處理,這些因素使得索引、檢索和管理視聽信息成為一項巨大的挑戰(zhàn)”。