2019-04-14 論文筆記---A SURVEY OF ONTOLOGY EVALUATION TECHNIQUES

A SURVEY OF ONTOLOGY EVALUATION TECHNIQUES

摘要本體論是一些感興趣領域的明確的正式概念化。 本體越來越多地用于各種領域,例如知識管理,信息提取和語義網。 本體評估是從特定應用標準的角度評估給定本體的問題,通常是為了確定幾個本體中哪一個最適合特定目的。 本文介紹了本體評估的最新進展。

1 INTRODUCTION

現代信息系統(tǒng)的焦點正在從“數據處理”轉向“概念處理”,這意味著處理的基本單元越來越少是原子數據,并且正在成為一種語義概念,它諷刺解釋并存在于與其他概念的背景。本體通常用作通過提供相關概念和它們之間的關系來捕獲關于某個區(qū)域的知識的結構。使特定學科或方法科學化的關鍵因素是評估和比較該領域內的想法的能力。在處理本體形式的抽象時,語義Web研究領域也是如此。本體是用于概念化知識的基本數據結構,但我們通常能夠構建許多不同的本體,概念化相同的知識體系,并且我們應該能夠說出哪些最適合某些預定義的標準。因此,如果要在語義Web和其他語義感知應用程序中廣泛采用本體,則本體評估是必須解決的重要問題。面向眾多本體的用戶需要有一種評估方法,并決定哪一種最符合他們的要求。同樣,構建本體的人需要一種方法來評估結果本體,并可能指導構建過程和任何細化步驟。自動或半自動本體學習技術還需要有效的評估措施,可用于從許多候選中選擇“最佳”本體,選擇學習算法的可調參數值,或指導學習過程本身(如果后者被制定為通過搜索空間的路徑。

2 A CLASSIFICATION OF ONTOLOGY EVALUATION APPROACHES

在文獻中已經考慮了各種評估本體的方法,這取決于正在評估什么類型的本體以及用于何種目的。從廣義上講,大多數評估方法屬于以下類別之一:

?基于將本體論與“黃金標準”(本身可能是本體論;例如MAEDCHE和STAAB,2002)進行比較的那些; ?那些基于在應用程序中使用本體并評估結果的人(例如PORZEL&MALAKA,2004);

?涉及與本體所涵蓋的領域的數據來源(例如文檔集合)進行比較的那些(例如BREWSTER等,2004);

??那些評估由人類進行評估的人,他們試圖評估本體符合一套預定標準,標準,要求等的程度(例如,LOZANOTELLO和GóMEZ-PéREZ,2004)。

?除了上述評估類別之外,我們還可以根據評估級別對本體評估方法進行分組,如下所述。

本體是一個相當復雜的結構,通常更加切合實際地分別評估不同級別的本體,而不是試圖直接評估本體作為一個整體。如果我們想要一個主要是自動化的評估而不是完全由人類用戶/專家執(zhí)行,則尤其如此。基于級別的方法的另一個原因是當在本體的構造中使用自動學習技術時,所涉及的技術對于不同級別而言實質上是不同的。不同的作者已經對各個級別進行了不同的定義,但這些不同的定義往往大致相似,通常涉及以下級別:

詞匯,詞匯或數據層。這里的重點是本體中包含哪些概念,實例,事實等,以及用于表示或識別這些概念的詞匯。對該級別的評估傾向于涉及與涉及問題域的各種數據源(例如,域特定文本語料庫)的比較,以及諸如字符串相似性度量(例如,編輯距離)的技術。

層次結構或分類。本體通常包括概念之間的分層關系。雖然也可以定義概念之間的各種其他關系,但is-a關系通常特別重要并且可能是特定評估工作的焦點。

其他語義關系。除了is-a之外,本體可以包含其他關系,并且可以分別評估這些關系。這通常包括精度和召回等措施

上下文或應用程序級別本體可以是更大的本體集合的一部分,并且可以引用或引用這些其他本體中的各種定義。在這種情況下,在評估時考慮此上下文可能很重要。另一種形式的上下文是使用本體的應用程序;評估著眼于如何使用本體來影響應用程序的結果。

句法層面。對于大部分手動構建的本體,對該級別的評估可能特別有意義。本體通常以特定的形式語言描述,并且必須與該語言的語法要求相匹配。還可以考慮各種其他句法考慮因素,例如自然語言文檔的存在,避免定義之間的循環(huán)等(GóMEZ-PéREZ,1994)。

結構,建筑,設計。這主要是對手動構建的本體感興趣。我們希望本體符合某些預定義的設計原則或標準;結構問題涉及本體的組織及其對進一步發(fā)展的適用性(GóMEZ-PéREZ,1994,1996)。這種評估通常完全手動進行。

下表總結了本節(jié)開頭列表中的哪些方法通常用于這些級別中的哪些級別。


3 EVALUATION ON THE LEXICAL/VOCABULARY AND CONCEPT/DATA LEVEL

可以用于評估本體的詞匯/詞匯級別的方法的示例是MAEDCHE AND STAAB(2002)提出的方法?;贚evenshtein編輯距離測量兩個弦之間的相似性,將其歸一化以產生范圍[0,1]中的分數。然后通過獲取第一組的每個字符串,找到它與第二組中最相似的字符串的相似性,并對第一組的所有字符串求平均,來定義兩組字符串之間的字符串匹配度量。可以采用在被評估的本體中用作概念標識符的所有字符串的集合,并將其與被認為是所考慮的問題域的概念的良好表示的“黃金標準”字符串集進行比較。黃金標準實際上可能是另一個本體論(如Maedche和Staab的工作),或者它可以從文檔語料庫(見第7節(jié))統(tǒng)計,或由領域專家準備。

本體的詞匯內容也可以使用信息檢索中已知的精度和召回概念來評估。在此上下文中,精度將是本體詞匯條目(用作概念標識符的字符串)的百分比,其也出現在黃金標準中,相對于本體詞的總數。召回是相對于黃金標準詞匯條目的總數,在本體中也作為概念標識符出現的黃金標準詞條的百分比。實現更寬容的匹配標準(允許同義詞等)的一種方法是使用來自WordNet或類似資源的上位詞來擴充每個詞條(BREWSTER等,2004);然后,不是測試兩個詞條的相等性,而是可以測試它們相應的詞組之間的重疊(每個詞包含一個帶有上位詞的條目)。

也可以使用相同的方法來評估其他級別上的本體的詞匯內容,例如,用于標識關系,實例等的字符串

VELARDI等。 (2005)描述了一種評估本體學習系統(tǒng)的方法,該系統(tǒng)采用一系列自然語言文本并試圖從中提取相關的特定領域概念(術語和短語),然后找到它們的定義(使用網絡搜索) 和WordNet條目)并通過is-a關系連接一些概念。 他們的評估方法的一部分是為多詞術語生成自然語言的光澤。 然后可以由領域專家評估這些光澤,因此領域專家不必熟悉通常描述本體的正式語言。

4 EVALUATION OF TAXONOMIC AND OTHER SEMANTIC RELATIONS

BREWSTER等。 (2004)建議使用數據驅動的方法來評估本體和文檔語料庫之間的結構擬合程度。 (1)給定來自感興趣的域的文檔語料庫,基于EM的聚類算法用于以無監(jiān)督的方式確定隱藏的“主題”的概率混合模型,使得每個文檔可以被建模為已經生成混合主題。 (2)本體的每個概念c由一組術語表示,包括本體中的名稱和取自WordNet的該名稱的上位詞。 (3)在聚類期間獲得的概率模型可用于針對由聚類算法識別的每個主題測量概念c與該主題的擬合程度。 (4)此時,如果我們要求每個概念至少適合某個主題,我們就會獲得一種詞匯級別的本體評估技術?;蛘撸覀兛赡芤笈c同一主題相關的概念在本體中應該密切相關(通過is-a和可能的其他關系)。這表明本體的結構與領域特定的文檔語料庫中的主題的隱藏結構相當合理。作為評估關系的方法,這種方法的一個缺點是難以考慮關系的方向性(例如,我們可能知道概念c1和c2應該是相關的,但我們不能真正推斷c1是否是-c2,或者c2是-c1,或者如果應該使用一些完全不同的關系)。

鑒于黃金標準,關聯級別上的本體評估也可以基于精確度和召回度量,將本體論與人類提供的黃金標準或統(tǒng)計相關術語列表進行比較。 SPYNS(2005)使用它來評估從自然語言文本中自動提取一組lexons的方法,即形式為<term1,role,term2>的三元組。不幸的是,準備黃金標準需要大量人工操作。

GUARINO AND WELTY(2002)討論了本體評估的一個不同方面。他們指出了幾個哲學概念(必要性,剛性,統(tǒng)一性等),可以用來更好地理解本體中常見的各種語義關系的本質,并發(fā)現本體結構中可能存在的問題決策(例如,is-a有時用于表示某個類的元級特征,或者用于代替is-a-part-of,或用于表示術語可能具有多個含義)。這種方法的缺點是需要熟悉上述概念(如剛性)的經過培訓的人類專家進行人工干預;專家應該使用適當的元數據標簽來注釋本體的概念,從而可以自動檢查某些類型的錯誤。

?MAEDCHE和STAAB(2002)提出了幾種比較兩種本體關系方面的方法。雖然這在某種程度上是這種方法的缺點,但一個重要的積極方面是,一旦定義了黃金標準,兩個本體的比較可以完全自動進行。給定層次結構中的術語c的語義聯合體是其所有超概念和子概念的集合。給定兩個層次結構H1,H2,術語t可以表示H1中的一些概念c1和H2中的概念c2。然后,可以計算表示來自H2中c1的cotopy的概念的項集合,以及表示來自c2的cotopy的概念的項集合;這兩個集合的重疊可以用來衡量術語t在兩個層次結構H1和H2中的作用有多么相似。然后可以計算出在兩個層次結構中出現的所有術語的平均值;這是H1和H2之間相似性的度量。類似的想法也可用于比較除了a-a之外的其他關系。

5 CONTEXT-LEVEL EVALUATION

有時,本體是可以相互引用的更大的本體集合的一部分(例如,一個本體可以使用在另一個本體中聲明的類或概念),例如在web上或在本體的一些機構庫內。該上下文可以用于以各種方式評估本體。例如,DING等人的Swoogle搜索引擎。 (2004)使用語義Web文檔之間的交叉引用來定義圖形,然后以類似于Google Web搜索引擎使用的PageRank的方式計算每個本體的分數。在PATEL等人的OntoKhoj門戶中也使用了類似的方法。 (2003年)。并非所有“鏈接”或本體之間的引用都被視為相同。例如,如果一個本體從另一個本體定義一個類的子類,則該引用可能被認為比一個本體僅使用另一個本體的類作為某個關系的域或范圍更重要。

或者,評估的背景可由人類專家提供;例如,SUPEKAR(2005)提出使用元數據來增強本體,例如其設計策略,其他人如何使用它,以及本體用戶提供的“同行評審”。然后可以使用合適的搜索引擎來對該元數據執(zhí)行查詢,并且將幫助用戶決定使用存儲庫中的許多本體中的哪一個。

6 APPLICATION-BASED EVALUATION

通常,本體將用于某種應用或任務。應用程序的輸出或其在給定任務上的性能可能更好或更差,部分取決于其中使用的本體。因此,人們可能會爭辯說,良好的本體論是一種有助于所討論的應用程序在給定任務上產生良好結果的本體論。因此,可以簡單地通過將其插入應用程序并評估應用程序的結果來評估本體。這是優(yōu)雅的,因為應用程序的輸出可能是已經存在相對簡單且無問題的評估方法的東西。例如,PORZEL AND MALAKA(2004)描述了一種場景,其中本體及其關系(都是-a和其他)主要用于確定兩個概念的含義有多緊密相關。該任務是語音識別問題,其中對任務的最終輸出的評估相對簡單(將句子的建議解釋與人類提供的金標準進行比較)。

基于應用程序的本體評估方法也有幾個缺點:(1)我們看到本體在特定任務中以特定方式使用時是好還是壞,但很難概括這一觀察結果; (2)本體論只是申請的一小部分,其對結果的影響可能相對較小和間接; (3)比較不同的本體只有在它們都可以插入同一個應用程序時才有可能。

7 DATA-DRIVEN EVALUATION

還可以通過將本體與關于本體所涉及的問題域的現有數據(通常是文本文檔的集合)進行比較來評估本體。例如,PATEL等人。 (2003)展示了如何確定本體是否涉及特定主題,并將本體分類為主題目錄:一個從本體中提取文本數據(例如概念和關系的名稱)并將其用作輸入文本分類模型(使用標準機器學習算法訓練)。

同樣,BREWSTER等。 (2004)使用潛在語義分析從文檔語料庫中提取了一組相關的特定領域術語。然后可以使用域特定術語與本體中出現的術語(例如,作為概念的名稱)之間的重疊量來測量本體和語料庫之間的擬合。

?對于包含大量事實信息的廣泛本體(例如Cyc,參見例如www.cyc.com),文檔也可以用作關于外部世界的“事實”的來源,并且評估檢查是否這些事實也可以從本體論中得出。

8 MULTIPLE-CRITERIA APPROACHES

另一系列本體評估方法涉及從一組給定的本體中選擇一個好的本體(或一小部分有希望的本體),并將這個問題視為一個決策問題。為了幫助我們評估本體,我們可以使用基于定義多個決策標準或屬性的方法;對于每個標準,評估本體并給出數值分數。然后將本體的總分計算為其每個標準分數的加權和。在許多其他環(huán)境中使用類似策略來選擇最佳候選者(例如,招標,撥款申請等)。缺點是可能需要人工專家的大量手動參與。實際上,本體評估的一般問題已被推遲或降級為如何評估關于個體評估標準的本體論的問題。從積極的方面來看,這些方法使我們能夠結合第2節(jié)中討論的大多數水平的標準。

BURTON-JONES等。 (2004)提出了這種類型的方法,有十個簡單的標準:合法性(即句法錯誤的頻率),豐富性(形式語言中有多少可用的語法特征實際上被本體使用),可解釋性(做出這些術語)本體中使用的也出現在WordNet中?),一致性(本體中有多少概念涉及不一致),清晰度(本體中使用的術語在WordNet中有多少含義?),全面性(本體中的概念數量) ,相對于整個本體庫的平均值),準確性(本體中虛假語句的百分比),相關性(涉及標記為對用戶/代理有用或可接受的語法特征的語句數),權限(多少其他本體使用來自本體的概念),歷史(相對于庫/存儲庫中的其他本體,已經對該本體進行了多少次訪問)。

???怂沟热?。 (1998)提出了另一套標準,然而這些標準更傾向于人工評估和本體評估。 LOZANO-TELLO和GóMEZPéREZ(2004)定義了一套更為詳細的117項標準,以三級框架組織。

9 CONCLUSIONS AND FUTURE WORK

本體評估仍然是本體支持的計算和語義Web領域中的一個重要的開放問題。 本體評估沒有單一的最佳或首選方法; 相反,選擇合適的方法必須取決于評估的目的,使用本體的應用,以及我們試圖評估的本體的哪個方面。 我們認為,該領域未來的工作應特別注重自動化本體評估,這是自動化本體處理技術健康發(fā)展的必要前提,可用于解決諸如本體學習,人口,調解,匹配等諸多問題。 上

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容