UMLS學(xué)習(xí)筆記

學(xué)習(xí)材料

The UMLS What is it and how to use it(PPT)

UMLS及其在智能檢索中的應(yīng)用

目標(biāo)

1.?umls有哪些數(shù)據(jù)類型

2.?各種數(shù)據(jù)類型是如何組織的:有哪些資源抽象成了哪些概念;relationship的來源及是怎么組織的

3.?構(gòu)想如何找一個(gè)實(shí)際的例子

4.?看UMLS?Restful API,怎樣用python從API上取數(shù)據(jù)




PPT Outline


筆記

一.?簡介

Unified Medical Language System?統(tǒng)一醫(yī)學(xué)語言系統(tǒng)。

UMLS是為了克服存在于機(jī)器檢索信息中的兩大障礙:

1.?同樣的概念有著不同的表達(dá)

2.?有用的信息分布在不同的數(shù)據(jù)庫和系統(tǒng)(就是進(jìn)行資源的一個(gè)整合)



UMLS的使用:

1.?Database提供了一系列的關(guān)系數(shù)據(jù)文件

2.?交互界面:提供了網(wǎng)頁版的UMLS術(shù)語服務(wù);API

3.?提供了使用工具:專家詞典(Ivg); UMLS的安裝和定制工具M(jìn)etamorphoSys



以一個(gè)例子來看什么是UMLS

Addison's disease是一種罕見的內(nèi)分泌疾病,當(dāng)腎上腺產(chǎn)生不足的皮質(zhì)醇激素時(shí),便會(huì)得Addison's disease,因此Addison's disease有時(shí)稱為慢性腎上腺功能不足,或皮質(zhì)醇缺乏癥。

在UMLS中可以檢索出Addison's disease的Clinical variants,Symptoms,Synonyms,Organize terms。

Addison's disease這個(gè)疾病在不同的資源中會(huì)有不同的id,例如:MESH,SNOMED...但是UMLS會(huì)給出一個(gè)Unique identifier(CUI)



UMLS包含的三種數(shù)據(jù)類型


UMLS包括以下4大部分:

?(1)超級敘詞表(Metathesaurus),是UMLS知識源的核心,由來自各種受控詞表的概念和術(shù)語以及它們之間的關(guān)系所構(gòu)成;

?(2)語義網(wǎng)絡(luò)(Semantic Network),是對超級敘詞表概念的分類和分類之間的關(guān)系;

?(3)專家辭典(SPECIALIST Lexicon),是一個(gè)詞典信息庫,用于自然語言處理;

?(4)支持性的軟件工具,各種利用UMLS的工具和程序[ 5]。 也有人將UMLS分為三大部分,即將上述第(3)、(4)兩部分結(jié)合在一起[ 3]。據(jù)統(tǒng)計(jì),超級敘詞表是最經(jīng)常被使用到的知識源,約占總使用量的94%;其次是語義網(wǎng)絡(luò)和專家詞典與工具,約占使用量的28%;三項(xiàng)都使用的用戶占全部用戶的19%[ 3]。無論劃分為4個(gè)部分還是3個(gè)部分,這幾個(gè)部分既可以同時(shí)組合使用,也可以各自獨(dú)立使用。


超級敘詞表

(1)來源的廣泛性、異構(gòu)性與多語言性?

?超級敘詞表是UMLS構(gòu)成的基礎(chǔ)。截至2021年的最新版本(2021AA),超級敘詞表包含有444萬個(gè)概念和1610萬個(gè)唯一概念名稱,這些概念來源于218個(gè)詞表源,其類型包括主題詞表、分類系統(tǒng)、標(biāo)題表、代碼表、本體等,涉及19個(gè)語種。從當(dāng)前受控詞表集成的規(guī)模來看,UMLS具有空前的廣泛性、異構(gòu)性和多語言性[ 7]。UMLS每年更新兩次,春天一次,秋天一次,分別為AA和AB。

?(2)建設(shè)的開放性和可持續(xù)性?

?UMLS超級詞表的概念體系是一個(gè)不斷累積建設(shè)的過程,1993年,它的來源詞表只有15個(gè),2007年增至136個(gè)來源詞表,17個(gè)語種[ 8]。UMLS具有良好的維護(hù)和更新機(jī)制,包括詞表新增、詞表版本更新、錯(cuò)誤修正等。NLM網(wǎng)站的What’s New, Updated Sources和 Release Documentation的統(tǒng)計(jì)部分發(fā)布UMLS的更新情況。?

?(3)以概念為核心的字串-術(shù)語-概念的組織方法 概念是超級敘詞表的組織核心。

同一概念在不同的詞表中有不同的表達(dá),即使同一表達(dá),也可能有不同的詞形。UMLS采用術(shù)語組織(Terms Organize)的方法,將表達(dá)同一事物的不同來源的不同表達(dá)集中在一起,形成一個(gè)概念,同時(shí)選擇一個(gè)較為通用的詞作為優(yōu)選詞(Preferred Term)來表達(dá)這個(gè)概念,并對這個(gè)概念分配一個(gè)概念唯一標(biāo)識(Concept Unique Identifier),這一標(biāo)識是不變的,本身也是無意義的代碼。來自各個(gè)詞表的同義詞即術(shù)語,也會(huì)被分配一個(gè)唯一標(biāo)識LUI(Lexical Unique Identifier)[ 9, 10]。因此,超級敘詞表的概念組織模型為字串-術(shù)語-概念,如圖


https://www.ncbi.nlm.nih.gov/books/NBK9684/


小結(jié):超級敘詞表的組織方式如上圖,先將不同來源的詞匯分配一個(gè)id,即AUI(注意,同一源詞匯表中若收錄了兩次相同的概念,則分配兩個(gè)AUI);相同的AUI會(huì)連接到單個(gè)字符串標(biāo)識符(SUI);每個(gè)字符串會(huì)通過詞法變體,如單復(fù)數(shù)來連接到同一個(gè)公共術(shù)語標(biāo)識符(LUI);同樣意義的LUI會(huì)連接到同一個(gè)CUI。會(huì)選擇一個(gè)詞作為優(yōu)選詞,其他為同義詞。

相同的LUI可能有不同的CUI,因?yàn)長UI只是根據(jù)詞形來劃分在一起的。(找例子?)



https://zhuanlan.zhihu.com/p/359377333


UMLS 的元數(shù)據(jù)詞典是以概念為核心,依據(jù)概念(Concept, C)組織起來的。概念結(jié)構(gòu)的設(shè)計(jì)方法是將同一概念的各種名稱(同義詞)和 變種形式(單復(fù)數(shù)、形容詞等詞性變體)聯(lián)系在一起。一般來說,表達(dá)同一概念可以有多個(gè)術(shù)語(即同義詞),而每一個(gè)術(shù)語又有 不同的詞串表達(dá)方式,在超級敘詞表中,多個(gè)術(shù)語體現(xiàn)為同義詞,不同的詞串 表達(dá)方式體現(xiàn)為詞性變體。


概念結(jié)構(gòu): CUI-LUI-SUI-AUI?

(1)概念和概念標(biāo)識符:每個(gè)概念被指定一個(gè)概念識別碼(Concept Identifier, CUI),并給出了概念類別和概念的描述文本。相同 CUI 代表概念的同義詞集合。

(2)概念名稱和字符串標(biāo)識符:概念名稱是指概念的術(shù)語表示形式;SUI?

(3)來源術(shù)語和標(biāo)識符:來源術(shù)語(Atom Identifier, AUI),相同的字符串AUI被連接到一個(gè)SUI?

(4)原形化術(shù)語和標(biāo)識符:(Lexical Identifier, LUI)每個(gè)字符串都要進(jìn)行詞匯的原形化處理,如復(fù)數(shù)轉(zhuǎn)單數(shù)等,其目的是將同一術(shù)語的各種詞匯變體形式連接到一起。注意:很多詞語中后面會(huì)跟上NOS,NOS表示沒有另外說明的話,NOS是可以刪除的。uninflect表示去變體。


http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

總結(jié)一下:CUI是概念的唯一標(biāo)識符,LUI是概念的同義詞,SUI是不同術(shù)語(LUI)所擁有的不同的英語表達(dá)形式(單復(fù)數(shù)/過去式/...),AUI是原詞

這四個(gè)表識符的關(guān)系是,AUI原詞會(huì)有不同來源,但是相同字符串的AUI會(huì)被連接上同一個(gè)SUI;不同的SUI會(huì)由于單復(fù)數(shù)/時(shí)態(tài)問題有多種表達(dá)形式,但這些SUI都表示同一種東西,則會(huì)被連接到同一個(gè)LUI;不同表達(dá)形式的LUI會(huì)選出一個(gè)優(yōu)選詞賦予CUI


問題:不同的AUI是相同的字符串????因?yàn)閷懛ㄏ嗤?/i>

Metathesaurus數(shù)據(jù)文件 Metathesaurus 有40多個(gè)元數(shù)據(jù)和索引 數(shù)據(jù)文件


超級敘詞表來源于超過200個(gè)詞表的收錄情況,如圖展示了前十個(gè)





超級敘詞表中包含了關(guān)系,除了收錄來源詞表中的概念,超級敘詞表也繼承和發(fā)展了源詞表中的關(guān)系。這些關(guān)系大多來源于來源詞匯表,或者NLM構(gòu)建時(shí)添加的一些,或者來源于用戶提供的。關(guān)系大多是AUI與AUI之間以及AUI和CUI之間的關(guān)系,因?yàn)檫@些關(guān)系大多是來源于來源詞表的。關(guān)系文件不包含概念名稱。

Metathesaurus中大約四分之一的關(guān)系還帶有一個(gè)附加標(biāo)簽(RELA),該標(biāo)簽是從源詞匯表獲得的,可以更準(zhǔn)確地解釋關(guān)系的性質(zhì),例如is_a,branch_of,component_of。



語義網(wǎng)絡(luò)

語義網(wǎng)絡(luò)由兩部分組成:語義類型(Semantic Types)和語義關(guān)系(Semantic Relationships)。

語義類型是概念的范疇分類,超級敘詞表中每一個(gè)概念至少要被分配一個(gè)語義類型,語義關(guān)系則是語義類型之間的關(guān)系[ 12]。 目前的語義類型有135個(gè),可分為實(shí)體(Entity)和事件(Event)兩大類[ 13]。實(shí)體指物理對象,如生物、解剖結(jié)構(gòu)、物質(zhì)、制品等;事件是社會(huì)活動(dòng),如行為、活動(dòng)、研究過程等。

語義類型是分層次的,因此具有等級關(guān)系即is-a,除此之外,語義類型之間還存在各種相關(guān)關(guān)系,如:物理上相關(guān)(Physically-related-to),空間上相關(guān)(Spatially-related-to),功能上相關(guān)(Functionally-related-to),時(shí)間上相關(guān)(Temporally-related-to)和概念上相關(guān)(Conceptually-related-to)。

UMLS定義了包括is-a在內(nèi)的共54種語義關(guān)系,語義類型可以看成是有層次結(jié)構(gòu)的“節(jié)點(diǎn)”,而語義關(guān)系將這些節(jié)點(diǎn)連成網(wǎng)絡(luò)。


語義網(wǎng)絡(luò)提供了概念的一致性分類,即語義類型,以及更加詳細(xì)的概念之間的語義關(guān)系,其中語義類型具有樹形層次等級結(jié)構(gòu)特點(diǎn),UMLS 以語義類型為點(diǎn), 語義類型之間的語義關(guān)系為鏈構(gòu)成了語義網(wǎng)絡(luò)

1、127種語義類型以及54種語義關(guān)系

?2、每個(gè)語義類型和語義關(guān)系都有唯一的語義標(biāo)識符(TUI)?

?3、語義類型采用了構(gòu)思新穎的樹形等級結(jié)構(gòu),語義類型的最高層為實(shí)體(Entity)和事件(Event)兩大類?


https://www.nlm.nih.gov/research/umls/META3_current_semantic_types.html


http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

?4、語義類型是網(wǎng)狀結(jié)構(gòu)中的節(jié)點(diǎn),而語義關(guān)系則是將這些節(jié)點(diǎn)連接到一起的鏈?

?5、分為兩大類:等級關(guān)系和相關(guān)關(guān)系?

?6、UMLS 語義網(wǎng)絡(luò)中最常用的語義關(guān)系是 isa,它不僅確立了語義類型之間的等級關(guān)系,而且也能被用來決定超級敘詞表中的每個(gè)概念對應(yīng)的具體語義類型的分配。


小結(jié):語義關(guān)系和語義類型構(gòu)成了語義網(wǎng)絡(luò);語義類型就是標(biāo)簽,也就是個(gè)各種實(shí)體分了類,比如藥物統(tǒng)一有一類叫做“臨床藥物”("clinical drug")。語義關(guān)系是用來連接語義類型,詳見官網(wǎng)https://www.nlm.nih.gov/research/umls/META3_current_relations.html。

語義類型的分配是基于源詞匯表中的概念的含義來進(jìn)行的,怎么把超級敘詞表中的詞語分配語義類型?是經(jīng)歷了四個(gè)過程:首先,用算法給每個(gè)詞語分配一個(gè)建議的語義類型;其次,由主題專家審查或分配不同的類型;再次,由承包商人員進(jìn)行審查;最后,所有任務(wù)都有一個(gè)小團(tuán)隊(duì)進(jìn)行使用并修改。


https://www.nlm.nih.gov/research/umls/META3_current_relations.html


https://www.ncbi.nlm.nih.gov/books/NBK9679/



A Portion of the UMLS Semantic Network: Relations

可以看到,語義網(wǎng)絡(luò)和超級敘詞表之間的關(guān)系就是,超級敘詞表通過某種方法被分為127種語義類型(7個(gè)組別),這些語義類型會(huì)通過語義關(guān)系進(jìn)行連接,構(gòu)成semantic network。

專家詞典和各種工具

專家詞典提供了詞匯相關(guān)信息和很多用于自然語言處理的工具。

專家辭典(SPECIALIST Lexicon)收錄常見的英語單詞、生物醫(yī)學(xué)術(shù)語和出現(xiàn)在Medline、UMLS Metathesaurus中的術(shù)語。每個(gè)詞條記錄均詳細(xì)描述自然語言處理系統(tǒng)所需要的詞典信息,包括句法、形式和結(jié)構(gòu)的拼寫信息,同時(shí)提供詞典工具和程序供超級敘詞表和專家詞典確定英語詞匯的范圍以及識別生物醫(yī)學(xué)術(shù)語和文本中詞的詞形變異,是進(jìn)行檢索、標(biāo)引和詞匯處理的有力工具[ 14]。詞條目可以是單個(gè)單詞或多個(gè)單詞組成的術(shù)語,相應(yīng)的記錄包括4個(gè)組成部分:基本形式、詞類、唯一性標(biāo)識符以及任何現(xiàn)成可用的拼寫形式。 專家辭典提供的自然語言處理工具如表1所示



軟件工具

(1)?UMLS概念的文本映射工具M(jìn)etaMap

MetaMap是一個(gè)實(shí)現(xiàn)自由文本到UMLS概念映射的工具,即標(biāo)記出生物醫(yī)學(xué)文本中所含有的UMLS超級敘詞表概念。MetaMap的應(yīng)用非常廣泛,如Medline數(shù)據(jù)檢索,有研究表明[ 18],它能夠提高M(jìn)edline文獻(xiàn)信息檢索的效果;同時(shí),MetaMap在數(shù)據(jù)挖掘領(lǐng)域也有廣泛的應(yīng)用,包括臨床發(fā)現(xiàn)、發(fā)現(xiàn)文獻(xiàn)中的藥物與疾病關(guān)系等;此外,MetaMap也是NLM自動(dòng)標(biāo)引系統(tǒng)的實(shí)現(xiàn)基礎(chǔ),用于為半自動(dòng)和全自動(dòng)標(biāo)引生成推薦術(shù)語.

小結(jié):可以用這個(gè)工具自動(dòng)識別出文本中實(shí)體的類別,是基因/疾病/...

(2)?語義表達(dá)工具SemRep

SemRep應(yīng)用自然語言處理技術(shù)和UMLS的專家辭典工具,將生物醫(yī)學(xué)文本進(jìn)行語句切分和詞性標(biāo)注,對所獲得的術(shù)語應(yīng)用MetaMap映射,獲得其在UMSL超級詞表中的相應(yīng)概念,以及概念在語義網(wǎng)絡(luò)中對應(yīng)的語義類型和語義關(guān)系,并通過概念共現(xiàn)獲得文本信息的主要論點(diǎn),即該文本主旨內(nèi)容的主語-謂詞-對象形式的語義表達(dá)

小結(jié):SemRep是一個(gè)程序,可從生物醫(yī)學(xué)自由文本中提取語義謂詞(主題-關(guān)系-對象三元組)。semrep主要是用來進(jìn)行關(guān)系抽取的。




UMLS搜索一個(gè)例子

搜索influenza,會(huì)有語義類型,CUI,以及一系列跟這個(gè)詞有關(guān)的其他詞(或是意思相近,或是帶有這個(gè)單詞)



term type是術(shù)語類型(??),默認(rèn)是降序,從高到低,排名最高的是該概念的首選名稱(所以是flu??,不是influenza嗎???)

CODE表示來源表



二. 如何使用UMLS

1. 獲得許可,注冊賬號

2. 遠(yuǎn)程連接? ?Restful API()

視頻:https://www.nlm.nih.gov/research/umls/user_education/quick_tours/UTS-API/UTS_REST_API_Authentication.html

網(wǎng)頁:https://documentation.uts.nlm.nih.gov/rest/home.html

簡而言之,三大步驟:獲得TGT->獲得ST->用API取數(shù)據(jù)。



3. 本地化

4. UMLS基于的算法

5. UMLS的優(yōu)缺點(diǎn)

優(yōu)點(diǎn):規(guī)模大,覆蓋的領(lǐng)域廣,梳理的細(xì)致;有唯一標(biāo)識符;有同義詞,且同義詞指向同一概念;有附加的同義詞(??);有關(guān)系層次;有語義類別

缺點(diǎn)(找例子??):結(jié)構(gòu)不一致(有向無環(huán)圖);

語義不一致;

缺乏關(guān)系;

isa關(guān)系的意義不是很準(zhǔn)確,is generally a表示一般情況下成立,但是有不成立的情況,所以由這個(gè)關(guān)系推理出來的其他關(guān)系不是很準(zhǔn)確;

對于缺失的和錯(cuò)誤的關(guān)系很難檢測到;

違反偏序關(guān)系的反對稱性(?);

一些關(guān)系展示出來了但是無法查到;

關(guān)系冗余,對于A->B->C的關(guān)系中,A->C的關(guān)系是可以省略的,但是有的還是添加上了。

術(shù)語庫只是單純存在術(shù)語,或者多了來源詞表的關(guān)系,但是缺乏規(guī)則和推理(規(guī)則推理/自動(dòng)推理);知識庫則是要由規(guī)則和推理的

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容