學(xué)習(xí)材料
The UMLS What is it and how to use it(PPT)
目標(biāo)
1.?umls有哪些數(shù)據(jù)類型
2.?各種數(shù)據(jù)類型是如何組織的:有哪些資源抽象成了哪些概念;relationship的來源及是怎么組織的
3.?構(gòu)想如何找一個(gè)實(shí)際的例子
4.?看UMLS?Restful API,怎樣用python從API上取數(shù)據(jù)

筆記
一.?簡介
Unified Medical Language System?統(tǒng)一醫(yī)學(xué)語言系統(tǒng)。
UMLS是為了克服存在于機(jī)器檢索信息中的兩大障礙:
1.?同樣的概念有著不同的表達(dá)
2.?有用的信息分布在不同的數(shù)據(jù)庫和系統(tǒng)(就是進(jìn)行資源的一個(gè)整合)
UMLS的使用:
1.?Database提供了一系列的關(guān)系數(shù)據(jù)文件
2.?交互界面:提供了網(wǎng)頁版的UMLS術(shù)語服務(wù);API
3.?提供了使用工具:專家詞典(Ivg); UMLS的安裝和定制工具M(jìn)etamorphoSys
以一個(gè)例子來看什么是UMLS
Addison's disease是一種罕見的內(nèi)分泌疾病,當(dāng)腎上腺產(chǎn)生不足的皮質(zhì)醇激素時(shí),便會(huì)得Addison's disease,因此Addison's disease有時(shí)稱為慢性腎上腺功能不足,或皮質(zhì)醇缺乏癥。
在UMLS中可以檢索出Addison's disease的Clinical variants,Symptoms,Synonyms,Organize terms。
Addison's disease這個(gè)疾病在不同的資源中會(huì)有不同的id,例如:MESH,SNOMED...但是UMLS會(huì)給出一個(gè)Unique identifier(CUI)
UMLS包含的三種數(shù)據(jù)類型

?(1)超級敘詞表(Metathesaurus),是UMLS知識源的核心,由來自各種受控詞表的概念和術(shù)語以及它們之間的關(guān)系所構(gòu)成;
?(2)語義網(wǎng)絡(luò)(Semantic Network),是對超級敘詞表概念的分類和分類之間的關(guān)系;
?(3)專家辭典(SPECIALIST Lexicon),是一個(gè)詞典信息庫,用于自然語言處理;
超級敘詞表
?超級敘詞表是UMLS構(gòu)成的基礎(chǔ)。截至2021年的最新版本(2021AA),超級敘詞表包含有444萬個(gè)概念和1610萬個(gè)唯一概念名稱,這些概念來源于218個(gè)詞表源,其類型包括主題詞表、分類系統(tǒng)、標(biāo)題表、代碼表、本體等,涉及19個(gè)語種。從當(dāng)前受控詞表集成的規(guī)模來看,UMLS具有空前的廣泛性、異構(gòu)性和多語言性[ 7]。UMLS每年更新兩次,春天一次,秋天一次,分別為AA和AB。
?(3)以概念為核心的字串-術(shù)語-概念的組織方法 概念是超級敘詞表的組織核心。

小結(jié):超級敘詞表的組織方式如上圖,先將不同來源的詞匯分配一個(gè)id,即AUI(注意,同一源詞匯表中若收錄了兩次相同的概念,則分配兩個(gè)AUI);相同的AUI會(huì)連接到單個(gè)字符串標(biāo)識符(SUI);每個(gè)字符串會(huì)通過詞法變體,如單復(fù)數(shù)來連接到同一個(gè)公共術(shù)語標(biāo)識符(LUI);同樣意義的LUI會(huì)連接到同一個(gè)CUI。會(huì)選擇一個(gè)詞作為優(yōu)選詞,其他為同義詞。
相同的LUI可能有不同的CUI,因?yàn)長UI只是根據(jù)詞形來劃分在一起的。(找例子?)

概念結(jié)構(gòu): CUI-LUI-SUI-AUI?
(2)概念名稱和字符串標(biāo)識符:概念名稱是指概念的術(shù)語表示形式;SUI?
(3)來源術(shù)語和標(biāo)識符:來源術(shù)語(Atom Identifier, AUI),相同的字符串AUI被連接到一個(gè)SUI?
(4)原形化術(shù)語和標(biāo)識符:(Lexical Identifier, LUI)每個(gè)字符串都要進(jìn)行詞匯的原形化處理,如復(fù)數(shù)轉(zhuǎn)單數(shù)等,其目的是將同一術(shù)語的各種詞匯變體形式連接到一起。注意:很多詞語中后面會(huì)跟上NOS,NOS表示沒有另外說明的話,NOS是可以刪除的。uninflect表示去變體。

總結(jié)一下:CUI是概念的唯一標(biāo)識符,LUI是概念的同義詞,SUI是不同術(shù)語(LUI)所擁有的不同的英語表達(dá)形式(單復(fù)數(shù)/過去式/...),AUI是原詞
這四個(gè)表識符的關(guān)系是,AUI原詞會(huì)有不同來源,但是相同字符串的AUI會(huì)被連接上同一個(gè)SUI;不同的SUI會(huì)由于單復(fù)數(shù)/時(shí)態(tài)問題有多種表達(dá)形式,但這些SUI都表示同一種東西,則會(huì)被連接到同一個(gè)LUI;不同表達(dá)形式的LUI會(huì)選出一個(gè)優(yōu)選詞賦予CUI
問題:不同的AUI是相同的字符串????因?yàn)閷懛ㄏ嗤?/i>
Metathesaurus數(shù)據(jù)文件 Metathesaurus 有40多個(gè)元數(shù)據(jù)和索引 數(shù)據(jù)文件

超級敘詞表來源于超過200個(gè)詞表的收錄情況,如圖展示了前十個(gè)


超級敘詞表中包含了關(guān)系,除了收錄來源詞表中的概念,超級敘詞表也繼承和發(fā)展了源詞表中的關(guān)系。這些關(guān)系大多來源于來源詞匯表,或者NLM構(gòu)建時(shí)添加的一些,或者來源于用戶提供的。關(guān)系大多是AUI與AUI之間以及AUI和CUI之間的關(guān)系,因?yàn)檫@些關(guān)系大多是來源于來源詞表的。關(guān)系文件不包含概念名稱。
Metathesaurus中大約四分之一的關(guān)系還帶有一個(gè)附加標(biāo)簽(RELA),該標(biāo)簽是從源詞匯表獲得的,可以更準(zhǔn)確地解釋關(guān)系的性質(zhì),例如is_a,branch_of,component_of。
語義網(wǎng)絡(luò)
語義網(wǎng)絡(luò)由兩部分組成:語義類型(Semantic Types)和語義關(guān)系(Semantic Relationships)。
?2、每個(gè)語義類型和語義關(guān)系都有唯一的語義標(biāo)識符(TUI)?
?3、語義類型采用了構(gòu)思新穎的樹形等級結(jié)構(gòu),語義類型的最高層為實(shí)體(Entity)和事件(Event)兩大類?


?4、語義類型是網(wǎng)狀結(jié)構(gòu)中的節(jié)點(diǎn),而語義關(guān)系則是將這些節(jié)點(diǎn)連接到一起的鏈?
?5、分為兩大類:等級關(guān)系和相關(guān)關(guān)系?
小結(jié):語義關(guān)系和語義類型構(gòu)成了語義網(wǎng)絡(luò);語義類型就是標(biāo)簽,也就是個(gè)各種實(shí)體分了類,比如藥物統(tǒng)一有一類叫做“臨床藥物”("clinical drug")。語義關(guān)系是用來連接語義類型,詳見官網(wǎng)https://www.nlm.nih.gov/research/umls/META3_current_relations.html。
語義類型的分配是基于源詞匯表中的概念的含義來進(jìn)行的,怎么把超級敘詞表中的詞語分配語義類型?是經(jīng)歷了四個(gè)過程:首先,用算法給每個(gè)詞語分配一個(gè)建議的語義類型;其次,由主題專家審查或分配不同的類型;再次,由承包商人員進(jìn)行審查;最后,所有任務(wù)都有一個(gè)小團(tuán)隊(duì)進(jìn)行使用并修改。



可以看到,語義網(wǎng)絡(luò)和超級敘詞表之間的關(guān)系就是,超級敘詞表通過某種方法被分為127種語義類型(7個(gè)組別),這些語義類型會(huì)通過語義關(guān)系進(jìn)行連接,構(gòu)成semantic network。
專家詞典和各種工具
專家詞典提供了詞匯相關(guān)信息和很多用于自然語言處理的工具。

軟件工具
(1)?UMLS概念的文本映射工具M(jìn)etaMap
小結(jié):可以用這個(gè)工具自動(dòng)識別出文本中實(shí)體的類別,是基因/疾病/...
(2)?語義表達(dá)工具SemRep
小結(jié):SemRep是一個(gè)程序,可從生物醫(yī)學(xué)自由文本中提取語義謂詞(主題-關(guān)系-對象三元組)。semrep主要是用來進(jìn)行關(guān)系抽取的。

UMLS搜索一個(gè)例子
搜索influenza,會(huì)有語義類型,CUI,以及一系列跟這個(gè)詞有關(guān)的其他詞(或是意思相近,或是帶有這個(gè)單詞)


term type是術(shù)語類型(??),默認(rèn)是降序,從高到低,排名最高的是該概念的首選名稱(所以是flu??,不是influenza嗎???)
CODE表示來源表
二. 如何使用UMLS
1. 獲得許可,注冊賬號
2. 遠(yuǎn)程連接? ?Restful API()
視頻:https://www.nlm.nih.gov/research/umls/user_education/quick_tours/UTS-API/UTS_REST_API_Authentication.html
網(wǎng)頁:https://documentation.uts.nlm.nih.gov/rest/home.html
簡而言之,三大步驟:獲得TGT->獲得ST->用API取數(shù)據(jù)。

3. 本地化
4. UMLS基于的算法
5. UMLS的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):規(guī)模大,覆蓋的領(lǐng)域廣,梳理的細(xì)致;有唯一標(biāo)識符;有同義詞,且同義詞指向同一概念;有附加的同義詞(??);有關(guān)系層次;有語義類別
缺點(diǎn)(找例子??):結(jié)構(gòu)不一致(有向無環(huán)圖);
語義不一致;
缺乏關(guān)系;
isa關(guān)系的意義不是很準(zhǔn)確,is generally a表示一般情況下成立,但是有不成立的情況,所以由這個(gè)關(guān)系推理出來的其他關(guān)系不是很準(zhǔn)確;
對于缺失的和錯(cuò)誤的關(guān)系很難檢測到;
違反偏序關(guān)系的反對稱性(?);
一些關(guān)系展示出來了但是無法查到;
關(guān)系冗余,對于A->B->C的關(guān)系中,A->C的關(guān)系是可以省略的,但是有的還是添加上了。

術(shù)語庫只是單純存在術(shù)語,或者多了來源詞表的關(guān)系,但是缺乏規(guī)則和推理(規(guī)則推理/自動(dòng)推理);知識庫則是要由規(guī)則和推理的