国产日韩久久欧美,亚洲熟女av中文字幕

學(xué)習(xí)材料

The UMLS What is it and how to use it(PPT)

UMLS及其在智能檢索中的應(yīng)用

目標(biāo)

1.?umls有哪些數(shù)據(jù)類型

2.?各種數(shù)據(jù)類型是如何組織的:有哪些資源抽象成了哪些概念；relationship的來源及是怎么組織的

3.?構(gòu)想如何找一個(gè)實(shí)際的例子

4.?看UMLS?Restful API,怎樣用python從API上取數(shù)據(jù)

PPT Outline

筆記

一.?簡介

Unified Medical Language System?統(tǒng)一醫(yī)學(xué)語言系統(tǒng)。

UMLS是為了克服存在于機(jī)器檢索信息中的兩大障礙：

1.?同樣的概念有著不同的表達(dá)

2.?有用的信息分布在不同的數(shù)據(jù)庫和系統(tǒng)（就是進(jìn)行資源的一個(gè)整合）

UMLS的使用：

1.?Database提供了一系列的關(guān)系數(shù)據(jù)文件

2.?交互界面：提供了網(wǎng)頁版的UMLS術(shù)語服務(wù);API

3.?提供了使用工具：專家詞典（Ivg）; UMLS的安裝和定制工具M(jìn)etamorphoSys

以一個(gè)例子來看什么是UMLS

Addison's disease是一種罕見的內(nèi)分泌疾病，當(dāng)腎上腺產(chǎn)生不足的皮質(zhì)醇激素時(shí)，便會(huì)得Addison's disease，因此Addison's disease有時(shí)稱為慢性腎上腺功能不足，或皮質(zhì)醇缺乏癥。

在UMLS中可以檢索出Addison's disease的Clinical variants,Symptoms,Synonyms,Organize terms。

Addison's disease這個(gè)疾病在不同的資源中會(huì)有不同的id，例如：MESH,SNOMED...但是UMLS會(huì)給出一個(gè)Unique identifier(CUI)

UMLS包含的三種數(shù)據(jù)類型

UMLS包括以下4大部分:

?(1)超級敘詞表(Metathesaurus),是UMLS知識源的核心,由來自各種受控詞表的概念和術(shù)語以及它們之間的關(guān)系所構(gòu)成;

?(2)語義網(wǎng)絡(luò)(Semantic Network),是對超級敘詞表概念的分類和分類之間的關(guān)系;

?(3)專家辭典(SPECIALIST Lexicon),是一個(gè)詞典信息庫,用于自然語言處理;

?(4)支持性的軟件工具,各種利用UMLS的工具和程序[ 5]。也有人將UMLS分為三大部分,即將上述第(3)、(4)兩部分結(jié)合在一起[ 3]。據(jù)統(tǒng)計(jì),超級敘詞表是最經(jīng)常被使用到的知識源,約占總使用量的94%;其次是語義網(wǎng)絡(luò)和專家詞典與工具,約占使用量的28%;三項(xiàng)都使用的用戶占全部用戶的19%[ 3]。無論劃分為4個(gè)部分還是3個(gè)部分,這幾個(gè)部分既可以同時(shí)組合使用,也可以各自獨(dú)立使用。

超級敘詞表

(1)來源的廣泛性、異構(gòu)性與多語言性?

?超級敘詞表是UMLS構(gòu)成的基礎(chǔ)。截至2021年的最新版本(2021AA),超級敘詞表包含有444萬個(gè)概念和1610萬個(gè)唯一概念名稱,這些概念來源于218個(gè)詞表源，其類型包括主題詞表、分類系統(tǒng)、標(biāo)題表、代碼表、本體等,涉及19個(gè)語種。從當(dāng)前受控詞表集成的規(guī)模來看,UMLS具有空前的廣泛性、異構(gòu)性和多語言性[ 7]。UMLS每年更新兩次，春天一次，秋天一次，分別為AA和AB。

?(2)建設(shè)的開放性和可持續(xù)性?

?UMLS超級詞表的概念體系是一個(gè)不斷累積建設(shè)的過程,1993年,它的來源詞表只有15個(gè),2007年增至136個(gè)來源詞表,17個(gè)語種[ 8]。UMLS具有良好的維護(hù)和更新機(jī)制,包括詞表新增、詞表版本更新、錯(cuò)誤修正等。NLM網(wǎng)站的What’s New, Updated Sources和 Release Documentation的統(tǒng)計(jì)部分發(fā)布UMLS的更新情況。?

?(3)以概念為核心的字串-術(shù)語-概念的組織方法概念是超級敘詞表的組織核心。

同一概念在不同的詞表中有不同的表達(dá),即使同一表達(dá),也可能有不同的詞形。UMLS采用術(shù)語組織(Terms Organize)的方法,將表達(dá)同一事物的不同來源的不同表達(dá)集中在一起,形成一個(gè)概念,同時(shí)選擇一個(gè)較為通用的詞作為優(yōu)選詞(Preferred Term)來表達(dá)這個(gè)概念,并對這個(gè)概念分配一個(gè)概念唯一標(biāo)識(Concept Unique Identifier),這一標(biāo)識是不變的,本身也是無意義的代碼。來自各個(gè)詞表的同義詞即術(shù)語,也會(huì)被分配一個(gè)唯一標(biāo)識LUI(Lexical Unique Identifier)[ 9, 10]。因此,超級敘詞表的概念組織模型為字串-術(shù)語-概念,如圖

https://www.ncbi.nlm.nih.gov/books/NBK9684/

小結(jié)：超級敘詞表的組織方式如上圖，先將不同來源的詞匯分配一個(gè)id，即AUI（注意，同一源詞匯表中若收錄了兩次相同的概念，則分配兩個(gè)AUI）；相同的AUI會(huì)連接到單個(gè)字符串標(biāo)識符（SUI）；每個(gè)字符串會(huì)通過詞法變體，如單復(fù)數(shù)來連接到同一個(gè)公共術(shù)語標(biāo)識符（LUI）；同樣意義的LUI會(huì)連接到同一個(gè)CUI。會(huì)選擇一個(gè)詞作為優(yōu)選詞，其他為同義詞。

相同的LUI可能有不同的CUI，因?yàn)長UI只是根據(jù)詞形來劃分在一起的。（找例子？）

https://zhuanlan.zhihu.com/p/359377333

UMLS 的元數(shù)據(jù)詞典是以概念為核心，依據(jù)概念（Concept, C）組織起來的。概念結(jié)構(gòu)的設(shè)計(jì)方法是將同一概念的各種名稱（同義詞）和變種形式（單復(fù)數(shù)、形容詞等詞性變體）聯(lián)系在一起。一般來說，表達(dá)同一概念可以有多個(gè)術(shù)語（即同義詞），而每一個(gè)術(shù)語又有不同的詞串表達(dá)方式，在超級敘詞表中，多個(gè)術(shù)語體現(xiàn)為同義詞，不同的詞串表達(dá)方式體現(xiàn)為詞性變體。

概念結(jié)構(gòu): CUI-LUI-SUI-AUI?

（1）概念和概念標(biāo)識符：每個(gè)概念被指定一個(gè)概念識別碼（Concept Identifier, CUI），并給出了概念類別和概念的描述文本。相同 CUI 代表概念的同義詞集合。

（2）概念名稱和字符串標(biāo)識符：概念名稱是指概念的術(shù)語表示形式；SUI?

（3）來源術(shù)語和標(biāo)識符：來源術(shù)語（Atom Identifier, AUI），相同的字符串AUI被連接到一個(gè)SUI?

（4）原形化術(shù)語和標(biāo)識符：（Lexical Identifier, LUI）每個(gè)字符串都要進(jìn)行詞匯的原形化處理，如復(fù)數(shù)轉(zhuǎn)單數(shù)等，其目的是將同一術(shù)語的各種詞匯變體形式連接到一起。注意：很多詞語中后面會(huì)跟上NOS，NOS表示沒有另外說明的話，NOS是可以刪除的。uninflect表示去變體。

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

總結(jié)一下：CUI是概念的唯一標(biāo)識符，LUI是概念的同義詞，SUI是不同術(shù)語（LUI）所擁有的不同的英語表達(dá)形式（單復(fù)數(shù)/過去式/...）,AUI是原詞

這四個(gè)表識符的關(guān)系是，AUI原詞會(huì)有不同來源，但是相同字符串的AUI會(huì)被連接上同一個(gè)SUI；不同的SUI會(huì)由于單復(fù)數(shù)/時(shí)態(tài)問題有多種表達(dá)形式，但這些SUI都表示同一種東西，則會(huì)被連接到同一個(gè)LUI；不同表達(dá)形式的LUI會(huì)選出一個(gè)優(yōu)選詞賦予CUI

問題：不同的AUI是相同的字符串？？？？因?yàn)閷懛ㄏ嗤?/i>

Metathesaurus數(shù)據(jù)文件 Metathesaurus 有40多個(gè)元數(shù)據(jù)和索引數(shù)據(jù)文件

超級敘詞表來源于超過200個(gè)詞表的收錄情況，如圖展示了前十個(gè)

超級敘詞表中包含了關(guān)系，除了收錄來源詞表中的概念，超級敘詞表也繼承和發(fā)展了源詞表中的關(guān)系。這些關(guān)系大多來源于來源詞匯表，或者NLM構(gòu)建時(shí)添加的一些，或者來源于用戶提供的。關(guān)系大多是AUI與AUI之間以及AUI和CUI之間的關(guān)系，因?yàn)檫@些關(guān)系大多是來源于來源詞表的。關(guān)系文件不包含概念名稱。

Metathesaurus中大約四分之一的關(guān)系還帶有一個(gè)附加標(biāo)簽（RELA），該標(biāo)簽是從源詞匯表獲得的，可以更準(zhǔn)確地解釋關(guān)系的性質(zhì)，例如is_a，branch_of，component_of。

語義網(wǎng)絡(luò)

語義網(wǎng)絡(luò)由兩部分組成:語義類型(Semantic Types)和語義關(guān)系(Semantic Relationships)。

語義類型是概念的范疇分類,超級敘詞表中每一個(gè)概念至少要被分配一個(gè)語義類型,語義關(guān)系則是語義類型之間的關(guān)系[ 12]。目前的語義類型有135個(gè),可分為實(shí)體(Entity)和事件(Event)兩大類[ 13]。實(shí)體指物理對象,如生物、解剖結(jié)構(gòu)、物質(zhì)、制品等;事件是社會(huì)活動(dòng),如行為、活動(dòng)、研究過程等。

語義類型是分層次的,因此具有等級關(guān)系即is-a,除此之外,語義類型之間還存在各種相關(guān)關(guān)系,如:物理上相關(guān)(Physically-related-to),空間上相關(guān)(Spatially-related-to),功能上相關(guān)(Functionally-related-to),時(shí)間上相關(guān)(Temporally-related-to)和概念上相關(guān)(Conceptually-related-to)。

UMLS定義了包括is-a在內(nèi)的共54種語義關(guān)系,語義類型可以看成是有層次結(jié)構(gòu)的“節(jié)點(diǎn)”,而語義關(guān)系將這些節(jié)點(diǎn)連成網(wǎng)絡(luò)。

語義網(wǎng)絡(luò)提供了概念的一致性分類，即語義類型，以及更加詳細(xì)的概念之間的語義關(guān)系，其中語義類型具有樹形層次等級結(jié)構(gòu)特點(diǎn)，UMLS 以語義類型為點(diǎn)，語義類型之間的語義關(guān)系為鏈構(gòu)成了語義網(wǎng)絡(luò)

1、127種語義類型以及54種語義關(guān)系

?2、每個(gè)語義類型和語義關(guān)系都有唯一的語義標(biāo)識符(TUI)?

?3、語義類型采用了構(gòu)思新穎的樹形等級結(jié)構(gòu)，語義類型的最高層為實(shí)體（Entity）和事件（Event）兩大類?

https://www.nlm.nih.gov/research/umls/META3_current_semantic_types.html

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

?4、語義類型是網(wǎng)狀結(jié)構(gòu)中的節(jié)點(diǎn)，而語義關(guān)系則是將這些節(jié)點(diǎn)連接到一起的鏈?

?5、分為兩大類：等級關(guān)系和相關(guān)關(guān)系?

?6、UMLS 語義網(wǎng)絡(luò)中最常用的語義關(guān)系是 isa，它不僅確立了語義類型之間的等級關(guān)系，而且也能被用來決定超級敘詞表中的每個(gè)概念對應(yīng)的具體語義類型的分配。

小結(jié)：語義關(guān)系和語義類型構(gòu)成了語義網(wǎng)絡(luò)；語義類型就是標(biāo)簽，也就是個(gè)各種實(shí)體分了類，比如藥物統(tǒng)一有一類叫做“臨床藥物”("clinical drug")。語義關(guān)系是用來連接語義類型，詳見官網(wǎng)https://www.nlm.nih.gov/research/umls/META3_current_relations.html。

語義類型的分配是基于源詞匯表中的概念的含義來進(jìn)行的，怎么把超級敘詞表中的詞語分配語義類型？是經(jīng)歷了四個(gè)過程：首先，用算法給每個(gè)詞語分配一個(gè)建議的語義類型；其次，由主題專家審查或分配不同的類型；再次，由承包商人員進(jìn)行審查；最后，所有任務(wù)都有一個(gè)小團(tuán)隊(duì)進(jìn)行使用并修改。

https://www.nlm.nih.gov/research/umls/META3_current_relations.html