數(shù)據(jù)庫分享 | SIB 瑞士生物信息學(xué)研究所數(shù)據(jù)語義網(wǎng)絡(luò)

Basic Information

  • 英文標(biāo)題: The SIB Swiss Institute of Bioinformatics Semantic Web of data
  • 中文標(biāo)題:SIB 瑞士生物信息學(xué)研究所數(shù)據(jù)語義網(wǎng)絡(luò)
  • 發(fā)表日期:25 October 2023
  • 文章類型:Na
  • 所屬期刊:Nucleic Acids Research
  • 文章作者:SIB Swiss Institute of Bioinformatics RDF Group Members
  • 文章鏈接:https://academic.oup.com/nar/article/52/D1/D44/7329473

Abstract

  1. SIB瑞士生物信息學(xué)研究所(https://www.sib.swiss/)是一個(gè)生物信息學(xué)研究和服務(wù)團(tuán)隊(duì)的聯(lián)合會(huì)。
  2. 自1998年成立以來,國際學(xué)術(shù)界和工業(yè)界的生物科學(xué)界一直在使用SIB提供的免費(fèi)數(shù)據(jù)庫。
  3. 本文介紹了目前遵循FAIR原則(可發(fā)現(xiàn)、可訪問、可互操作、可重用)提供語義豐富數(shù)據(jù)的11個(gè)數(shù)據(jù)庫,以及同樣采用這種豐富方法的瑞士個(gè)性化健康網(wǎng)絡(luò)倡議(SPHN)。
  4. 語義豐富有助于處理來自公共數(shù)據(jù)庫和私有數(shù)據(jù)集的大數(shù)據(jù)集。
  5. 我們提供了例子來說明SIB數(shù)據(jù)庫的數(shù)據(jù)不僅可以使用精確的標(biāo)準(zhǔn)單獨(dú)查詢,還可以跨多個(gè)數(shù)據(jù)庫進(jìn)行查詢,包括各種非SIB數(shù)據(jù)庫。
  6. 可以使用SPARQL查詢語言進(jìn)行數(shù)據(jù)探索、提取、注釋、組合和發(fā)布等數(shù)據(jù)操作。
  7. 提供文檔、教程和示例查詢使用戶更容易導(dǎo)航這個(gè)語義數(shù)據(jù)網(wǎng)。
  8. 通過本文,讀者將了解如何利用現(xiàn)有的SIB知識(shí)圖譜來應(yīng)對(duì)當(dāng)今面臨的復(fù)雜生物學(xué)或臨床問題

Introduction

Para_01
  1. 科學(xué)研究成果的迅速增加導(dǎo)致了由該領(lǐng)域?qū)<易珜懙奈墨I(xiàn)綜述以及最近專家策劃的數(shù)據(jù)庫的發(fā)展。
  2. 生物和健康數(shù)據(jù)的增長促使數(shù)據(jù)庫數(shù)量相應(yīng)增加。
  3. 盡管查詢?nèi)匀恢饕窒抻谝淮吾槍?duì)單一數(shù)據(jù)庫,但整合多種數(shù)據(jù)類型(例如,基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué))以解答復(fù)雜的生物學(xué)問題的需求日益增長。
  4. 換句話說,研究人員和醫(yī)療專業(yè)人員必須能夠從多個(gè)數(shù)據(jù)庫查詢和結(jié)合數(shù)據(jù),甚至與他們自己的數(shù)據(jù)集相結(jié)合,以便獲得只有通過全面視角才能獲得的洞見和知識(shí)。
Para_02
  1. 瑞士生物信息學(xué)研究所(SIB)自1998年成立以來,一直致力于滿足學(xué)術(shù)界、工業(yè)界和醫(yī)院生物數(shù)據(jù)社區(qū)的需求。
  2. 憑借在數(shù)據(jù)管理、存儲(chǔ)、整合與分析方面的專長,SIB一直在開發(fā)數(shù)據(jù)庫。
  3. 這些資源中的數(shù)據(jù)非常多樣,包括UniProt中的蛋白質(zhì)(它們的序列和功能)、Rhea中的蛋白質(zhì)催化酶促和運(yùn)輸反應(yīng)、STRING中的蛋白質(zhì)-蛋白質(zhì)相互作用、Bgee中的基因表達(dá)以及OMA和OrthoDB中的同源基因。
  4. 所有這些數(shù)據(jù)庫為全球科學(xué)家提供了高質(zhì)量的數(shù)據(jù)基礎(chǔ)。
Para_03
  1. 文本索引使數(shù)據(jù)庫內(nèi)容更加易于訪問,從而使其成為基礎(chǔ)生命科學(xué)和醫(yī)學(xué)研究的基石。
  2. 雖然這使得人類可以輕松使用數(shù)據(jù)庫,但嚴(yán)重限制了通過查詢可以回答的問題類型。
  3. 語義網(wǎng)的出現(xiàn),即鏈接數(shù)據(jù)的網(wǎng)絡(luò),允許人類和機(jī)器在存儲(chǔ)有關(guān)同一實(shí)體信息的不同數(shù)據(jù)庫之間進(jìn)行導(dǎo)航。
  4. 資源描述框架(RDF)是萬維網(wǎng)聯(lián)盟的核心語義網(wǎng)技術(shù)之一,特別適合在全球范圍內(nèi)共享和鏈接數(shù)據(jù)。
  5. 使用SPARQL查詢語言可以對(duì)RDF中的數(shù)據(jù)進(jìn)行查詢、檢索和操作。
  6. RDF數(shù)據(jù)模型是一種有向圖,可以表示為一組三元組形式的陳述,即主語-謂語-賓語。
  7. 為了在網(wǎng)絡(luò)上鏈接數(shù)據(jù),RDF要求每個(gè)實(shí)體必須有一個(gè)全球唯一的標(biāo)識(shí)符。
  8. 這些標(biāo)識(shí)符允許任何人對(duì)給定實(shí)體做出陳述,并且結(jié)合RDF數(shù)據(jù)模型的簡(jiǎn)單結(jié)構(gòu),使得不同數(shù)據(jù)庫關(guān)于同一實(shí)體所做的陳述易于組合,從而實(shí)現(xiàn)跨不同數(shù)據(jù)集的查詢。
Para_04
  1. 在本文中,我們通過將數(shù)據(jù)作為可通過 SPARQL 接口訪問的 RDF 知識(shí)圖譜提供,展示了作為全球語義網(wǎng)一部分的 SIB 數(shù)據(jù)庫。
  2. 為了說明 SPARQL 查詢對(duì)生物學(xué)家或生物信息學(xué)家有何用處,我們展示了幾則由資源在其 SPARQL 接口中提供的示例。
  3. 接下來,我們進(jìn)一步闡述如何利用語義網(wǎng)技術(shù)來探索、鏈接、分享和重用數(shù)據(jù),包括在瑞士個(gè)性化健康網(wǎng)絡(luò)倡議 (SPHN) 的背景下。
  4. 這個(gè)使用案例展示了如何出于研究目的訪問私人臨床數(shù)據(jù)。
  5. 最后,鑒于學(xué)習(xí) SPARQL 語法的需求,我們介紹了迄今為止開展的培訓(xùn)活動(dòng),旨在擴(kuò)大用戶群體,并以未來的展望作結(jié)。

SIB linked open data in RDF

Para_05
  1. 與歐洲生物信息學(xué)研究所(EBI)RDF平臺(tái)等數(shù)據(jù)倉庫計(jì)劃不同,該平臺(tái)在一個(gè)集中式存儲(chǔ)庫中整合了來自各種EBI數(shù)據(jù)庫的數(shù)據(jù),SIB數(shù)據(jù)庫以分散的方式獨(dú)立生成和提供其RDF格式的數(shù)據(jù)。
  2. 蛋白質(zhì)知識(shí)庫UniProt早在2009年就開始探索使用RDF,并且是提供的RDF格式最大的SIB數(shù)據(jù)庫。
  3. 繼UniProt之后,neXtProt在2014年建立了SPARQL端點(diǎn)。
  4. OrthoDB在2016年效仿跟進(jìn),隨后是OMA(同源矩陣)、Rhea、Bgee、HAMAP、MetaNetX以及最近的GlyConnect、STRING和SwissLipids。
  5. Cellosaurus是一個(gè)關(guān)于細(xì)胞系的SIB知識(shí)資源,目前沒有SPARQL端點(diǎn)。
  6. 然而,其部分細(xì)胞系數(shù)據(jù)以及部分Bgee表達(dá)數(shù)據(jù)可通過Wikidata的SPARQL端點(diǎn)獲取。
  7. 目前共有11個(gè)SIB數(shù)據(jù)庫提供了公共鏈接開放數(shù)據(jù),主題范圍包括蛋白質(zhì)、反應(yīng)、同源基因、基因表達(dá)和代謝組學(xué)。
  8. 表1中列出的所有SPARQL端點(diǎn)都通過網(wǎng)絡(luò)免費(fèi)向公眾開放,無需登錄或注冊(cè),也不受密碼保護(hù)。
  • 表 1. 提供免費(fèi)、鏈接開放數(shù)據(jù)以供重用的SIB數(shù)據(jù)庫
Database SPARQL endpoint URL Type of data
Bgee https://www.bgee.org/sparql/ Gene expression
https://purl.org/bioquery (Bio-Query)
Cellosaurus https://query.wikidata.org/ (via Wikidata) Cell line
GlyConnect https://beta.glyconnect.expasy.org/sparql Glycoprotein
https://glyconnect.expasy.org/sparql (only machine-readable)
HAMAP https://hamap.expasy.org/sparql Protein family classification and
annotation rules
MetaNetX https://rdf.metanetx.org/ Metabolic network
OMA https://sparql.omabrowser.org/ Orthologous protein-coding gene
OrthoDB https://sparql.orthodb.org/ Orthologous protein-coding gene
Rhea https://sparql.rhea-db.org/ Enzymatic and transport reaction
STRING https://sparql.string-db.org/ Protein-protein interactions
SwissLipids https://beta.sparql.swisslipids.org/ Lipid
UniProtKB https://sparql.uniprot.org/ Protein
Para_06
  1. 雖然SIB RDF資源是獨(dú)立創(chuàng)建并分別維護(hù)的,但這些資源經(jīng)常重用彼此的數(shù)據(jù)表示、通用本體、數(shù)據(jù)建模實(shí)踐和設(shè)計(jì)模式來構(gòu)建它們的數(shù)據(jù)。
  2. 這樣做是為了增強(qiáng)SIB資源之間的互操作性,并便于編寫SPARQL查詢。
  3. 例如,Bgee和OMA重用了UniProt的數(shù)據(jù)架構(gòu)和數(shù)據(jù)值(如物種)來表示生物分類。
  4. OrthoDB也使用UniProt實(shí)例定義生物分類。
  5. Bgee重用了來自O(shè)MA的基因表示以及其底層數(shù)據(jù)架構(gòu)的一部分,即同源性本體(ORTH)。
  6. 此外,當(dāng)適用時(shí),特定領(lǐng)域的本體,如基因本體(GO)和UBERON(一個(gè)多物種解剖實(shí)體本體)也被整合到SIB資源中。
  7. 例如,Bgee重用了UBERON;UniProt和OrthoDB重用了GO;MetaNetX和UniProt重用了ChEBI(生物興趣化學(xué)實(shí)體)本體。
  8. 此外,所有SIB資源都使用RDF對(duì)SIB與其他數(shù)據(jù)庫之間的交叉引用進(jìn)行了建模。
  9. 例如,OMA、Bgee和OrthoDB中的蛋白質(zhì)或基因指向UniProt中的蛋白質(zhì),這有助于編寫聯(lián)合查詢以結(jié)合它們的數(shù)據(jù)。
  10. 最后,RDF中的鏈接不僅僅是交叉引用,例如,Rhea被用于UniProt中來建模酶的催化活性。
  11. 這種使用Rhea的方式不僅僅是一個(gè)指針,實(shí)際上是UniProt數(shù)據(jù)模型的核心組成部分。
Para_07
  1. YummyData評(píng)估了與生物醫(yī)學(xué)研究相關(guān)的SPARQL終端以及所提供的數(shù)據(jù)集,以幫助用戶決定使用哪些,并促使數(shù)據(jù)提供者通過鏈接數(shù)據(jù)技術(shù)提高所提供數(shù)據(jù)的質(zhì)量。
  2. Umaka評(píng)分(‘Umaka’是日語方言詞匯,在英語中的意思是‘美味’),是一個(gè)用于質(zhì)量評(píng)估的簡(jiǎn)單指數(shù)。
  3. YummyData對(duì)SIB項(xiàng)目給出的評(píng)分在70到97分之間,最高分為100分,平均分為61分(截至2023年8月-評(píng)分隨時(shí)間變化,主要是因?yàn)椤當(dāng)?shù)據(jù)新鮮度’的標(biāo)準(zhǔn))。
  4. 這種對(duì)SIB SPARQL終端的獨(dú)立評(píng)價(jià)顯示了它們的質(zhì)量和適用性。

Querying RDF data using SPARQL

Para_08
  1. SPARQL語言允許搜索條件極為精確。
  2. 為了說明這一點(diǎn),我們展示了三個(gè)SPARQL查詢示例,這些示例展示了生命科學(xué)家或生物信息學(xué)家如何在RDF中查詢數(shù)據(jù):(i)一個(gè)作為示例的查詢,這種查詢?cè)谄渌闆r下是不可能實(shí)現(xiàn)的;(ii)一個(gè)聯(lián)合查詢,其中不同的部分在三個(gè)不同的SPARQL端點(diǎn)上執(zhí)行,并將從它們那里檢索到的數(shù)據(jù)組合在查詢結(jié)果中;(iii)一個(gè)涉及兩個(gè)資源的聯(lián)合查詢,其中一個(gè)資源是SIB資源。
  3. 重要的是,SPARQL查詢的結(jié)果始終與SIB資源中的最新信息保持同步,因?yàn)樗鼈兊腟PARQL端點(diǎn)中的數(shù)據(jù)在每次發(fā)布時(shí)都會(huì)更新。
Para_09
  1. 作為第一個(gè)例子,考慮一個(gè)無法用Rhea網(wǎng)站中的基于文本搜索來表達(dá)的SPARQL查詢。
  2. 在Rhea SPARQL網(wǎng)頁上的示例15檢索了所有作為反應(yīng)參與者出現(xiàn)在Rhea中的ChEBI化合物,其中ChEBI可以是小分子、大分子的反應(yīng)部分或是聚合物(點(diǎn)擊顯示查詢按鈕可以看到SPARQL查詢,參見https://purl.org/sib-rdf/query-example-0001)。
  3. 查詢結(jié)果列出了ChEBI標(biāo)識(shí)符(鏈接到ChEBI中的相應(yīng)條目)、化合物名稱以及該化合物在Rhea中的出現(xiàn)次數(shù),如圖1所示。
  4. 查詢結(jié)果以CSV、XML和JSON格式提供,方便用戶再次使用。
  • 圖 1. 通過 SPARQL 查詢?cè)?Rhea 中發(fā)現(xiàn)的酶促和運(yùn)輸反應(yīng)中的十大化合物。查詢返回了 ChEBI 標(biāo)識(shí)符(鏈接到 ChEBI 中的條目,列 chebi)、化合物名稱(列 name)以及該化合物在 Rhea 中出現(xiàn)的次數(shù)(列 countRhea)。
Para_10
  1. 復(fù)雜的生物學(xué)問題可能需要通過單一的聯(lián)邦SPARQL查詢來查詢和結(jié)合不同資源中的不同數(shù)據(jù)。
  2. 所有SIB SPARQL終端都支持當(dāng)前版本的SPARQL(即1.1版),因此支持聯(lián)邦查詢。
  3. 生物查詢界面(https://purl.org/bioquery)專門用于使用UniProt、Bgee和OMA中的數(shù)據(jù)進(jìn)行聯(lián)邦查詢。
  4. 該界面專為不懂SPARQL或底層數(shù)據(jù)模型的用戶設(shè)計(jì)。
  5. 考慮一位研究肺癌的研究人員,他想知道‘與‘肺癌’相關(guān)的蛋白質(zhì)有哪些?以及在大鼠肺部表達(dá)的同源蛋白有哪些?’
  6. 為了用Bio-Query回答這個(gè)問題,研究人員可以在‘同源基因+基因表達(dá)+蛋白質(zhì)和功能信息’類別下編輯一個(gè)問題模板。
  7. 更具體地說,模板問題是‘與‘膠質(zhì)母細(xì)胞瘤’相關(guān)的蛋白質(zhì)有哪些?以及在大鼠腦部表達(dá)的同源蛋白有哪些?’,其中研究人員應(yīng)該將膠質(zhì)母細(xì)胞瘤替換為肺癌,將腦部替換為肺部,從而構(gòu)成其原始問題。
  8. 這個(gè)模板查詢展示了如何結(jié)合OMA中的同源基因信息、Bgee中的基因表達(dá)數(shù)據(jù)和UniProt中的疾病注釋。
  9. 編輯后的模板問題通常在10秒內(nèi)返回人類UniProt蛋白質(zhì)鏈接,這些鏈接由一個(gè)UniProt標(biāo)識(shí)符、相應(yīng)蛋白質(zhì)在大鼠肺部表達(dá)的OMA鏈接、使用Ensembl基因標(biāo)識(shí)符定義的RDF圖中的OMA基因表示(這不是可點(diǎn)擊的鏈接)以及從UniProt提取的與肺癌相關(guān)的蛋白質(zhì)疾病注釋組成。
  10. 此外,用于回答編輯后問題的聯(lián)邦SPARQL查詢可以通過點(diǎn)擊頁面頂部的‘顯示SPARQL查詢編輯器’從Bio-Query界面獲取。
  11. 或者,SPARQL查詢可以在OMA SPARQL終端上運(yùn)行(參見查詢:https://purl.org/sib-rdf/query-example-0002),或任何其他SPARQL 1.1終端。
  12. SIB資源中的信息可以與外部資源中的數(shù)據(jù)相結(jié)合。
  13. 圖2展示了這三個(gè)數(shù)據(jù)庫上的聯(lián)邦查詢的圖形表示。
  • 圖 2. 在 Bgee、OMA 和 UniProt 數(shù)據(jù)庫上進(jìn)行的語義查詢的圖形表示。此查詢檢索與‘肺癌’相關(guān)的蛋白質(zhì)及在大鼠肺部表達(dá)的同源蛋白。
  • 帶有問號(hào)的節(jié)點(diǎn)代表某個(gè)概念的任意值,例如,?gene 代表給定數(shù)據(jù)庫中的任何基因。
  • 前綴加后綴形式的節(jié)點(diǎn)代表詞匯表中的一個(gè)術(shù)語。
  • 例如,orth:OrthologousCluster 在 ORTHology 本體 (https://qfo.github.io/OrthologyOntology) 中定義。
  • 前綴加后綴形式的邊是節(jié)點(diǎn)之間的關(guān)系,這些關(guān)系也在詞匯表中定義。
  • 例如,up: in up:annotation 對(duì)應(yīng)于 http://purl.uniprot.org/core/。
  • 所有前綴都在 SPARQL 查詢的頭部定義。
  • 為了簡(jiǎn)化起見,圖中省略了它們。
  • 最后,帶有‘*’的邊意味著這是一個(gè)復(fù)合邊,其中同一類型的邊可以重復(fù)多次,具體次數(shù)取決于數(shù)據(jù)源中可用的數(shù)量。
  • 因此,它表示通過多個(gè)由相同類型邊連接的節(jié)點(diǎn)進(jìn)行遍歷。
Para_11
  1. UniProt 提供的另一個(gè)聯(lián)合查詢示例(參見查詢 38,網(wǎng)址:https://purl.org/sib-rdf/query-example-0003)檢索了人類條目 P05067、淀粉樣前體蛋白在 Wikidata 中的基因起始和終止位置。
  2. 結(jié)果表明,編碼淀粉樣前體蛋白(APP)的基因位于第 21 號(hào)染色體上,在基因組組裝 GRCh38 中的位置范圍是從 25880550 到 26171128,如圖 3 所示。
  3. 雖然這些信息可以通過在 Ensembl 或 USCS 中搜索輕松獲取,但對(duì)大量蛋白質(zhì)進(jìn)行這樣的操作會(huì)非常繁瑣;然而,SPARQL 查詢可以輕松修改以適應(yīng)一系列蛋白質(zhì)條目列表。
  • 圖 3. 在 Wikidata 和 UniProt 上進(jìn)行的聯(lián)合查詢結(jié)果,該查詢檢索了 APP 基因在兩種基因組組裝(GRCh37 和 GRCh38)中的位置。已知這個(gè)基因的變異會(huì)導(dǎo)致一種阿爾茨海默病。
Para_12
  1. 兩個(gè)聯(lián)邦SPARQL查詢示例說明了如何打破數(shù)據(jù)孤島。
  2. https://yummydata.org/endpoint展示的SPARQL端點(diǎn)選擇提供了生命科學(xué)家感興趣的數(shù)據(jù)類型。
  3. 值得注意的是,Rhea利用了集成小分子數(shù)據(jù)庫(IDSM)的SPARQL端點(diǎn),這使得能夠檢索出具有類似結(jié)構(gòu)的化學(xué)化合物。
  4. Coudert等人利用此功能檢索所有與配體結(jié)合的蛋白質(zhì),這些配體的結(jié)構(gòu)與查詢配體相似,在這種情況下,查詢配體是血紅素b。
  5. 這種類型的查詢可以在藥物設(shè)計(jì)的背景下應(yīng)用。
Para_13
  1. 探索和使用語義數(shù)據(jù)存在幾個(gè)障礙。
  2. 第一個(gè)是熟悉 SPARQL 語法。
  3. 對(duì)于熟悉結(jié)構(gòu)化查詢語言(SQL)的程序員或生物信息學(xué)家來說,這不應(yīng)該構(gòu)成任何問題。
  4. 實(shí)驗(yàn)生物學(xué)家可以通過運(yùn)行和修改資源提供的示例來學(xué)習(xí)。
  5. 第二個(gè)是對(duì)數(shù)據(jù)模型的理解,以便正確地構(gòu)建查詢。
  6. 查閱文檔或使用查詢來探索數(shù)據(jù)通??梢越鉀Q這個(gè)問題。
  7. 最后,查詢超時(shí)也限制了 SPARQL 查詢的實(shí)用性。
  8. 這可以通過多次運(yùn)行查詢來克服,每次檢索數(shù)據(jù)的不同部分。

Applications of SPARQL and RDF data

Para_14
  1. 語義數(shù)據(jù)在RDF中的應(yīng)用及使用SPARQL進(jìn)行查詢的例子很多。
  2. 它們可以用來從各種來源生成、探索、提取和組合數(shù)據(jù),還可以將數(shù)據(jù)以可互操作的格式發(fā)布,僅舉幾例。
  3. 下面給出一些例子來說明這些用途中的幾種。
Para_15
  1. SPARQL 不僅用于查詢數(shù)據(jù),如前一節(jié)所述,還可以用來注釋數(shù)據(jù)。
  2. 例如,瑞士-蛋白數(shù)據(jù)庫的管理員構(gòu)建了注釋規(guī)則(HAMAP 規(guī)則),這些規(guī)則被用于自動(dòng)注釋。
  3. HAMAP 規(guī)則作為集成工作流程的一部分,該工作流程包括對(duì) UniProtKB/瑞士-蛋白數(shù)據(jù)庫中實(shí)驗(yàn)性特征化的模板條目的管理,以及相關(guān)規(guī)則和蛋白質(zhì)家族特征的管理(以通用配置文件形式編碼)。
  4. 這些復(fù)雜的 HAMAP 規(guī)則被轉(zhuǎn)換為 SPARQL 1.1 語法,并使用免費(fèi)提供的 SPARQL 引擎應(yīng)用于 RDF 格式的蛋白質(zhì)序列。
  5. 這種采用 SPARQL 語法實(shí)現(xiàn)的 HAMAP 規(guī)則可以由用戶應(yīng)用到 RDF 表達(dá)的蛋白質(zhì)序列上進(jìn)行注釋,無需定制的管道即可使用現(xiàn)成的 SPARQL 引擎實(shí)現(xiàn)這一功能
Para_16
  1. SPARQL查詢也可以用來探索和比較不同數(shù)據(jù)庫中的數(shù)據(jù)。
  2. 最近通過結(jié)合聯(lián)邦SPARQL查詢與人工檢查,分析了GlyConnect和UniProt中涉及SARS-CoV-2宿主-病原體相互作用的糖基化位點(diǎn)中存在的糖類。
Para_17
  1. 語義網(wǎng)技術(shù)也可以用來檢索數(shù)據(jù),并將其與來自不同來源(無論是公共還是私有的)的數(shù)據(jù)相結(jié)合,只要允許重用。
  2. 這使得可擴(kuò)展精準(zhǔn)醫(yī)學(xué)開放知識(shí)引擎(SPOKE;https://spoke.rbvi.ucsf.edu)得以創(chuàng)建,該引擎包含了從41個(gè)數(shù)據(jù)庫下載的2700萬個(gè)節(jié)點(diǎn)和5300萬條邊,包括Bgee、STRING和UniProt/Swiss-Prot的數(shù)據(jù)。
  3. Bgee高質(zhì)量的基因表達(dá)數(shù)據(jù)集最近被整合到一個(gè)知識(shí)圖譜中,以支持精準(zhǔn)醫(yī)學(xué)。
  4. 通過這種方式,創(chuàng)建了數(shù)據(jù)孤島之間的橋梁,RDF格式的數(shù)據(jù)集可以方便地傳播和重用。
  5. 兩個(gè)例子說明了這一點(diǎn)。
  6. 首先,創(chuàng)建了一個(gè)略作修改的neXtProt數(shù)據(jù)庫版本(https://doi.org/10.5281/zenodo.7071135),用于比較關(guān)系數(shù)據(jù)庫到RDF映射系統(tǒng)的性能。
  7. 其次,PDBj(29)中一部分RDF格式的數(shù)據(jù)已經(jīng)在Zenodo上發(fā)布(https://doi.org/10.5281/zenodo.8098467),用于評(píng)估實(shí)現(xiàn)SPARQL標(biāo)準(zhǔn)的圖數(shù)據(jù)庫Oxigraph Server。
  8. RDF檔案還可以作為協(xié)作項(xiàng)目中細(xì)粒度版本控制的后端支持

Swiss health data in RDF

Para_18
  1. RDF也在瑞士個(gè)性化健康網(wǎng)絡(luò)倡議(SPHN)的背景下得到應(yīng)用。
  2. SPHN已經(jīng)開發(fā)了一項(xiàng)全國性的策略,用于健康相關(guān)數(shù)據(jù)的語義表示。
  3. SPHN語義互操作框架的核心是通過SPHN RDF模式正式表示的語義。
  4. 該模式作為一個(gè)協(xié)調(diào)一致的模型,用于表示與常規(guī)臨床數(shù)據(jù)相關(guān)的概念和屬性。
  5. 它被設(shè)計(jì)成可組合的方式,因此為用戶提供了擴(kuò)展其功能的靈活性,從而滿足他們的特定需求。
  6. 雖然使不同來源的多樣化數(shù)據(jù)類型能夠無縫集成,該框架還促進(jìn)了遵循FAIR原則對(duì)健康數(shù)據(jù)的二次利用。
Para_19
  1. 開發(fā)的工具和基礎(chǔ)設(shè)施使瑞士大學(xué)醫(yī)院能夠以快速且成本高效的方式共享根據(jù)SPHN RDF模式(https://www.biomedit.ch/rdf/sphn-ontology/sphn)定義的臨床常規(guī)數(shù)據(jù)。
  2. 在當(dāng)前SPHN階段,設(shè)立了四個(gè)國家數(shù)據(jù)流(NDS),它們將臨床常規(guī)數(shù)據(jù)與其他健康相關(guān)數(shù)據(jù)(例如組學(xué)數(shù)據(jù)、隊(duì)列和登記冊(cè)數(shù)據(jù)或PROMS)鏈接在一個(gè)知識(shí)圖譜中。
  3. 這四個(gè)NDS專注于不同的疾病領(lǐng)域:感染性疾?。ㄈ鹗恐匕Y監(jiān)護(hù)室中的感染相關(guān)結(jié)局個(gè)性化、數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)與評(píng)估,IICU)、腫瘤學(xué)(瑞士個(gè)性化腫瘤學(xué),SPO)、低價(jià)值護(hù)理(住院患者低價(jià)值護(hù)理,LUCID)以及兒科(瑞士?jī)嚎苽€(gè)性化研究網(wǎng)絡(luò),SwissPedHealth)。
  4. 未來,NDS將成為新研究項(xiàng)目的重要且高度策劃的數(shù)據(jù)資源。

Documentation and outreach

Para_20
  1. 大多數(shù) SPARQL 接口用戶要么是程序員,要么是投入精力學(xué)習(xí) SPARQL 并探索資源數(shù)據(jù)模型的高級(jí)用戶。
  2. 為了降低生物學(xué)家使用這些接口的門檻,大多數(shù) SIB 資源的 SPARQL 接口都提供了用戶友好的界面。
  3. 這些包括 SPARQL 查詢示例,允許新手用戶從修改查詢開始,然后再學(xué)習(xí)編寫自己的查詢所需的 SPARQL 查詢語法。
  4. 用戶還可以查閱文檔來了解資源的數(shù)據(jù)模型,獲取指向 SIB 或外部資源的交叉引用,這些資源提供了附加信息,以及教程或培訓(xùn)材料(表 2)。
  5. 對(duì)于 SPHN,還提供了 RDF 數(shù)據(jù)、SPARQL 和 SHACL 的培訓(xùn),以及用戶指南和文檔。
  6. 值得注意的是,YummyData (https://yummydata.org/) 還在 GitHub 上提供了一個(gè)論壇,使 RDF 格式的生物醫(yī)學(xué)信息的用戶和提供者能夠交流并提高 (生物) 數(shù)據(jù)網(wǎng)絡(luò)的可用性。
  • 表2. 為SIB數(shù)據(jù)庫和SPHN提供的文檔、樣本查詢和培訓(xùn)材料,這些材料提供了語義數(shù)據(jù)
Database Documentation Examples (federated) Tutorial or training material provided
Bgee Overview: https://purl.org/sib-rdf/bgee-documentation 19 (14) http://purl.org/sib-rdf/bgee-tutorial
Data schema: https://purl.org/genex/documentation
Query examples: https://purl.org/sib-rdf/bgee-query-examples
GlyConnect ? 4 (0) https://purl.org/sib-rdf/glyconnect-tutorial
HAMAP ? 4 (0) https://purl.org/sib-rdf/hamap-tutorial
MetaNetX https://purl.org/sib-rdf/metanetx-documentation 13 (0) https://purl.org/sib-rdf/metanetx-tutorial
OMA https://purl.org/sib-rdf/oma-documentation 11 (1) https://purl.org/sib-rdf/oma-tutorial
OrthoDB ? 17 (1) https://purl.org/sib-rdf/orthodb-tutorial
Rhea https://purl.org/sib-rdf/rhea-documentation 17 (3) https://purl.org/sib-rdf/rhea-tutorial
STRING https://purl.org/sib-rdf/string-documentation 6 (0) https://purl.org/sib-rdf/string-tutorial
SwissLipids ? 38 (1) ?
UniProtKB https://purl.org/sib-rdf/uniprot-documentation 41 (4) https://purl.org/sib-rdf/uniprot-tutorial
SPHN https://purl.org/sib-rdf/sphn-documentation https://purl.org/sib-rdf/sphn-tutorial
Para_21
  1. 迄今為止,已經(jīng)舉辦了四次面對(duì)面的教程。
  2. 第一次教程是在2012年SWAT4LS研討會(huì)上為生命科學(xué)家介紹SPARQL。
  3. 2015年的第二次教程是在巴塞爾BC2會(huì)議上為生物學(xué)家和生物信息學(xué)家介紹SPARQL。
  4. 2019年在愛丁堡舉辦的第三次教程展示了9個(gè)SIB數(shù)據(jù)庫,并通過聯(lián)合查詢作為對(duì)下一位演講者介紹資源的引入(幻燈片可在https://purl.org/sib-rdf/2019-swat4hcls-tutorials獲?。?。
  5. 最新的教程在2023年巴塞爾的SWAT4HCLS會(huì)議上涵蓋了UniProtKB、Rhea以及SPHN。
  6. 這些教程間接促進(jìn)了多個(gè)獨(dú)立SIB資源之間的合作,通過提高它們之間的互操作性來增強(qiáng)其可重用性。
  7. 此外,提供教程是第10條經(jīng)驗(yàn)教訓(xùn)的一部分,該教訓(xùn)討論了如何通過增強(qiáng)互操作性來提升生物信息學(xué)知識(shí)庫的可重用性。

Concluding remarks

Para_22
  1. 語義網(wǎng)技術(shù)在組織生物和生物醫(yī)學(xué)知識(shí)方面的日益普及,為表示生命科學(xué)各子領(lǐng)域內(nèi)以及跨領(lǐng)域的日益復(fù)雜的相互關(guān)系提供了一種方式。
  2. RDF(由萬維網(wǎng)聯(lián)盟制定的標(biāo)準(zhǔn))正在學(xué)術(shù)界、產(chǎn)業(yè)界和政府中得到應(yīng)用。
  3. 它正處于一場(chǎng)革命的核心,在這場(chǎng)革命中,數(shù)據(jù)不僅僅是信息的基礎(chǔ),而且是可行動(dòng)的知識(shí)的基礎(chǔ)。
  4. 鑒于數(shù)據(jù)量和多樣性的激增導(dǎo)致數(shù)據(jù)庫和數(shù)據(jù)存儲(chǔ)庫數(shù)量的增加,這種需求變得尤為迫切。
  5. 美國國家科學(xué)基金會(huì)宣布資助創(chuàng)建一個(gè)開放式知識(shí)網(wǎng)絡(luò)原型,這一舉措既及時(shí)又必要。
Para_23
  1. SIB 努力在生命科學(xué)的不同學(xué)科間構(gòu)建一個(gè)語義網(wǎng)的數(shù)據(jù)體系。
  2. SIB 的資源貢獻(xiàn)了高質(zhì)量的鏈接數(shù)據(jù),覆蓋了一系列主題。
  3. 這些結(jié)構(gòu)化的數(shù)據(jù)與其他地方的數(shù)據(jù)相互聯(lián)結(jié),通過語義查詢變得更加有用。
  4. 當(dāng)前 SPARQL 接口提供的聯(lián)邦 SPARQL 查詢示例將 11 個(gè) SIB SPARQL 接口中的 6 個(gè)相互連接,并向多個(gè)外部 SPARQL 接口發(fā)送請(qǐng)求。
  5. 未來的工作將集中于識(shí)別和解決項(xiàng)目文檔之間的空白或重疊問題,以協(xié)作的方式進(jìn)行。
  6. 需要共同努力來增加不同數(shù)據(jù)庫中同一概念不同標(biāo)識(shí)符之間的缺失等效性,并加強(qiáng)協(xié)調(diào)以進(jìn)一步提高它們的互操作性。
  7. 這些資源中使用標(biāo)準(zhǔn)化元數(shù)據(jù)將有助于構(gòu)建機(jī)器可讀的 FAIR 數(shù)據(jù)集目錄。
  8. 最后,將這些數(shù)據(jù)構(gòu)建成知識(shí)圖譜的形式,使它們能夠利用人工智能算法進(jìn)行挖掘,這些算法提供了語義可解釋性和可說明性。
  9. 這些算法包括基于從數(shù)據(jù)中提取的邏輯規(guī)則的推理、基于機(jī)器學(xué)習(xí)潛在關(guān)系的歸納推理,以及這些方法的神經(jīng)符號(hào)組合。
  10. 這些技術(shù)構(gòu)成了強(qiáng)大的手段,用于挖掘、改進(jìn)和豐富可用的知識(shí),幫助回答復(fù)雜的生物學(xué)和臨床問題。

Data availability

Para_24
  1. SIB 瑞士生物信息學(xué)研究所的 SPARQL 服務(wù)免費(fèi)提供,并列于 https://purl.org/sib-rdf。

本文由mdnice多平臺(tái)發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容