
關(guān)鍵詞:罕見病;數(shù)據(jù)庫(kù);精準(zhǔn)醫(yī)療;
引言
不同的研究方案和各異的臨床及研究制度下收集的基因組數(shù)據(jù)存在的區(qū)別,因此創(chuàng)建協(xié)調(diào)統(tǒng)一的數(shù)據(jù)庫(kù)是有益的,尤其在兒科罕見疾病領(lǐng)域。且能解決研究型醫(yī)院在研究和臨床實(shí)踐時(shí)面臨諸多的挑戰(zhàn),能滿足不同環(huán)境的獨(dú)特要求和目標(biāo),包括眾多利益相關(guān)者的需求。
為此研究團(tuán)隊(duì)使用通過設(shè)計(jì)、樣本收集、基因測(cè)序、表現(xiàn)分析和數(shù)據(jù)處理等方法創(chuàng)建了一個(gè)共享的GORdb數(shù)據(jù)庫(kù)。在此過程中Sentieon被用于讀取比對(duì)、深度計(jì)算、重新比對(duì)、重校準(zhǔn)和變異檢測(cè)。
數(shù)據(jù)庫(kù)目前共計(jì)8516個(gè)外顯子組和112個(gè)基因組數(shù)據(jù),在168個(gè)基因中識(shí)別出253個(gè)重要變異,在29個(gè)基因中發(fā)現(xiàn)43個(gè)變異體的臨床確認(rèn)。

今天的文獻(xiàn)解讀專欄給大家?guī)?lái)的是2020年發(fā)表在npj genomic medicine期刊,被引用高達(dá)52次的佳作“Children’s rare disease cohorts: an integrative research and clinical genomics initiative”。
淺析文章,給做臨床基因組學(xué)的老師們一些參考。
材料與方法學(xué)
研究設(shè)計(jì)與樣本收集
研究第一階段從2018年10月1日持續(xù)至2019年9月30日,共招募2441名參與者。通過血液采集(n=146)和口腔拭子(n=2093)來(lái)收集樣本。另有72名參與者進(jìn)行臨床測(cè)序,130名參與者未完成樣本收集。
測(cè)序與質(zhì)控流程
GeneDx使用IDT xGen探針進(jìn)行DNA提取,全外顯子組測(cè)序平均覆蓋度達(dá)100x,95%以上的靶區(qū)達(dá)到20x的覆蓋度。GeneDx醫(yī)學(xué)外顯子組在20x覆蓋度下實(shí)現(xiàn)99.4%的靶區(qū)覆蓋,平均深度為114x。
所有測(cè)序數(shù)據(jù)要滿足:過濾后測(cè)序產(chǎn)量須超過4GB、與hg19的比對(duì)率需高于95%、10x靶區(qū)覆蓋率需達(dá)到90%、平均靶區(qū)覆蓋度要求50x、重復(fù)讀數(shù)比例需低于30%、且讀數(shù)質(zhì)量指標(biāo)需達(dá)到80%。
生物信息學(xué)分析流程
測(cè)序完成后,原始WES數(shù)據(jù)FASTQ文件上傳至BCH的AWS賬戶。數(shù)據(jù)處理首先使用Skewer v0.2.1進(jìn)行接頭修剪,F(xiàn)astQC v0.11.7進(jìn)行FASTQ分析,BBMap v37.97計(jì)算堿基質(zhì)量。Sentieon v201808.03執(zhí)行讀取比對(duì)、深度計(jì)算、重新比對(duì)、重校準(zhǔn)和變異檢測(cè)步驟。同時(shí)使用Verifybamid 1.1.3檢查污染,GATK 4.1.2.0計(jì)算bin的讀數(shù)。最后WuXi NextCODE GORpipe 4.3.0將數(shù)據(jù)轉(zhuǎn)換為GOR格式,VEP 96.2進(jìn)行注釋。
表型分析與數(shù)據(jù)處理
表型數(shù)據(jù)主要來(lái)源于研究記錄的手動(dòng)采集,其次是臨床記錄和非結(jié)構(gòu)化EHR。使用CLiX Focus系統(tǒng)從病歷中提取HPO術(shù)語(yǔ),該系統(tǒng)經(jīng)過優(yōu)化可達(dá)到85%的召回率。
平均每位患者有510.8份臨床病歷,CLiX Focus平均可提取191.9個(gè)HPO術(shù)語(yǔ),包括父級(jí)術(shù)語(yǔ)。通過頻率過濾后,最終每位患者平均獲得45.9個(gè)HPO術(shù)語(yǔ)。
數(shù)據(jù)治理與管理
建立了完整的數(shù)據(jù)治理體系,包括訪問控制和數(shù)據(jù)同步機(jī)制。通過AWS的IAM策略控制數(shù)據(jù)訪問,使用Python網(wǎng)絡(luò)服務(wù)器管理REDCap數(shù)據(jù)庫(kù)的定期同步。所有系統(tǒng)都實(shí)施嚴(yán)格的用戶認(rèn)證和數(shù)據(jù)隔離措施。數(shù)據(jù)質(zhì)量通過多重驗(yàn)證方法保證,包括自動(dòng)錯(cuò)誤報(bào)告和跨數(shù)據(jù)集驗(yàn)證。處理后的數(shù)據(jù)存儲(chǔ)在AWS S3存儲(chǔ)桶中,支持多個(gè)機(jī)構(gòu)數(shù)據(jù)庫(kù)的訪問需求。
研究結(jié)果
CRDC項(xiàng)目實(shí)施的基礎(chǔ)工作
波士頓兒童醫(yī)院(BCH)在CRDC第一階段主要致力于建立基于醫(yī)院的基因組數(shù)據(jù)分析體系。通過基因組藍(lán)帶委員會(huì)的建議和機(jī)構(gòu)資金支持,于2018年啟動(dòng)。經(jīng)過全院調(diào)查和評(píng)估,最初選擇癲癇和IBD兩個(gè)隊(duì)列作為試點(diǎn),隨后擴(kuò)展到15個(gè)兒童期發(fā)病的孟德爾疾病隊(duì)列。項(xiàng)目實(shí)施依靠研究團(tuán)隊(duì)、機(jī)構(gòu)領(lǐng)導(dǎo)層、研究計(jì)算組等多方協(xié)作完成。

數(shù)據(jù)收集與標(biāo)準(zhǔn)化流程建立
為實(shí)現(xiàn)大規(guī)模數(shù)據(jù)整合,項(xiàng)目建立了符合GA4GH國(guó)際標(biāo)準(zhǔn)的知情同意框架。該框架在保護(hù)參與者權(quán)益的同時(shí),支持樣本收集、數(shù)據(jù)使用和機(jī)構(gòu)間合作。招募工作結(jié)合了線上線下多種方式,樣本采集遵循CLIA標(biāo)準(zhǔn)進(jìn)行全外顯子組測(cè)序。同時(shí)建立了標(biāo)準(zhǔn)化的表型數(shù)據(jù)收集系統(tǒng),整合了手動(dòng)記錄、電子病歷、問卷調(diào)查等多個(gè)來(lái)源的信息。

基因組分析平臺(tái)的構(gòu)建
項(xiàng)目開發(fā)的基因組分析實(shí)驗(yàn)室系統(tǒng)(GLS),將表型和基因型數(shù)據(jù)整合到GORdb數(shù)據(jù)庫(kù)中。系統(tǒng)通過經(jīng)驗(yàn)證的ETL過程從EDC獲取并遷移表型信息到GORdb,同時(shí)將去標(biāo)識(shí)化的結(jié)構(gòu)化EHR數(shù)據(jù)加載到整合生物學(xué)與臨床信息學(xué)(i2b2)星型模式中,包含診斷、藥物、程序等多維度臨床數(shù)據(jù)。
在數(shù)據(jù)處理方面,采用CLiX Focus軟件對(duì)462種非結(jié)構(gòu)化臨床記錄進(jìn)行自然語(yǔ)言處理,提取HPO術(shù)語(yǔ)。通過對(duì)775名同時(shí)具有CLiX Focus和手動(dòng)注釋HPO術(shù)語(yǔ)的患者樣本分析,證實(shí)了自動(dòng)化處理的效率優(yōu)勢(shì)。測(cè)序數(shù)據(jù)經(jīng)過生物信息學(xué)管道處理后,通過數(shù)據(jù)導(dǎo)入API加載到GORdb,實(shí)現(xiàn)與參與者表型數(shù)據(jù)的統(tǒng)一管理。
系統(tǒng)架構(gòu)上,BCH的各個(gè)系統(tǒng)通過多種方式與GLS集成,而WuXi NextCODE則負(fù)責(zé)在AWS中管理GORdb的后端基礎(chǔ)設(shè)施。研究團(tuán)隊(duì)主要通過圖形用戶界面與系統(tǒng)交互,利用各種功能模塊進(jìn)行分析。這些模塊不僅支持罕見變異分析、關(guān)聯(lián)測(cè)試等基礎(chǔ)功能,還可通過GORdb查詢開發(fā)自定義模塊,擴(kuò)展研究能力。
GORdb的核心是GOR編程語(yǔ)言,將類SQL的基因組查詢與shell腳本相結(jié)合,并提供豐富的標(biāo)準(zhǔn)庫(kù)支持,使得研究團(tuán)隊(duì)能夠方便地進(jìn)行數(shù)學(xué)統(tǒng)計(jì)分析和大型數(shù)據(jù)操作,同時(shí)支持模塊打包共享,促進(jìn)跨組織協(xié)作。系統(tǒng)還建立了變異排除黑名單,通過去除非致病性和隊(duì)列特異性常見變異,優(yōu)化了研究分析流程,提高了研究效率。

初步研究成果
建立多學(xué)科協(xié)作模式和自動(dòng)化分析流程,整合了研究團(tuán)隊(duì)的疾病專業(yè)知識(shí)與生物信息學(xué)支持。開發(fā)了結(jié)合Emedgene、CLiX和WuXi NextCODE等多個(gè)工具的綜合工作流程,采用類似Broad孟德爾基因組學(xué)中心的并行審查方式,實(shí)現(xiàn)了高效的變異識(shí)別和分析。
在初步數(shù)據(jù)分析中,研究團(tuán)隊(duì)在168個(gè)基因中識(shí)別出253個(gè)重要變異,其中約20%為已知致病變異,67%是已知致病基因中的新發(fā)現(xiàn)變異,剩余13%屬于表型擴(kuò)展。值得注意的是,約40%的變異與藥物、疾病、基因相互作用或現(xiàn)有臨床試驗(yàn)相關(guān),展現(xiàn)出重要的臨床應(yīng)用價(jià)值。通過Emedgene自動(dòng)分類系統(tǒng)的評(píng)估,20%的變異被確定為致病性或可能致病性。
在臨床驗(yàn)證方面,在29個(gè)基因中實(shí)現(xiàn)了43個(gè)變異體的臨床確認(rèn),涉及32名患者。這些變異體均為全新遺傳學(xué)診斷,同時(shí)確立了孟德爾遺傳病病因關(guān)聯(lián)。特別重要的是,86%的臨床確認(rèn)結(jié)果與Emedgene自動(dòng)分類結(jié)果保持一致,這些發(fā)現(xiàn)對(duì)于表現(xiàn)非典型或癥狀輕微、通常不會(huì)接受臨床測(cè)序的患者尤為重要,為他們提供了準(zhǔn)確的遺傳診斷。
此外,CRDC項(xiàng)目促進(jìn)了新的科研合作和功能研究的開展。幫助患者家庭獲得更廣泛的臨床服務(wù),包括臨床試驗(yàn)參與機(jī)會(huì)和??贫鄬W(xué)科診療等。

Sentieon 軟件團(tuán)隊(duì)擁有豐富的軟件開發(fā)及算法優(yōu)化工程經(jīng)驗(yàn),致力于解決生物數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,為來(lái)自于分子診斷、藥物研發(fā)、臨床醫(yī)療、人群隊(duì)列、動(dòng)植物等多個(gè)領(lǐng)域的合作伙伴提供高效精準(zhǔn)的軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展。截至 2023 年 3 月份,Sentieon 已經(jīng)在全球范圍內(nèi)為 1300+用戶提供服務(wù),被世界一級(jí)影響因子刊物如 NEJM、Cell、Nature 等廣泛引用,引用次數(shù)超過 700 篇。此外,Sentieon 連續(xù)數(shù)年摘得了 Precision FDA、Dream Challenges 等多個(gè)權(quán)威評(píng)比的桂冠,在業(yè)內(nèi)獲得廣泛認(rèn)可。
討論

項(xiàng)目成果與意義
通過建立跨機(jī)構(gòu)的統(tǒng)一同意框架、標(biāo)準(zhǔn)化數(shù)據(jù)收集流程和綜合分析平臺(tái)(GLS),CRDC 項(xiàng)目顯著加速了基因組數(shù)據(jù)在研究和臨床治療中的應(yīng)用。GLS 整合了 8,516 例外顯子組和 112 個(gè)基因組數(shù)據(jù),成為目前最全面的兒科罕見病基因組數(shù)據(jù)庫(kù)。
技術(shù)平臺(tái)與協(xié)作
GORdb 數(shù)據(jù)庫(kù)支持大規(guī)模數(shù)據(jù)分析,能夠滿足不同的應(yīng)用場(chǎng)景需求。并與第三方進(jìn)行合作,集成先進(jìn)技術(shù)構(gòu)建數(shù)據(jù)庫(kù)。
總結(jié)
研究充分展示了該項(xiàng)目在推進(jìn)精準(zhǔn)醫(yī)療實(shí)踐中的重要價(jià)值,為未來(lái)的基因組研究和臨床應(yīng)用提供了有力的范例,還顯著加速了罕見病基因診斷與治療開發(fā)進(jìn)程。