Sentieon 項(xiàng)目文章 | 兒童罕見病隊(duì)列研究:整合研究與臨床基因組學(xué)計(jì)劃

關(guān)鍵詞:罕見病;數(shù)據(jù)庫(kù);精準(zhǔn)醫(yī)療;


引言

不同的研究方案和各異的臨床及研究制度下收集的基因組數(shù)據(jù)存在的區(qū)別,因此創(chuàng)建協(xié)調(diào)統(tǒng)一的數(shù)據(jù)庫(kù)是有益的,尤其在兒科罕見疾病領(lǐng)域。且能解決研究型醫(yī)院在研究和臨床實(shí)踐時(shí)面臨諸多的挑戰(zhàn),能滿足不同環(huán)境的獨(dú)特要求和目標(biāo),包括眾多利益相關(guān)者的需求。

為此研究團(tuán)隊(duì)使用通過設(shè)計(jì)、樣本收集、基因測(cè)序、表現(xiàn)分析和數(shù)據(jù)處理等方法創(chuàng)建了一個(gè)共享的GORdb數(shù)據(jù)庫(kù)。在此過程中Sentieon被用于讀取比對(duì)、深度計(jì)算、重新比對(duì)、重校準(zhǔn)和變異檢測(cè)。

數(shù)據(jù)庫(kù)目前共計(jì)8516個(gè)外顯子組和112個(gè)基因組數(shù)據(jù),在168個(gè)基因中識(shí)別出253個(gè)重要變異,在29個(gè)基因中發(fā)現(xiàn)43個(gè)變異體的臨床確認(rèn)。

圖1 文獻(xiàn)介紹

今天的文獻(xiàn)解讀專欄給大家?guī)?lái)的是2020年發(fā)表在npj genomic medicine期刊,被引用高達(dá)52次的佳作“Children’s rare disease cohorts: an integrative research and clinical genomics initiative”。

淺析文章,給做臨床基因組學(xué)的老師們一些參考。


材料與方法學(xué)

研究設(shè)計(jì)與樣本收集

研究第一階段從2018年10月1日持續(xù)至2019年9月30日,共招募2441名參與者。通過血液采集(n=146)和口腔拭子(n=2093)來(lái)收集樣本。另有72名參與者進(jìn)行臨床測(cè)序,130名參與者未完成樣本收集。

測(cè)序與質(zhì)控流程

GeneDx使用IDT xGen探針進(jìn)行DNA提取,全外顯子組測(cè)序平均覆蓋度達(dá)100x,95%以上的靶區(qū)達(dá)到20x的覆蓋度。GeneDx醫(yī)學(xué)外顯子組在20x覆蓋度下實(shí)現(xiàn)99.4%的靶區(qū)覆蓋,平均深度為114x。

所有測(cè)序數(shù)據(jù)要滿足:過濾后測(cè)序產(chǎn)量須超過4GB、與hg19的比對(duì)率需高于95%、10x靶區(qū)覆蓋率需達(dá)到90%、平均靶區(qū)覆蓋度要求50x、重復(fù)讀數(shù)比例需低于30%、且讀數(shù)質(zhì)量指標(biāo)需達(dá)到80%。

生物信息學(xué)分析流程

測(cè)序完成后,原始WES數(shù)據(jù)FASTQ文件上傳至BCH的AWS賬戶。數(shù)據(jù)處理首先使用Skewer v0.2.1進(jìn)行接頭修剪,F(xiàn)astQC v0.11.7進(jìn)行FASTQ分析,BBMap v37.97計(jì)算堿基質(zhì)量。Sentieon v201808.03執(zhí)行讀取比對(duì)、深度計(jì)算、重新比對(duì)、重校準(zhǔn)和變異檢測(cè)步驟。同時(shí)使用Verifybamid 1.1.3檢查污染,GATK 4.1.2.0計(jì)算bin的讀數(shù)。最后WuXi NextCODE GORpipe 4.3.0將數(shù)據(jù)轉(zhuǎn)換為GOR格式,VEP 96.2進(jìn)行注釋。

表型分析與數(shù)據(jù)處理

表型數(shù)據(jù)主要來(lái)源于研究記錄的手動(dòng)采集,其次是臨床記錄和非結(jié)構(gòu)化EHR。使用CLiX Focus系統(tǒng)從病歷中提取HPO術(shù)語(yǔ),該系統(tǒng)經(jīng)過優(yōu)化可達(dá)到85%的召回率。

平均每位患者有510.8份臨床病歷,CLiX Focus平均可提取191.9個(gè)HPO術(shù)語(yǔ),包括父級(jí)術(shù)語(yǔ)。通過頻率過濾后,最終每位患者平均獲得45.9個(gè)HPO術(shù)語(yǔ)。

數(shù)據(jù)治理與管理

建立了完整的數(shù)據(jù)治理體系,包括訪問控制和數(shù)據(jù)同步機(jī)制。通過AWS的IAM策略控制數(shù)據(jù)訪問,使用Python網(wǎng)絡(luò)服務(wù)器管理REDCap數(shù)據(jù)庫(kù)的定期同步。所有系統(tǒng)都實(shí)施嚴(yán)格的用戶認(rèn)證和數(shù)據(jù)隔離措施。數(shù)據(jù)質(zhì)量通過多重驗(yàn)證方法保證,包括自動(dòng)錯(cuò)誤報(bào)告和跨數(shù)據(jù)集驗(yàn)證。處理后的數(shù)據(jù)存儲(chǔ)在AWS S3存儲(chǔ)桶中,支持多個(gè)機(jī)構(gòu)數(shù)據(jù)庫(kù)的訪問需求。


研究結(jié)果

CRDC項(xiàng)目實(shí)施的基礎(chǔ)工作

波士頓兒童醫(yī)院(BCH)在CRDC第一階段主要致力于建立基于醫(yī)院的基因組數(shù)據(jù)分析體系。通過基因組藍(lán)帶委員會(huì)的建議和機(jī)構(gòu)資金支持,于2018年啟動(dòng)。經(jīng)過全院調(diào)查和評(píng)估,最初選擇癲癇和IBD兩個(gè)隊(duì)列作為試點(diǎn),隨后擴(kuò)展到15個(gè)兒童期發(fā)病的孟德爾疾病隊(duì)列。項(xiàng)目實(shí)施依靠研究團(tuán)隊(duì)、機(jī)構(gòu)領(lǐng)導(dǎo)層、研究計(jì)算組等多方協(xié)作完成。

圖2 樣本收集。來(lái)自疾病隊(duì)列入組患者的樣本。圖表包含每周入組計(jì)數(shù)(根據(jù)其在CRDC中的持續(xù)時(shí)間標(biāo)準(zhǔn)化的平均入組數(shù));過去一年在BCH就診的具有相同ICD10代碼的兒科患者總數(shù);通過CRDC在GeneDx提交測(cè)序的個(gè)體數(shù)量;以及受隊(duì)列疾病影響的已測(cè)序參與者數(shù)量。

數(shù)據(jù)收集與標(biāo)準(zhǔn)化流程建立

為實(shí)現(xiàn)大規(guī)模數(shù)據(jù)整合,項(xiàng)目建立了符合GA4GH國(guó)際標(biāo)準(zhǔn)的知情同意框架。該框架在保護(hù)參與者權(quán)益的同時(shí),支持樣本收集、數(shù)據(jù)使用和機(jī)構(gòu)間合作。招募工作結(jié)合了線上線下多種方式,樣本采集遵循CLIA標(biāo)準(zhǔn)進(jìn)行全外顯子組測(cè)序。同時(shí)建立了標(biāo)準(zhǔn)化的表型數(shù)據(jù)收集系統(tǒng),整合了手動(dòng)記錄、電子病歷、問卷調(diào)查等多個(gè)來(lái)源的信息。

圖3 從研究到臨床的工作流程。有或沒有既往臨床檢測(cè)的患者被納入?yún)f(xié)調(diào)一致的研究方案。為患者提供標(biāo)準(zhǔn)化的樣本收集機(jī)制,大多數(shù)患者同時(shí)同意加入Precision Link生物樣本庫(kù)以支持額外剩余臨床樣本的收集?;颊邩颖居晌覀兊臏y(cè)序提供商(GeneDx)進(jìn)行CLIA測(cè)序,數(shù)據(jù)返回AWS后載入CRDC基礎(chǔ)設(shè)施進(jìn)行分析。一旦研究團(tuán)隊(duì)確定候選變異,分析人員就與臨床醫(yī)生合作,從測(cè)序提供商處訂購(gòu)臨床確認(rèn)。臨床確認(rèn)結(jié)果返回BCH,添加到患者病歷中,并傳達(dá)給患者。

基因組分析平臺(tái)的構(gòu)建

項(xiàng)目開發(fā)的基因組分析實(shí)驗(yàn)室系統(tǒng)(GLS),將表型和基因型數(shù)據(jù)整合到GORdb數(shù)據(jù)庫(kù)中。系統(tǒng)通過經(jīng)驗(yàn)證的ETL過程從EDC獲取并遷移表型信息到GORdb,同時(shí)將去標(biāo)識(shí)化的結(jié)構(gòu)化EHR數(shù)據(jù)加載到整合生物學(xué)與臨床信息學(xué)(i2b2)星型模式中,包含診斷、藥物、程序等多維度臨床數(shù)據(jù)。

在數(shù)據(jù)處理方面,采用CLiX Focus軟件對(duì)462種非結(jié)構(gòu)化臨床記錄進(jìn)行自然語(yǔ)言處理,提取HPO術(shù)語(yǔ)。通過對(duì)775名同時(shí)具有CLiX Focus和手動(dòng)注釋HPO術(shù)語(yǔ)的患者樣本分析,證實(shí)了自動(dòng)化處理的效率優(yōu)勢(shì)。測(cè)序數(shù)據(jù)經(jīng)過生物信息學(xué)管道處理后,通過數(shù)據(jù)導(dǎo)入API加載到GORdb,實(shí)現(xiàn)與參與者表型數(shù)據(jù)的統(tǒng)一管理。

系統(tǒng)架構(gòu)上,BCH的各個(gè)系統(tǒng)通過多種方式與GLS集成,而WuXi NextCODE則負(fù)責(zé)在AWS中管理GORdb的后端基礎(chǔ)設(shè)施。研究團(tuán)隊(duì)主要通過圖形用戶界面與系統(tǒng)交互,利用各種功能模塊進(jìn)行分析。這些模塊不僅支持罕見變異分析、關(guān)聯(lián)測(cè)試等基礎(chǔ)功能,還可通過GORdb查詢開發(fā)自定義模塊,擴(kuò)展研究能力。

GORdb的核心是GOR編程語(yǔ)言,將類SQL的基因組查詢與shell腳本相結(jié)合,并提供豐富的標(biāo)準(zhǔn)庫(kù)支持,使得研究團(tuán)隊(duì)能夠方便地進(jìn)行數(shù)學(xué)統(tǒng)計(jì)分析和大型數(shù)據(jù)操作,同時(shí)支持模塊打包共享,促進(jìn)跨組織協(xié)作。系統(tǒng)還建立了變異排除黑名單,通過去除非致病性和隊(duì)列特異性常見變異,優(yōu)化了研究分析流程,提高了研究效率。

圖4 基因組學(xué)習(xí)系統(tǒng)的數(shù)據(jù)流程圖。原始數(shù)據(jù)通過二級(jí)管道處理成協(xié)調(diào)數(shù)據(jù),通過數(shù)據(jù)導(dǎo)入API輸入GORdb。還整合了來(lái)自EDC和EHR的表型數(shù)據(jù)。內(nèi)置的GORdb查詢以及機(jī)構(gòu)開發(fā)的查詢?cè)诤喜?shù)據(jù)上運(yùn)行,可以通過調(diào)用GORdb API或通過WuXi NextCODE用戶界面執(zhí)行。原始和協(xié)調(diào)數(shù)據(jù)也可供其他分析系統(tǒng)和BCH研究人員使用。這些系統(tǒng)的信息被反饋到GORdb。GLS的各個(gè)方面通過Python網(wǎng)絡(luò)服務(wù)器連接,該服務(wù)器執(zhí)行與GLS組件之間的數(shù)據(jù)傳輸,向研究人員發(fā)送新數(shù)據(jù)可用性的自動(dòng)提醒,并向生物信息學(xué)家發(fā)送潛在元數(shù)據(jù)錯(cuò)誤的警告(例如,重復(fù)受試者入組)。

初步研究成果

建立多學(xué)科協(xié)作模式和自動(dòng)化分析流程,整合了研究團(tuán)隊(duì)的疾病專業(yè)知識(shí)與生物信息學(xué)支持。開發(fā)了結(jié)合Emedgene、CLiX和WuXi NextCODE等多個(gè)工具的綜合工作流程,采用類似Broad孟德爾基因組學(xué)中心的并行審查方式,實(shí)現(xiàn)了高效的變異識(shí)別和分析。

在初步數(shù)據(jù)分析中,研究團(tuán)隊(duì)在168個(gè)基因中識(shí)別出253個(gè)重要變異,其中約20%為已知致病變異,67%是已知致病基因中的新發(fā)現(xiàn)變異,剩余13%屬于表型擴(kuò)展。值得注意的是,約40%的變異與藥物、疾病、基因相互作用或現(xiàn)有臨床試驗(yàn)相關(guān),展現(xiàn)出重要的臨床應(yīng)用價(jià)值。通過Emedgene自動(dòng)分類系統(tǒng)的評(píng)估,20%的變異被確定為致病性或可能致病性。

在臨床驗(yàn)證方面,在29個(gè)基因中實(shí)現(xiàn)了43個(gè)變異體的臨床確認(rèn),涉及32名患者。這些變異體均為全新遺傳學(xué)診斷,同時(shí)確立了孟德爾遺傳病病因關(guān)聯(lián)。特別重要的是,86%的臨床確認(rèn)結(jié)果與Emedgene自動(dòng)分類結(jié)果保持一致,這些發(fā)現(xiàn)對(duì)于表現(xiàn)非典型或癥狀輕微、通常不會(huì)接受臨床測(cè)序的患者尤為重要,為他們提供了準(zhǔn)確的遺傳診斷。

此外,CRDC項(xiàng)目促進(jìn)了新的科研合作和功能研究的開展。幫助患者家庭獲得更廣泛的臨床服務(wù),包括臨床試驗(yàn)參與機(jī)會(huì)和??贫鄬W(xué)科診療等。

圖5 使用Emedgene的RC變異注釋工作流程。使用手動(dòng)整理的HPO術(shù)語(yǔ)以及CLiX Focus派生的HPO術(shù)語(yǔ)評(píng)估Emedgene優(yōu)先排序變異的流程圖工作流程。

Sentieon 軟件團(tuán)隊(duì)擁有豐富的軟件開發(fā)及算法優(yōu)化工程經(jīng)驗(yàn),致力于解決生物數(shù)據(jù)分析中的速度與準(zhǔn)確度瓶頸,為來(lái)自于分子診斷、藥物研發(fā)、臨床醫(yī)療、人群隊(duì)列、動(dòng)植物等多個(gè)領(lǐng)域的合作伙伴提供高效精準(zhǔn)的軟件解決方案,共同推動(dòng)基因技術(shù)的發(fā)展。截至 2023 年 3 月份,Sentieon 已經(jīng)在全球范圍內(nèi)為 1300+用戶提供服務(wù),被世界一級(jí)影響因子刊物如 NEJM、Cell、Nature 等廣泛引用,引用次數(shù)超過 700 篇。此外,Sentieon 連續(xù)數(shù)年摘得了 Precision FDA、Dream Challenges 等多個(gè)權(quán)威評(píng)比的桂冠,在業(yè)內(nèi)獲得廣泛認(rèn)可。


討論

圖6 文獻(xiàn)

項(xiàng)目成果與意義

通過建立跨機(jī)構(gòu)的統(tǒng)一同意框架、標(biāo)準(zhǔn)化數(shù)據(jù)收集流程和綜合分析平臺(tái)(GLS),CRDC 項(xiàng)目顯著加速了基因組數(shù)據(jù)在研究和臨床治療中的應(yīng)用。GLS 整合了 8,516 例外顯子組和 112 個(gè)基因組數(shù)據(jù),成為目前最全面的兒科罕見病基因組數(shù)據(jù)庫(kù)。

技術(shù)平臺(tái)與協(xié)作

GORdb 數(shù)據(jù)庫(kù)支持大規(guī)模數(shù)據(jù)分析,能夠滿足不同的應(yīng)用場(chǎng)景需求。并與第三方進(jìn)行合作,集成先進(jìn)技術(shù)構(gòu)建數(shù)據(jù)庫(kù)。


總結(jié)

研究充分展示了該項(xiàng)目在推進(jìn)精準(zhǔn)醫(yī)療實(shí)踐中的重要價(jià)值,為未來(lái)的基因組研究和臨床應(yīng)用提供了有力的范例,還顯著加速了罕見病基因診斷與治療開發(fā)進(jìn)程。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容