Best practices for the analytical validation of clinical whole-genome sequencing intended for the diagnosis of germline disease
摘要
全基因組測(cè)序(WGS)有望成為罕見(jiàn)遺傳疾病患者的第一級(jí)診斷測(cè)試;然而,缺乏解決最佳測(cè)試的定義和部署實(shí)踐的標(biāo)準(zhǔn)。為了解決這些差距,由美國(guó)和加拿大領(lǐng)先的醫(yī)療和研究組織組成的醫(yī)療基因組計(jì)劃(Medical Genome Initiative)通過(guò)發(fā)布最佳實(shí)踐來(lái)擴(kuò)大高質(zhì)量臨床工作組的使用范圍。在此,我們就臨床WGS分析驗(yàn)證對(duì)疑似種系疾病患者的診斷提出了一致建議,重點(diǎn)是測(cè)試開(kāi)發(fā)、測(cè)試設(shè)計(jì)的前期考慮、測(cè)試驗(yàn)證實(shí)踐和監(jiān)測(cè)測(cè)試性能的指標(biāo)。這項(xiàng)工作還深入了解了各成員機(jī)構(gòu)WGS測(cè)試的現(xiàn)狀,包括各現(xiàn)場(chǎng)參考標(biāo)準(zhǔn)和其他標(biāo)準(zhǔn)的使用情況。重要的是,該倡議的成員堅(jiān)信,臨床WGS是一種適合于罕見(jiàn)遺傳疾病患者的一級(jí)測(cè)試,至少可以取代染色體微陣列分析和全外顯子組測(cè)序。本文提出的建議應(yīng)減少實(shí)驗(yàn)室將WGS引入臨床實(shí)踐的負(fù)擔(dān),并支持安全有效的WGS檢測(cè)用于種系疾病診斷。
介紹
在過(guò)去十年中,下一代測(cè)序(NGS)的進(jìn)展通過(guò)提高診斷率和縮短診斷時(shí)間改變了基因檢測(cè)。靶向NGS多基因panels已被廣泛使用,全外顯子組測(cè)序(WES)在診斷具有非特異性表型特征的患者和危重新生兒方面是一個(gè)有力的輔助手段,其中鑒別診斷通常包括多個(gè)罕見(jiàn)的遺傳病。然而,這些方法同時(shí)具有工作流和測(cè)試內(nèi)容的限制,這可能會(huì)限制它們的總體效能。
全基因組測(cè)序(WGS)可以解決其他基于富集的NGS方法的許多技術(shù)限制,包括提高覆蓋率以及檢測(cè)結(jié)構(gòu)和復(fù)雜變異的靈敏度。WGS還可以識(shí)別非編碼變體,如破壞調(diào)控區(qū)的致病性變體、非編碼RNA和mRNA片段。WGS的新用途包括HLA基因分型、藥物遺傳學(xué)測(cè)試和多基因風(fēng)險(xiǎn)評(píng)分。幾項(xiàng)研究已經(jīng)證明WGS在廣泛的人群中識(shí)別臨床相關(guān)變異方面的優(yōu)勢(shì),并且與常規(guī)檢測(cè)相比,WGS在兒科患者和危重患兒中的診斷優(yōu)勢(shì)。作為一種更有效的檢測(cè)方法,WGS有望取代靶向NGS或WES和染色體微陣列(CMA),作為一種一線實(shí)驗(yàn)室方法,用于評(píng)估疑似遺傳性疾病的兒童和成人。WGS還具有跨多種變異類型定期再分析的優(yōu)勢(shì),這將通過(guò)更新注釋和分析技術(shù)提高診斷效率。盡管臨床WGS的廣泛采用已進(jìn)入階段,但技術(shù)挑戰(zhàn)依然存在,解決最佳臨床WGS測(cè)試的定義和部署實(shí)踐的標(biāo)準(zhǔn)尚未完全定義。專業(yè)機(jī)構(gòu)在為臨床WGS測(cè)試驗(yàn)證提供指導(dǎo)方面取得了進(jìn)展,并開(kāi)始出現(xiàn)使用參考標(biāo)準(zhǔn)和推薦精度度量進(jìn)行基準(zhǔn)測(cè)試的最佳實(shí)踐。然而,值得注意的是,這些建議并未解決與臨床工作組設(shè)置相關(guān)的具體挑戰(zhàn)。
范圍和方法
為了應(yīng)對(duì)這些挑戰(zhàn),成立了一個(gè)由醫(yī)學(xué)基因組倡議專家組成的工作組,以制定與臨床WGS分析驗(yàn)證相關(guān)的實(shí)用建議。我們決定將重點(diǎn)放在使用臨床WGS測(cè)試診斷生殖系疾病上,并且WGS的其他應(yīng)用(如檢測(cè)體細(xì)胞變異或無(wú)細(xì)胞循環(huán)DNA)被認(rèn)為超出了范圍。由于實(shí)驗(yàn)室試驗(yàn)驗(yàn)證的許多基本原則也適用于WGS,因此本文件不打算對(duì)實(shí)驗(yàn)室試驗(yàn)驗(yàn)證的所有步驟進(jìn)行全面描述,而是側(cè)重于臨床WGS驗(yàn)證帶來(lái)的具體挑戰(zhàn)。
為了確定小組共識(shí)的領(lǐng)域并最終為臨床實(shí)驗(yàn)室制定實(shí)用建議,創(chuàng)建了一項(xiàng)調(diào)查,向工作組成員詢問(wèn)與分析驗(yàn)證相關(guān)的關(guān)鍵主題,包括他們自己當(dāng)前的實(shí)驗(yàn)室實(shí)踐。在12個(gè)月的時(shí)間內(nèi),每?jī)芍芘e行一次電話會(huì)議,分享和討論這些現(xiàn)行做法,并確定在哪些方面可以達(dá)成共識(shí)。值得注意的是,由于驗(yàn)證方法的可變性和實(shí)驗(yàn)室間使用的廣泛質(zhì)量控制指標(biāo),往往難以達(dá)成共識(shí)。盡管如此,本文提供的這些建議旨在幫助希望將WGS引入臨床實(shí)踐的實(shí)驗(yàn)室人員,更重要的是,支持安全有效的WGS檢測(cè)以診斷種系疾病。
臨床全基因組測(cè)序綜述
所有臨床診斷測(cè)試,包括WGS,包括從獲取患者標(biāo)本到提交臨床報(bào)告的整個(gè)過(guò)程。臨床WGS的技術(shù)和分析要素可分為三個(gè)階段:樣品制備,包括提取和文庫(kù)制備,然后是序列生成(初級(jí));讀取對(duì)齊和變量檢測(cè)(輔助);注釋、篩選、優(yōu)先排序、變體分類和案例解釋,然后是變體確認(rèn)、分離分析和最終報(bào)告(第三級(jí))(圖1)。這些組件在所有高通量測(cè)序測(cè)試和信息學(xué)管道中都是通用的,但組件(如信息學(xué)算法)的差異將導(dǎo)致數(shù)據(jù)質(zhì)量和準(zhǔn)確性的差異。本手稿的重點(diǎn)是主要和次要分析,因?yàn)檫@些步驟與臨床WGS分析驗(yàn)證的測(cè)試性能評(píng)估直接相關(guān)。以下三個(gè)部分描述了建立分析有效性的關(guān)鍵要素:(1)測(cè)試開(kāi)發(fā)和優(yōu)化,(2)測(cè)試驗(yàn)證,(3)臨床使用中測(cè)試的持續(xù)質(zhì)量管理。分析驗(yàn)證的主要步驟和活動(dòng)如圖2所示,關(guān)鍵定義見(jiàn)方Box 1。表1總結(jié)了這些章節(jié)中的要點(diǎn)和建議,以及未來(lái)的考慮事項(xiàng)。

圖2 臨床WGS試驗(yàn)分析驗(yàn)證的關(guān)鍵步驟。臨床WGS分析驗(yàn)證的關(guān)鍵步驟包括測(cè)試開(kāi)發(fā)優(yōu)化、測(cè)試驗(yàn)證和質(zhì)量管理。每一步都涉及到能帶來(lái)既定結(jié)果的活動(dòng)。
測(cè)試開(kāi)發(fā)與優(yōu)化
作為測(cè)試開(kāi)發(fā)和優(yōu)化的一部分,應(yīng)考慮臨床WGS測(cè)試設(shè)計(jì)的幾個(gè)組成部分。在這里,我們集中討論臨床WGS的一些獨(dú)特方面,包括測(cè)試的定義、與當(dāng)前方法的測(cè)試性能比較以及測(cè)試設(shè)計(jì)的前期考慮。補(bǔ)充討論中更詳細(xì)地討論了樣本和文庫(kù)準(zhǔn)備、測(cè)序方法、序列分析和注釋等其他組成部分。

圖1 臨床全基因組測(cè)序工作流程。臨床WGS的工作流程涉及跨越濕實(shí)驗(yàn)室和信息學(xué)過(guò)程的三個(gè)主要分析步驟:初級(jí)(藍(lán)色)分析是指通過(guò)將原始測(cè)序儀器信號(hào)轉(zhuǎn)換為核苷酸和序列讀取的過(guò)程,從生物樣本中技術(shù)生成DNA序列數(shù)據(jù);二級(jí)(綠色)分析是指通過(guò)讀比對(duì)和變體調(diào)用識(shí)別DNA變體;三級(jí)(黃色)分析是指變量注釋、過(guò)濾和優(yōu)先級(jí)劃分、分類、解釋和報(bào)告??梢酝诰蚪】涤涗浶畔⒑捅硇?,并將其轉(zhuǎn)換為人類表型本體(HPO)術(shù)語(yǔ),以幫助解釋變異。主要分析包括樣品、文庫(kù)制備和測(cè)序,然后進(jìn)行廣泛的質(zhì)量控制(QC)。在這一階段,采用正交法(SNP陣列或靶向分析)進(jìn)行基因分型,以達(dá)到質(zhì)控目的。輔助分析包括映射、讀取對(duì)齊和變量調(diào)用。不同種類的變異(SNV、SV、CNV、線粒體和重復(fù)擴(kuò)增)將使用可以并行運(yùn)行的不同算法。除了校準(zhǔn)和變量調(diào)用的質(zhì)量控制外,還可以使用正交基因分型來(lái)確保在整個(gè)工作流程中沒(méi)有出現(xiàn)樣本混淆。三級(jí)分析從變異注釋開(kāi)始,然后根據(jù)表型和臨床試驗(yàn)指征進(jìn)行篩選、排序和變異分類。根據(jù)ACMG指南對(duì)變異進(jìn)行分類可能是自動(dòng)化的,但最終的解釋涉及人類干預(yù),最終將由病例表型決定。根據(jù)與試驗(yàn)主要指征的相關(guān)性和與試驗(yàn)原因無(wú)關(guān)的次要或偶然發(fā)現(xiàn),報(bào)告變異,采用任何必要的確認(rèn)方法??刹捎谜粷駥?shí)驗(yàn)室法或基于試驗(yàn)驗(yàn)證方式的數(shù)據(jù)電子檢查進(jìn)行確認(rèn)。臨床相關(guān)性(粉紅色)由主治醫(yī)師執(zhí)行,可能涉及反復(fù)反饋和與實(shí)驗(yàn)室合作(虛線箭頭)。在整個(gè)過(guò)程中,收集聚合數(shù)據(jù)對(duì)于生成內(nèi)部等位基因頻率和與存儲(chǔ)庫(kù)共享解釋數(shù)據(jù)是必要的。
測(cè)試定義注意事項(xiàng)
分析驗(yàn)證要求將根據(jù)試驗(yàn)定義而變化,試驗(yàn)定義包括技術(shù)考慮因素和患者群體的預(yù)期用途。雖然臨床WGS可用于多種適應(yīng)癥(例如,遺傳性疾病、癌癥和健康個(gè)體),但本文檔重點(diǎn)介紹了將臨床WGS用于疑似單基因種系疾病的個(gè)體作為主要使用案例。然而,此處描述的分析有效性原則適用于臨床WGS的所有用途。
由于測(cè)試的復(fù)雜性,為臨床WGS建立測(cè)試定義以診斷生殖系疾病對(duì)實(shí)驗(yàn)室來(lái)說(shuō)可能是一個(gè)挑戰(zhàn)。臨床WGS測(cè)試基于一個(gè)特定的測(cè)試定義,該定義描述了待報(bào)告的變異類型和將被詢問(wèn)的基因組區(qū)域(包括任何限制),這可能因變異類型而異。由于WGS變異檢測(cè)的綜合性,挑戰(zhàn)在于測(cè)試定義是否應(yīng)與表型無(wú)關(guān),并基于針對(duì)特定表型檢測(cè)或定義的變異類別,因?yàn)樘囟ㄎ稽c(diǎn)可以被詢問(wèn)和報(bào)告。目前基因組測(cè)序最有效的用途是評(píng)估具有廣泛潛在遺傳病因的臨床表現(xiàn)。然而,由于可以通過(guò)臨床WGS查詢特定位點(diǎn)和相關(guān)變異類型(例如,SMA的SMN1缺失或脆性X染色體的FMR1擴(kuò)增),測(cè)試定義的范圍將擴(kuò)大,并隨著分析性能的提高而發(fā)展。
表2總結(jié)了臨床WGS可檢測(cè)到的臨床相關(guān)遺傳變異類別,包括單核苷酸變異(SNV)、小缺失、重復(fù)、插入(INDEL)、結(jié)構(gòu)變異(SV),包括拷貝數(shù)變異(CNV)和平衡重排、線粒體(MT)變異和重復(fù)擴(kuò)增(REs)其中一些變體類別的檢測(cè)準(zhǔn)確度已得到充分證實(shí),而其他類別在技術(shù)上是可行的,但證明足夠檢測(cè)準(zhǔn)確度的數(shù)據(jù)仍在不斷涌現(xiàn)。臨床WGS測(cè)試應(yīng)盡可能分析和報(bào)告所有可能檢測(cè)到的變異類型。我們推薦SNVs、indels和CNVs作為WGS測(cè)試中可行的最合適的一組變體。實(shí)驗(yàn)室應(yīng)進(jìn)一步致力于提供MT變體、REs、一些結(jié)構(gòu)變體和選定的臨床相關(guān)基因的報(bào)告,這些基因的分析評(píng)估因假基因或高度同源序列而變得困難(表1和補(bǔ)充圖1)。我們注意到,實(shí)驗(yàn)室可能無(wú)法在臨床WGS首次啟動(dòng)之前驗(yàn)證所有類別的變異,并且可能需要分階段進(jìn)行驗(yàn)證和后續(xù)測(cè)試。最終,實(shí)驗(yàn)室必須提供明確的測(cè)試定義,并確定影響可報(bào)告變異類型的因素,以供訂購(gòu)醫(yī)生使用。例如,如果使用預(yù)期產(chǎn)生有限D(zhuǎn)NA量的樣本源,可能需要PCR進(jìn)行文庫(kù)制備,CNVS和RES的報(bào)告將受到不利影響。
測(cè)試性能注意事項(xiàng)
無(wú)論實(shí)驗(yàn)室可能選擇報(bào)告哪種變體類型,WGS測(cè)試和任何當(dāng)前測(cè)試方法之間的徹底性能比較都是有保證的,以證明分析性能足以用于臨床。臨床WGS測(cè)試性能應(yīng)旨在達(dá)到或超過(guò)其所替代的任何測(cè)試。如果臨床WGS的部署與當(dāng)前參考標(biāo)準(zhǔn)測(cè)試相比存在任何既定的性能差距,則應(yīng)在測(cè)試報(bào)告中注明(見(jiàn)表1)。臨床WGS最直接和最明顯的用途是替代全基因組測(cè)試,如WES和CMA。在檢測(cè)影響蛋白質(zhì)功能的變異方面,WGS在分析上優(yōu)于WES,并且有新的證據(jù)表明,WGS對(duì)CNV的分析檢測(cè)至少相當(dāng)于CMA(補(bǔ)充表1)。
對(duì)于某些變異類型的檢測(cè),重要的是要認(rèn)識(shí)到臨床WGS可能不等同于當(dāng)前的方法,穩(wěn)健的檢測(cè)尚未建立。例如,與WES或靶板相比,低水平鑲嵌的檢測(cè)代表了臨床WGS(40×平均深度)的一個(gè)重要限制,其中性能的喪失可能是某些適應(yīng)癥(例如癲癇性腦?。?6的一個(gè)重要問(wèn)題。如前所述,盡管可以使用WGS識(shí)別上述更復(fù)雜的變異類型(例如,異質(zhì)性水平不同的MT變異、REs等),但我們認(rèn)識(shí)到,在某些情況下,這些變異類型的檢測(cè)精度可能還不等同于目前接受的分析。在臨床WGS的測(cè)試定義中包含這些變異類別仍然具有內(nèi)在價(jià)值,以確保盡可能完整的測(cè)試,只要測(cè)試敏感性的限制得到明確定義。與任何基因檢測(cè)一樣,檢測(cè)定義應(yīng)明確指出,在這些情況下,陰性報(bào)告并不排除診斷。計(jì)劃報(bào)告復(fù)雜變體類型的實(shí)驗(yàn)室必須在報(bào)告中包括測(cè)試限制,并制定詳細(xì)的驗(yàn)證性測(cè)試策略。這項(xiàng)倡議的共識(shí)是,在報(bào)告之前,有必要使用正交法對(duì)這些變異類型進(jìn)行驗(yàn)證性測(cè)試(表1)。
測(cè)試設(shè)計(jì)的前期考慮
WGS測(cè)試設(shè)計(jì)的前期考慮因素,如樣本和庫(kù)制備、測(cè)序方法、序列分析和注釋通常遵循當(dāng)前指南,并在補(bǔ)充討論中討論。以下討論了針對(duì)臨床WGS的更復(fù)雜的測(cè)試設(shè)計(jì)考慮因素,例如評(píng)估指標(biāo)以確定合適的WGS測(cè)試覆蓋率,以及驗(yàn)證所需的樣本數(shù)量和類型。
評(píng)估基因組覆蓋率、完整性和可調(diào)用性
定義和評(píng)估高質(zhì)量的基因組覆蓋率是臨床WGS測(cè)試開(kāi)發(fā)中最重要的考慮因素之一,因?yàn)樗苯雨P(guān)系到準(zhǔn)確識(shí)別感興趣的變體所需的數(shù)據(jù)量。衡量基因組完整性的指標(biāo)應(yīng)用于定義臨床工作組的績(jī)效,并包括覆蓋的總體深度和均勻性。與正交調(diào)查的真值集相比,應(yīng)針對(duì)基因組的可調(diào)用區(qū)域和每種變異類型的相關(guān)調(diào)用準(zhǔn)確度對(duì)這些測(cè)量進(jìn)行監(jiān)測(cè)(表1)。雖然尚未確定通用截止值,但建議結(jié)合覆蓋深度、基本質(zhì)量和映射質(zhì)量來(lái)評(píng)估可調(diào)用性48。該計(jì)劃中的大多數(shù)實(shí)驗(yàn)室計(jì)算原始和可用覆蓋率,后者與變體檢測(cè)中使用的讀取相關(guān),不包括映射不良的讀取、低質(zhì)量的堿基對(duì)和重疊的成對(duì)讀取。所有站點(diǎn)都使用不同的平均覆蓋深度評(píng)估了臨床WGS的性能,并評(píng)估了特定目標(biāo)文件(如參考標(biāo)準(zhǔn))中變量調(diào)用的完整性和準(zhǔn)確性,或與臨床WGS替代方法的比較(例如WES;補(bǔ)充圖2、3)。評(píng)估方法的可變性可能導(dǎo)致指標(biāo)和截止值的差異(表3);
然而,當(dāng)使用參考標(biāo)準(zhǔn)對(duì)該計(jì)劃中三個(gè)地點(diǎn)的基因組完整性進(jìn)行評(píng)估時(shí),其值在97.1 - 98.1%之間,表明不同實(shí)驗(yàn)室的基因組測(cè)序具有一定的一致性(補(bǔ)充表2)。如果實(shí)驗(yàn)室提供來(lái)自不同DNA來(lái)源的WGS,這些評(píng)估應(yīng)該對(duì)每種樣本類型完成。
參考標(biāo)準(zhǔn)物質(zhì)和陽(yáng)性對(duì)照
高質(zhì)量的參考標(biāo)準(zhǔn)物質(zhì)和陽(yáng)性對(duì)照以及相關(guān)的真實(shí)數(shù)據(jù)集是提供臨床WGS的實(shí)驗(yàn)室的必要資源。臨床WGS的分析驗(yàn)證應(yīng)包括公開(kāi)的參考標(biāo)準(zhǔn)品,以及每種變異類型的商用和實(shí)驗(yàn)室陽(yáng)性對(duì)照品。對(duì)于通常由該字段處理的變量類型,包括snv和indels,如果這些包含公認(rèn)的參考標(biāo)準(zhǔn),則可以使用最少數(shù)量的控件。對(duì)于標(biāo)準(zhǔn)仍在發(fā)展的變體類型(如REs),應(yīng)使用更多的樣本(表1)。國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)NA12878基因組和Platinum基因組通常由NGS實(shí)驗(yàn)室使用,以建立WGS分析有效性。這些基因組得益于數(shù)千種變體,這些變體已在許多技術(shù)中得到策劃和確認(rèn)。在這項(xiàng)倡議中,所有團(tuán)體都使用NA12878進(jìn)行驗(yàn)證,大多數(shù)團(tuán)體還利用個(gè)人基因組計(jì)劃中的德系猶太人和中國(guó)人祖先三人組作為參考材料,使用變異基準(zhǔn)(補(bǔ)充表3)。
通過(guò)變種類型細(xì)分分析性能的能力是使用特征良好的參考材料的另一個(gè)好處。全基因組的敏感性估計(jì)通常掩蓋了在某些序列上下文或跨不同的變異屬性的不良表現(xiàn)。例如,在高同源性區(qū)域的大indel檢測(cè)(>10 bp)的靈敏度將低于在不太復(fù)雜區(qū)域的小indel檢測(cè)。理解基因組困難區(qū)域的表現(xiàn)對(duì)于準(zhǔn)確地表示分析的局限性,并為開(kāi)發(fā)新的分析工具和方法設(shè)定基準(zhǔn)是很重要的。全球基因組和健康聯(lián)盟(GA4GH)基準(zhǔn)團(tuán)隊(duì)最近開(kāi)發(fā)了工具(https://github.com/ga4gh/benchmarking-tools)來(lái)評(píng)估這種方式的績(jī)效。目前,該項(xiàng)目的所有成員都已在其分析驗(yàn)證研究中納入或打算使用此類分析的結(jié)果。
然而,僅參考標(biāo)準(zhǔn)材料不足以確定試驗(yàn)的有效性。例如,在為驗(yàn)證研究尋找樣本時(shí),還必須同時(shí)考慮標(biāo)本和疾病背景。對(duì)于該聯(lián)盟中的臨床WGS實(shí)驗(yàn)室,標(biāo)本背景包括可接受的樣本類型(如血液、唾液和組織)的測(cè)定,以及相關(guān)的代表性陽(yáng)性對(duì)照。一些致病變異,包括短串聯(lián)重復(fù),低拷貝重復(fù),在非唯一序列中帶有斷點(diǎn)的sv,平行和假基因,發(fā)生在基因組難以測(cè)序,對(duì)齊和繪制的區(qū)域。如果計(jì)劃對(duì)這些位點(diǎn)進(jìn)行分析和報(bào)告,實(shí)驗(yàn)室應(yīng)對(duì)具有這些特定變異類型的樣本進(jìn)行驗(yàn)證評(píng)估,以確定其穩(wěn)健性。由于這些變量的性能預(yù)期可能沒(méi)有很好地建立起來(lái),因此應(yīng)該使用大量的陽(yáng)性對(duì)照(見(jiàn)下面和補(bǔ)充表3)。
測(cè)試驗(yàn)證
臨床WGS需要多層面的分析驗(yàn)證方法,因?yàn)橛写罅康暮币?jiàn)遺傳疾病位點(diǎn),可以檢測(cè)到的變異數(shù)量和不同類別,以及變異調(diào)用準(zhǔn)確性的基因組上下文驅(qū)動(dòng)的可變性。在整個(gè)分析過(guò)程中定義性能指標(biāo)的傳統(tǒng)匯總統(tǒng)計(jì)是必要的,但還不夠。分析驗(yàn)證框架應(yīng)包括考慮基因組復(fù)雜性的指標(biāo),特別注意序列內(nèi)容和變異類型(表1)。例如,序列級(jí)別和拷貝數(shù)變體具有不同的調(diào)用約束,這些調(diào)用約束可能會(huì)受到低復(fù)雜度序列的不同影響。針對(duì)這些和其他臨床WGS特異性驗(yàn)證要求的特定測(cè)試驗(yàn)證建議將在下面詳細(xì)討論。其他并非臨床WGS獨(dú)有的考慮因素包括測(cè)序偏置、重復(fù)性和再現(xiàn)性、檢測(cè)限制、干擾和同源區(qū)域,以及疾病特異性變異驗(yàn)證(如SMA檢測(cè))、軟件驗(yàn)證和測(cè)試修改和更新在補(bǔ)充討論中進(jìn)行了討論。
性能閾值應(yīng)預(yù)先確定,并與臨床要求相匹配,以降低診斷錯(cuò)誤率。可變呼叫階段性能閾值的靈活性是可以接受的,只要將這些偏差記錄在案,并且實(shí)驗(yàn)室程序包括額外的確認(rèn)性評(píng)估。這些可能包括額外的生物信息學(xué)分析、分析人員的人工檢查和正交實(shí)驗(yàn)室測(cè)試。在臨床WGS試驗(yàn)中要檢查的數(shù)據(jù)量需要將驗(yàn)證方法限制在具有潛在高臨床影響的數(shù)據(jù)的小子集中。在驗(yàn)證變量調(diào)用時(shí),不應(yīng)該在靈敏度、精度或TPPV的計(jì)算中使用調(diào)用和無(wú)效調(diào)用。相反,作為檢測(cè)準(zhǔn)確性的一部分,這些應(yīng)該單獨(dú)記錄,如果可能,通常具有低圖譜質(zhì)量和覆蓋率的基因組間隔應(yīng)該在臨床WGS檢測(cè)定義中標(biāo)記。
識(shí)別不同的變體類型需要獨(dú)特的調(diào)用算法,從而導(dǎo)致分析性能的差異。為了更好地了解總體測(cè)試性能,一些常見(jiàn)的變量類型需要根據(jù)大小進(jìn)一步分層。例如,GA4GH建議將插入、刪除和重復(fù)分裝到<50、50 - 200和> 200bp大小的容器中(參考文獻(xiàn)51),但需要注意的是,該計(jì)劃中的大多數(shù)實(shí)驗(yàn)室會(huì)評(píng)估額外的較小的容器(補(bǔ)充圖4)。最小截止點(diǎn)與當(dāng)前臨床CMA的最大分辨率相似,根據(jù)所使用的平臺(tái)不同,最大分辨率從20 kb到100 kb不等。該項(xiàng)目中的實(shí)驗(yàn)室目前使用基于深度的CNV調(diào)用者在CMA分辨率下提供CNV作為測(cè)試報(bào)告事件的一部分,而較小的CNV事件通常需要分裂或異常讀取對(duì)信息,并配合深度評(píng)估。
變量調(diào)用的性能可能會(huì)受到區(qū)域本身的序列上下文的影響,或者,在大型變量的情況下,會(huì)受到周圍基的影響。目前,還沒(méi)有識(shí)別系統(tǒng)性問(wèn)題區(qū)域或全面的人口水平真相數(shù)據(jù)集的最佳實(shí)踐,但該倡議的所有成員都開(kāi)發(fā)了識(shí)別此類區(qū)域的內(nèi)部方法。這些包括臨床WGS可能表現(xiàn)不佳的區(qū)域,包括非同源基因,它們被排除在測(cè)試定義之外,以指導(dǎo)適當(dāng)?shù)呐R床排序。該倡議還建議,被確定為系統(tǒng)問(wèn)題的區(qū)域,或?qū)εc特定變異類型相關(guān)的變異呼叫產(chǎn)生負(fù)面影響的區(qū)域,作為測(cè)試驗(yàn)證的一部分,并在要求時(shí)提供給訂購(gòu)臨床醫(yī)生。已經(jīng)存在一些同源性高的基因注釋資源,可以作為一個(gè)起點(diǎn)(https://www.ncbi.nlm.nih.gov/books/NBK535152/)。在驗(yàn)證期間觀察到的影響變體調(diào)用性能的限制應(yīng)在報(bào)告中明確說(shuō)明,并應(yīng)包括對(duì)變體類型、大小和基因組上下文的引用(表1)。
確認(rèn)樣品的數(shù)量和類型
臨床WGS驗(yàn)證所需的樣本和標(biāo)本類型的數(shù)量與實(shí)驗(yàn)室打算報(bào)告的檢測(cè)定義和變異類型或已知疾病位點(diǎn)有關(guān)。在全基因組范圍內(nèi)驗(yàn)證所有可能的致病變異在技術(shù)上或?qū)嵺`上都是不可行的。因此,我們建議驗(yàn)證所需的樣本數(shù)量由變異類型或被詢問(wèn)的目標(biāo)位點(diǎn)來(lái)指導(dǎo)。對(duì)于小變異體(SNVs和indels),該計(jì)劃的成員一致認(rèn)為,可重復(fù)和準(zhǔn)確的基因組參考標(biāo)準(zhǔn)評(píng)估足以建立全球準(zhǔn)確性,但這應(yīng)該由包含一系列臨床相關(guān)變異體的患者陽(yáng)性對(duì)照加以補(bǔ)充。有趣的是,該聯(lián)盟中實(shí)驗(yàn)室對(duì)小變異使用的陽(yáng)性對(duì)照數(shù)量在10到85個(gè)之間(補(bǔ)充表3),反映了實(shí)驗(yàn)室之間廣泛的做法。
除小變異外,對(duì)變異類型的驗(yàn)證需要更多的陽(yáng)性對(duì)照,并應(yīng)包括最常受影響的基因、位點(diǎn)或針對(duì)特定位點(diǎn)的致病性變異。應(yīng)評(píng)估的特定變異的數(shù)量可能根據(jù)變異類型、基因組環(huán)境和適當(dāng)參考樣本的可用性而有所不同。在可能的情況下,建議采用與Jennings等人概述的相似的統(tǒng)計(jì)上嚴(yán)格的方法,該方法包含了檢測(cè)的置信水平和檢測(cè)所需的概率。當(dāng)應(yīng)用這種方法并要求95%的可靠性和95%的置信區(qū)間時(shí),在性能評(píng)估中至少應(yīng)該使用59個(gè)變量,如之前發(fā)表的。以CNV驗(yàn)證為例,該項(xiàng)目成員使用了7至42例陽(yáng)性對(duì)照(補(bǔ)充表3),包括常見(jiàn)的微缺失和重復(fù)綜合征(補(bǔ)充表1)。需要更多的陽(yáng)性和陰性對(duì)照來(lái)評(píng)估準(zhǔn)確性。隨著測(cè)試范圍的不斷擴(kuò)大,我們期望根據(jù)該項(xiàng)目和社區(qū)中其他項(xiàng)目的經(jīng)驗(yàn),就驗(yàn)證所需的控制數(shù)量的建議達(dá)成共識(shí)。
質(zhì)量管理
與任何實(shí)驗(yàn)室檢測(cè)一樣,執(zhí)行臨床WGS的小組應(yīng)該有一個(gè)健全的質(zhì)量管理程序,以進(jìn)行質(zhì)量控制和質(zhì)量保證,遵循來(lái)自CLIA (www.cdc.gov/clia)、CAP (https://www.cap.org/)和ISO (www.iso.org)的適用監(jiān)管指導(dǎo)。這些監(jiān)管機(jī)構(gòu)的許多指導(dǎo)廣泛適用于任何實(shí)驗(yàn)室檢測(cè),包括臨床WGS,這里不討論。相反,我們涉及了臨床WGS檢測(cè)質(zhì)量管理的幾點(diǎn)考慮,重點(diǎn)是控制樣本、樣本識(shí)別、庫(kù)準(zhǔn)備、測(cè)序質(zhì)量和性能指標(biāo)以及生物信息學(xué)質(zhì)量保證。在表3中可以找到排序和性能指標(biāo)示例的列表(其中許多示例將在下面的章節(jié)中討論)。此表對(duì)每個(gè)指標(biāo)進(jìn)行了簡(jiǎn)要描述,以及被認(rèn)為通過(guò)/失敗的指標(biāo)和那些應(yīng)該被監(jiān)控的指標(biāo)的建議截止點(diǎn)或范圍。
控制樣品
提供臨床WGS的實(shí)驗(yàn)室面臨的最大挑戰(zhàn)之一是應(yīng)用controls來(lái)遵守監(jiān)管指南。指南建議使用陽(yáng)性、陰性和敏感性對(duì)照(例如,CAP分子病理學(xué)檢查表,2018年8月- MOL.34229對(duì)照定性檢測(cè)),以確保檢測(cè)的所有步驟都在沒(méi)有污染的情況下成功執(zhí)行。臨床全基因組檢測(cè)的持續(xù)質(zhì)量控制應(yīng)包括確定一套全面的性能指標(biāo),在一段時(shí)間內(nèi)對(duì)這些指標(biāo)進(jìn)行持續(xù)監(jiān)測(cè),并根據(jù)總體樣本量定期使用陽(yáng)性對(duì)照(表1)。雖然在每一次測(cè)序中納入對(duì)照參考標(biāo)準(zhǔn)是理想的,但對(duì)于進(jìn)行臨床WGS的實(shí)驗(yàn)室來(lái)說(shuō),這是不切實(shí)際的,在經(jīng)濟(jì)上也是不可行的。此外,陽(yáng)性和陰性對(duì)照的使用可能對(duì)測(cè)序運(yùn)行的總體性能提供信息,但不能反映特定樣本的差異,并可能錯(cuò)誤地表明足夠的測(cè)試性能。
一些實(shí)驗(yàn)室可能會(huì)選擇采用額外的陽(yáng)性和陰性控制策略。該計(jì)劃中的一些小組使用了PhiX,它代表了測(cè)序錯(cuò)誤率的經(jīng)驗(yàn)測(cè)量。對(duì)于變異陽(yáng)性對(duì)照,一種方法是使用具有良好特征的陽(yáng)性對(duì)照樣本的低水平尖峰蛋白,在每次測(cè)序運(yùn)行中包括變異譜。類似地,項(xiàng)目中的一些小組正在探索合成插入結(jié)構(gòu)的使用,包括Sequins,它可以添加到低級(jí)別運(yùn)行中(<1%的讀取),并支持至少可以作為某些變體類型的過(guò)程控制的性能評(píng)估。在這個(gè)計(jì)劃中,大多數(shù)小組定期運(yùn)行一個(gè)參考標(biāo)準(zhǔn),并檢查預(yù)期調(diào)用準(zhǔn)確性的偏差以及與先前運(yùn)行的樣本的一致性。
Sample鑒定
考慮到產(chǎn)生最終結(jié)果需要多個(gè)步驟,建議在試管和儀器轉(zhuǎn)移期間在實(shí)驗(yàn)室內(nèi)進(jìn)行樣本識(shí)別跟蹤程序,以確認(rèn)最終結(jié)果的完整性。實(shí)施這一跟蹤程序?qū)p少在分析步驟中出現(xiàn)樣品混淆的風(fēng)險(xiǎn),但不一定會(huì)發(fā)現(xiàn)其他分析前的問(wèn)題,如標(biāo)簽或樣品收集錯(cuò)誤。即使最初成員沒(méi)有標(biāo)準(zhǔn)的方法應(yīng)用,樣品跟蹤的例子包括WGS比較數(shù)據(jù)與多路檢測(cè)snp基因分型或定制芯片,STR標(biāo)記分析,或上升的方法。無(wú)論采用何種樣本跟蹤方法,WGS基因型與正交試驗(yàn)數(shù)據(jù)不一致,均導(dǎo)致試驗(yàn)失敗(表3)。當(dāng)對(duì)病例-父母三人組進(jìn)行測(cè)序時(shí),或在臨床測(cè)試策略中包括其他家庭成員時(shí),應(yīng)使用類似上述方法。為了確定親子關(guān)系和評(píng)估其他家庭成員之間的親緣關(guān)系,應(yīng)使用標(biāo)準(zhǔn)方法對(duì)孟德?tīng)栧e(cuò)誤進(jìn)行正式檢查。
文庫(kù)準(zhǔn)備
DNA的產(chǎn)率和質(zhì)量(例如,熒光測(cè)定法和大小范圍)應(yīng)該有明確的驗(yàn)收標(biāo)準(zhǔn),允許DNA樣本進(jìn)入文庫(kù)制備和測(cè)序。對(duì)于臨床WGS,大多數(shù)實(shí)驗(yàn)室采用樣本匯集和分子條形碼技術(shù)。一些平臺(tái)受益于雙條形碼策略(即庫(kù)分子兩端各有一個(gè)條形碼),以減少在flowcell55上跳碼的可能性。必須建立具有驗(yàn)收閾值的質(zhì)量度量標(biāo)準(zhǔn)(例如,庫(kù)集中),并且必須記錄來(lái)自每個(gè)樣本的結(jié)果。對(duì)于樣品和樣品庫(kù)的制備,需要有程序來(lái)檢測(cè)和解釋質(zhì)量的系統(tǒng)性下降和/或滿足最低質(zhì)量要求的樣品百分比。樣品庫(kù)制劑控制可用于監(jiān)測(cè)質(zhì)量,并解決制劑與樣品問(wèn)題,非模板控制可用于監(jiān)測(cè)系統(tǒng)污染。
測(cè)序質(zhì)量和性能指標(biāo)
作為質(zhì)量控制的一部分,臨床WGS的試運(yùn)行質(zhì)量指標(biāo)和性能閾值應(yīng)在樣品水平上進(jìn)行評(píng)估。質(zhì)量保證程序應(yīng)定期監(jiān)測(cè)質(zhì)量指標(biāo),并確定與試劑質(zhì)量、設(shè)備性能和技術(shù)人員相關(guān)的測(cè)試性能趨勢(shì)。
臨床WGS樣本水平質(zhì)量指標(biāo)描述生物樣本和端到端檢測(cè)在技術(shù)上是否足夠(即該檢測(cè)是否為所有變異類型(SNVs、indels、CNVs、CNVs)提供預(yù)期分析敏感性和技術(shù)陽(yáng)性預(yù)測(cè)值)。和sv))在測(cè)試驗(yàn)證期間建立的基因組的可報(bào)告范圍內(nèi)。
在儀器的每次運(yùn)行以及校準(zhǔn)和變體調(diào)用之后計(jì)算質(zhì)量指標(biāo)(參見(jiàn)補(bǔ)充討論以了解擴(kuò)展描述)。測(cè)試開(kāi)發(fā)優(yōu)化和驗(yàn)證過(guò)程確定了對(duì)每個(gè)樣品進(jìn)行審查的指標(biāo),但對(duì)實(shí)驗(yàn)室來(lái)說(shuō),確定適當(dāng)?shù)拈撝凳且粋€(gè)挑戰(zhàn)。表3列出了該聯(lián)盟成員用于評(píng)估WGS通過(guò)/失敗和監(jiān)控的測(cè)序質(zhì)量和性能指標(biāo)的示例。
通過(guò)樣本的重要指標(biāo)包括每個(gè)樣本產(chǎn)生共10億堿基(Gb;>Q30),過(guò)濾后的堿基比對(duì)率(PF讀取對(duì)齊%),預(yù)測(cè)基因組可用覆蓋范圍(意思是常染色體覆蓋),重復(fù)的reads比例(% duplication),%callability(位置與基因型傳遞調(diào)用),任何樣品污染的證據(jù)(%污染)。對(duì)于臨床WGS,監(jiān)測(cè)全球定位指標(biāo)和評(píng)估臨床重要位點(diǎn)的完整性(例如,OMIM基因和ClinVar致病變異)尤為重要。
平均覆蓋率和覆蓋率的完整性是常用的度量,但是正如前面所討論的,這些可能在不同的組之間以不同的方式計(jì)算(參見(jiàn)前面關(guān)于覆蓋率評(píng)估的部分)。值得注意的是,在發(fā)表的時(shí)候,該倡議未能就應(yīng)該使用哪些指標(biāo)以及需要滿足哪些相應(yīng)的門檻達(dá)成高度共識(shí),無(wú)法成為合格的臨床WGS測(cè)試。對(duì)于重要的措施的類型有一般的一致意見(jiàn)(表3),但是這些通常是以不同的方式計(jì)算的,這使得達(dá)成一致意見(jiàn)很困難。這可能反映了不斷發(fā)展的技術(shù),以及每個(gè)小組在缺乏可接受的指導(dǎo)方針的情況下驗(yàn)證測(cè)試的方式。需要更多的數(shù)據(jù)和實(shí)驗(yàn)室經(jīng)驗(yàn),才能就定義臨床WGS檢測(cè)的性能指標(biāo)閾值達(dá)成共識(shí)。
生物信息學(xué)的質(zhì)量保證
為分析臨床WGS試驗(yàn)而開(kāi)發(fā)的臨床生物信息學(xué)管道是復(fù)雜的,需要一個(gè)強(qiáng)大的質(zhì)量保證程序來(lái)持續(xù)監(jiān)測(cè)指標(biāo)和管道更新。由于軟件版本(例如,讀取校準(zhǔn)器和變體調(diào)用器)和注釋數(shù)據(jù)源(例如,OMIM、Clinvar等)的不斷更新,開(kāi)發(fā)、驗(yàn)證和部署周期對(duì)實(shí)驗(yàn)室來(lái)說(shuō)可能是一個(gè)挑戰(zhàn)。管道版本在更新時(shí)需要重新驗(yàn)證(參見(jiàn)補(bǔ)充討論“軟件驗(yàn)證”),并且必須使用帶有參數(shù)和實(shí)現(xiàn)日期的系統(tǒng)來(lái)跟蹤版本。所有代碼更改都需要與數(shù)據(jù)源的版本一起文檔化。管道可以用參考標(biāo)準(zhǔn)進(jìn)行測(cè)試,以確保它們是可重復(fù)的和完整的,沒(méi)有錯(cuò)誤。
Summary
臨床WGS有望成為診斷那些疑似遺傳疾病患者的第一梯隊(duì)測(cè)試。雖然一些指南已經(jīng)開(kāi)始出現(xiàn),為基因組檢測(cè)的分析驗(yàn)證提供建議,但與臨床WGS的設(shè)置和部署相關(guān)的具體的c和l還沒(méi)有解決。在本文中,我們的目標(biāo)是基于醫(yī)療基因組計(jì)劃成員的經(jīng)驗(yàn),通過(guò)對(duì)臨床WGS分析驗(yàn)證的共識(shí)建議來(lái)解決這些差距。我們專注于為臨床WGS部署提供測(cè)試開(kāi)發(fā)優(yōu)化、驗(yàn)證實(shí)踐和持續(xù)質(zhì)量管理方面的實(shí)用建議。即使在倡議的成員之間,也很難就具體建議達(dá)成共識(shí),因?yàn)橥ǔS胁煌瑯佑行У姆椒▉?lái)驗(yàn)證WGS的分析。缺乏共識(shí)的另一個(gè)原因是該領(lǐng)域的快速發(fā)展;WGS的流程不斷更新和改進(jìn),意味著實(shí)驗(yàn)室往往處于不同的實(shí)施階段。然而,該倡議的成員一致同意認(rèn)可臨床WGS作為罕見(jiàn)疾病患者可行的一級(jí)檢測(cè),并認(rèn)為它應(yīng)該取代CMA和WES。
這里提供的建議代表了該領(lǐng)域當(dāng)前狀態(tài)的一個(gè)快照,我們希望最佳實(shí)踐繼續(xù)發(fā)展。雖然在具體驗(yàn)證相關(guān)的實(shí)踐上達(dá)成共識(shí)并非總是可能的,但所有小組都有一個(gè)共同的觀點(diǎn),即在臨床WGS中建立標(biāo)準(zhǔn)是困難的,但卻是至關(guān)重要的。研究和醫(yī)療機(jī)構(gòu)內(nèi)部及之間的合作努力和溝通對(duì)于建立指南和標(biāo)準(zhǔn)至關(guān)重要,以增加獲得高質(zhì)量臨床WGS的機(jī)會(huì),同時(shí)最大限度地降低患者風(fēng)險(xiǎn)。很明顯,需要在社區(qū)中進(jìn)行大量工作,以圍繞定義有效臨床基因組檢測(cè)的分析原則建立明確的共識(shí)。
為此,我們的團(tuán)隊(duì)致力于從分析有效性的上游和下游為臨床WGS主題提供最佳實(shí)踐,包括基因組解釋、數(shù)據(jù)基礎(chǔ)設(shè)施和臨床效用測(cè)量。