Bioinformatics Analysis for Cell-Free Tumor DNA Sequencing Data
DOI: 10.1007/978-1-4939-7717-8_5
摘要
ctDNA (cell-free tumor DNA)是液體活檢的主要生物標(biāo)志物,可從血液、尿液或其他循環(huán)液體中提取,能夠提供全面的腫瘤遺傳信息,較組織活檢更好地克服腫瘤異質(zhì)性問題。下一代測序技術(shù)是近年來發(fā)展起來的一種廣泛應(yīng)用于ctDNA分析的技術(shù)。盡管處理ctDNA樣本的技術(shù)已經(jīng)成熟,但從噪聲測序數(shù)據(jù)中檢測低突變等位基因頻率(MAF)變化的任務(wù)仍然具有挑戰(zhàn)性。在本章中,作者將首先解釋ctDNA測序數(shù)據(jù)分析的難點(diǎn),回顧相關(guān)技術(shù),然后提出一些新的生物信息學(xué)方法,以更好地分析ctDNA NGS數(shù)據(jù)。
Key words Liquid biopsy, Circulating tumor DNA, ctDNA, Gene fusion, CNV, Mutation visualization, OpenGene
介紹
ctDNA及其應(yīng)用
ctDNA如何測序

ctDNA NGS數(shù)據(jù)分析的難點(diǎn)
無細(xì)胞游離腫瘤DNA只是cfDNA的一小部分,特別是對于早期癌癥患者的樣本。這一事實(shí)使檢測腫瘤特異性突變變得困難。此外,PCR和測序錯誤、DNA氧化損傷和軟件引入的偽象會產(chǎn)生高水平的噪聲,并引入許多假陽性突變。
腫瘤特異性DNA的含量可以從低于0.01%到超過90%不等。ctDNA豐度的可變性與腫瘤負(fù)荷、分期、血管密度、細(xì)胞周轉(zhuǎn)和對治療的反應(yīng)有關(guān)。理論上,任何部分的DNA改變都可以通過足夠數(shù)量的分子深度測序檢測到。然而,在異質(zhì)混合物聚合酶鏈反應(yīng)中,擴(kuò)增偏置會導(dǎo)致群體傾斜,聚合酶錯誤會導(dǎo)致錯誤的堿基合并和重排。此外,在測序過程中產(chǎn)生的錯誤可能導(dǎo)致約0.1-1%的錯誤堿基調(diào)用[6],這稱為測序錯誤。表1顯示了不同主要NGS平臺的錯誤率。

文庫準(zhǔn)備也可能引入重大錯誤。例如,鳥嘌呤氧化是人工突變的一個重要來源,因?yàn)?-oxoG傾向于與腺嘌呤配對,而不是胞嘧啶。長時間的熱培養(yǎng),這在許多DNA提取和混合捕獲協(xié)議中是常見的,可以顯著增加G-->T替換。最近一項(xiàng)研究表明,DNA修復(fù)過程可以分別消除77%和82%的G-->T和C-->A錯誤。這項(xiàng)研究表明,DNA損傷會導(dǎo)致大量的錯誤。
除了樣品制備和測序過程中引入的誤差,軟件和分析工具也會引入誤差。特別是在同源序列和重復(fù)序列的參考基因組區(qū)域可以稱為假陽性變異。
細(xì)胞游離DNA片段通常很短,在167 bp附近有一個緊湊的峰值。這一事實(shí)增加了兩個不同的原始cfDNA片段共享相同序列的可能性,因此增加了刪除這些重復(fù)的難度,因?yàn)橹貜?fù)數(shù)據(jù)刪除算法將無法區(qū)分這些由放大引起的相同和重復(fù)讀取。
總之,從嘈雜的ctDNA測序數(shù)據(jù)中檢測低頻突變具有挑戰(zhàn)性。傳統(tǒng)的工具不能很好地處理ctDNA分析任務(wù),因此需要更專門的工具。
ctDNA測序數(shù)據(jù)分析管道
為了分析ctDNA測序數(shù)據(jù),需要使用一系列的軟件工具。例如,來自Illumina測序儀的原始測序數(shù)據(jù)以基調(diào)用(BCL)格式獲得。這個BCL文件需要根據(jù)樣本條形碼進(jìn)行解復(fù)用以分離FASTQ文件。然后用質(zhì)量控制工具測量FASTQ文件,以確保它們滿足質(zhì)量要求,并過濾掉低質(zhì)量和錯誤表示的讀取。接下來,過濾后的FASTQ文件將使用對齊器與參考基因組進(jìn)行對齊,輸出應(yīng)該是SAM/BAM文件。然后需要對BAM文件進(jìn)行排序并刪除重復(fù)項(xiàng)。然后,變量調(diào)用者需要處理BAM文件,并生成帶有原始變量記錄的VCF。接下來,這個VCF文件應(yīng)該用dbSNP和COSMIC這樣的數(shù)據(jù)庫進(jìn)行注釋?;€技術(shù)將被應(yīng)用于標(biāo)記一些假陽性突變,然后支持每個突變的唯一讀數(shù)將被計(jì)數(shù),從而形成一個完整的VCF。然后,這個VCF文件將被過濾,生成一個干凈的文件,并使用交互式分析工具進(jìn)行可視化。最后對目標(biāo)突變進(jìn)行解釋和報(bào)告。這些工具可以被安排成一個管道。圖3展示了作者經(jīng)常使用的ctDNA測序數(shù)據(jù)分析管道。

對于Illumina平臺,使用bcl2fastq工具將BCL格式文件轉(zhuǎn)換為FASTQ文件。Illumina平臺通過對不同的樣本使用不同的條形碼來支持multiplexing,因此在轉(zhuǎn)換的同時也進(jìn)行了de-multiplexing。
一些附加的工具可以對FASTQ文件執(zhí)行質(zhì)量控制和數(shù)據(jù)過濾,例如FastQC和Trimmomatic。作者建議使用AfterQC,它是高度優(yōu)化的ctDNA測序數(shù)據(jù)處理。AfterQC將在下一節(jié)中介紹。
許多校準(zhǔn)器可以用于將DNA測序reads映射到參考基因組,如bowtie2和BWA。根據(jù)我們的實(shí)踐,BWA在對齊質(zhì)量和速度方面都有較好的性能。BWA是一個軟件包,用于根據(jù)大型參考基因組繪制低發(fā)散序列。該算法由BWA-backtrack、BWA-SW和BWA-MEM三種算法組成。BWA-MEM通常推薦用于高質(zhì)量的查詢,因?yàn)樗?、更?zhǔn)確。但要注意,BWA和任何其他對齊器仍然可能引入不對中,特別是在有重復(fù)或同源序列的參考基因組區(qū)域。
對齊過程將生成一個SAM文件,其中包含可以立即轉(zhuǎn)換為BAM的對齊信息,BAM是SAM的二進(jìn)制標(biāo)識。這個BAM文件通常是無序的,應(yīng)該對其進(jìn)行排序并建立索引。最常用的BAM文件排序和索引工具是Samtools,還有其他一些工具可以更快地對BAM進(jìn)行排序。例如,Sambamba是一個使用SAM/BAM數(shù)據(jù)的高性能工具。Sambamba是用D語言編寫的,其源代碼可在以下網(wǎng)站獲得: https://github.com/lomereiter/sambamba。
在BAM文件被排序和索引之后,一個可選的過程是應(yīng)用重新排列來改進(jìn)插入和刪除(INDELs)的檢測。一些工具,如ABRA[16]可以執(zhí)行基于程序集的重新排列以輸出更干凈的indel,但這些工具通常很慢。現(xiàn)在可以應(yīng)用BAM文件的質(zhì)量控制來評估數(shù)據(jù)的對齊質(zhì)量并檢測不必要的偏差。這個過程可以用Qualimap這樣的工具來完成。
后續(xù)處理就是重復(fù)數(shù)據(jù)刪除。Samtools rmdup和Picard markduplicate (http://picard.sourceforge.net))通常用于根據(jù)讀的映射坐標(biāo)和質(zhì)量分?jǐn)?shù)識別和分解讀重復(fù)。由于cfDNA片段較短,長度分布緊接近167 bp,不同原始DNA片段的許多reads可能共享相同的映射坐標(biāo),不應(yīng)視為重復(fù)。因此,我們不建議使用Samtools rmdup或Picard markduplates進(jìn)行重復(fù)數(shù)據(jù)刪除,我們將在下一節(jié)中討論新的方法和策略。
變異調(diào)用是BAM操作(排序、重新排列、去重)之后的關(guān)鍵過程。眾所周知,癌癥基因組具有廣泛的突變,包括單核苷酸變異(SNVs)、多核苷酸變異(MNVs)、小插入和刪除(INDELs)以及復(fù)雜變異(如拷貝數(shù)變異(CNVs)和基因融合)。許多不同的調(diào)用者,如GATK HaplotypeCaller, FreeBayes (https://github.com/ekg/FreeBayes), MuTect2和VarScan2,可以用來調(diào)用SNV, MNV和小型INDELs。根據(jù)我們的經(jīng)驗(yàn),GATK HaplotypeCaller和FreeBayes并不擅長從超深測序數(shù)據(jù)中調(diào)用ctDNA的低頻體細(xì)胞突變,因?yàn)樗鼈冏畛跏窃O(shè)計(jì)用于基因分型和發(fā)現(xiàn)遺傳多態(tài)性的。MuTect2在調(diào)用體細(xì)胞突變方面要好得多,特別是在腫瘤-正常配對數(shù)據(jù)時。然而,它僅能很好地處理組織測序數(shù)據(jù),但對檢測ctDNA測序數(shù)據(jù)中的低頻突變不夠敏感。VarScan2在檢測低頻突變方面非常敏感,但可能報(bào)告大量假陽性突變。因此,我們無法找到一個完美的變異調(diào)用器來檢測ctDNA測序等超深NGS數(shù)據(jù)中的低頻突變。目前我們建議使用VarScan2,結(jié)合嚴(yán)格的變量過濾。請注意,一些可變調(diào)用程序,如GATK HaplotypeCaller,不能很好地隨深度擴(kuò)展,通常是下采樣(隨機(jī)刪除數(shù)據(jù)的部分)來提高計(jì)算性能。然而,下采樣會顯著降低檢測低等位基因頻率突變的敏感性,不建議用于ctDNA測序數(shù)據(jù)分析。
變量調(diào)用過程完成后,得到原始VCF文件。該VCF文件可以使用ANNOVAR等注釋工具進(jìn)行注釋,獲取編碼序列和蛋白質(zhì)變化,并與dbSNP、ClinVar、COSMIC等數(shù)據(jù)庫進(jìn)行比較。
突變基線將用于注釋每個變體,說明該變體在過去的數(shù)據(jù)中被記錄了多少次。該信息可用于過濾由軟件工件和其他常規(guī)系統(tǒng)錯誤引起的假陽性突變。基線技術(shù)將在下一節(jié)中介紹。
為了更準(zhǔn)確地計(jì)算每個突變的支持讀數(shù),我們可以將具有相同映射坐標(biāo)的讀視為一個唯一的讀。一個名為MrBam (https://github.com/OpenGene/MrBam)的工具用于計(jì)算每個突變的惟一引用支持和惟一替代支持。
在完成唯一讀取計(jì)數(shù)之后,我們獲得一個完整的VCF文件。這個VCF文件中的記錄可以添加到突變基線中。這個VCF文件可以根據(jù)不同的條件進(jìn)行過濾,以盡可能多地去除假陽性突變。在篩選過程中,通常使用由重要臨床靶點(diǎn)(即癌癥可藥物突變靶點(diǎn))組成的白名單,以避免重要靶點(diǎn)突變被意外過濾掉。
另一方面,可以使用像MutScan (https://github.com/OpenGene/MutScan))這樣的工具可視化被調(diào)用的變體,以生成用于交互分析的突變可視化。對癌癥診斷和治療很重要的突變將被人工解釋。
除了snv和INDELs,另外兩種重要的癌癥診斷變異是基因融合和拷貝數(shù)變異(CNV)。這些工具中的大多數(shù)只能使用已排序的BAM文件。例如,DELLY和Factera可用于檢測基因融合,CNVkit (https://github.com/etal/CNVkit) 可用于檢測靶向DNA測序中的基因擴(kuò)增。一個例外是,作者開發(fā)的工具FusionDirect可以直接使用FASTQ文件來檢測目標(biāo)融合。
作者創(chuàng)建了一個開源項(xiàng)目來演示這個管道,該項(xiàng)目可在GitHub (https://github.com/OpenGene/ctdna-pipeline)上獲得。通過研究它,讀者可以了解如何安裝工具,準(zhǔn)備所需的數(shù)據(jù)庫和參考數(shù)據(jù),并使用FASTQ文件嘗試管道進(jìn)行測試。
在上面介紹的管道中,超過一半的工具是常用的軟件(例如,BWA、Samtools和VarScan2),而其余的工具是由作者開發(fā)的(例如,MutScan、AfterQC和MrBam)。這些新開發(fā)的工具是高度優(yōu)化的ctDNA測序數(shù)據(jù)分析。這些工具中的大多數(shù)都是GitHub組織OpenGene (https://github.com/OpenGene))下的開源項(xiàng)目。我們將在下一節(jié)中介紹其中一些。
新方法
由于腫瘤特異性DNA只是cfDNA的一小部分,ctDNA中體細(xì)胞突變的突變等位基因頻率(MAF)通常很低。為了檢測具有如此低MAF的突變,我們應(yīng)該應(yīng)用目標(biāo)捕獲和超深測序(例如,10000×或更深)。然而,這種超深測序中的測序錯誤和實(shí)驗(yàn)錯誤(即PCR錯誤)可能會導(dǎo)致高水平的背景噪聲,并且很難從ctDNA NGS數(shù)據(jù)中檢測到高靈敏度和特異性的突變。此外,基因融合的檢測也很困難,因?yàn)閏fDNA片段通常很短,而腫瘤特異性DNA片段太少。由于腫瘤細(xì)胞中拷貝數(shù)的變化只會導(dǎo)致cfDNA的拷貝數(shù)總數(shù)的微小差異,因此檢測拷貝數(shù)變異(CNV)比檢測融合更加具有挑戰(zhàn)性。
在本節(jié)中,我們將介紹一些新方法來部分解決上面列出的問題。其中一些是由作者開發(fā)的,并已在我們的常規(guī)管道中使用。
更好的數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是為下游分析獲取更清晰數(shù)據(jù)的重要步驟。對于NGS原始數(shù)據(jù)(FASTQ格式),有必要丟棄低質(zhì)量讀取、去除接頭并應(yīng)用其他過濾器。此外,還需要質(zhì)量控制(QC)方法來確保數(shù)據(jù)符合質(zhì)量要求。
一些好的工具可以執(zhí)行質(zhì)量控制,例如具有每堿基和每序列質(zhì)量分析功能的FastQC和具有FASTA/FASTQ統(tǒng)計(jì)功能的PRINSEQ,而其他一些工具可以執(zhí)行讀取修剪,例如Trimmomatic和SolexaQA。由于數(shù)據(jù)過濾的方式取決于QC結(jié)果,并且過濾的數(shù)據(jù)也需要后過濾QC,因此仍然需要一個具有豐富QC和過濾功能的工具。
由于cfDNA片段通常較短(~167 bp),2×150對端序列將導(dǎo)致讀對重疊?;谶@個事實(shí),我們可以對配對末端測序數(shù)據(jù)進(jìn)行重疊分析。當(dāng)DNA模板長度小于測序長度的兩倍時,這對讀取將重疊。請注意,重疊區(qū)域中的每個堿基實(shí)際上被測序了兩次,因此這些堿基對的不一致可能反映了測序錯誤。
AfterQC是作者開發(fā)的一種工具,用于解決許多實(shí)際測序數(shù)據(jù)質(zhì)量控制和過濾問題。除了常規(guī)的質(zhì)量控制功能,如每個循環(huán)的堿基數(shù)和質(zhì)量統(tǒng)計(jì),AfterQC還提供了許多新功能,如自動修剪和重疊分析。例如,我們發(fā)現(xiàn)一些測序器(如Illumina NextSeq系列)可能會輸出大量具有高質(zhì)量分?jǐn)?shù)的polyX讀取。
AfterQC可以使用其polyX過濾器去除它們,而普通質(zhì)量的過濾器不能。我們還發(fā)現(xiàn),如果擴(kuò)增或測序過程存在嚴(yán)重的鏈偏差,序列讀取將顯示K-MER計(jì)數(shù)偏差(即ATCGATCG及其反向補(bǔ)體CGATCGAT的計(jì)數(shù)顯著不同)?;谶@一發(fā)現(xiàn),AfterQC提供了基于K-MER計(jì)數(shù)的鏈偏差分析。該工具的另一個主要貢獻(xiàn)是對成對末端測序數(shù)據(jù)進(jìn)行重疊分析,可用于分析測序錯誤率,并將其用于錯誤基礎(chǔ)校正或消除。對于單個或一對FASTQ文件的每個輸入,AfterQC輸出一個HTML報(bào)告,其中包含質(zhì)量控制和數(shù)據(jù)篩選摘要,以及一個交互式圖形列表。表2 顯示了AfterQC和其他NGS質(zhì)量控制或過濾工具的特性比較。

AfterQC旨在批量處理FASTQ文件。它通過一個文件夾,其中包含所有FASTQ文件(可以是單端或成對端輸出),這些文件通常是不同樣本的測序運(yùn)行數(shù)據(jù),并將每個FASTQ或成對文件傳遞到QC和過濾管道。首先,AfterQC將運(yùn)行bubble檢測,以查找測序過程中出現(xiàn)的bubble;其次,將進(jìn)行預(yù)過濾QC,以使用每個周期的基本內(nèi)容和質(zhì)量曲線對數(shù)據(jù)進(jìn)行剖面分析;第三,AfterQC將根據(jù)數(shù)據(jù)質(zhì)量評測執(zhí)行自動讀取修剪;第四,每次讀取都將通過氣泡過濾器、polyX過濾器、質(zhì)量過濾器和重疊分析過濾器進(jìn)行過濾,未通過這些過濾器的將被視為錯誤讀取而丟棄;第五,基于重疊分析的誤差校正將應(yīng)用于配對末端測序數(shù)據(jù);最后,AfterQC將存儲正確的讀取,執(zhí)行過濾后QC分析,并生成HTML報(bào)告。
(AfterQC檢測bubble的原理是什么?)
AfterQC可以處理FASTQ數(shù)據(jù)的自動修剪。有兩種修剪策略,本地策略和全局策略。有些工具,如Trimmomatic,應(yīng)用本地策略,逐reads進(jìn)行裁剪。然而,局部修剪策略有一些缺點(diǎn)。第一個缺點(diǎn)是局部修剪僅使用質(zhì)量信息進(jìn)行修剪,而不能利用全局統(tǒng)計(jì)信息來發(fā)現(xiàn)異常cycle。第二個缺點(diǎn)是局部修剪會導(dǎo)致未對齊的修剪,這意味著重復(fù)讀取可能會被不同地修剪,從而導(dǎo)致某些重復(fù)數(shù)據(jù)消除工具(如Picard)失敗。大多數(shù)重復(fù)數(shù)據(jù)消除工具僅通過對具有相同映射位置的讀取進(jìn)行群集來檢測重復(fù)數(shù)據(jù)。相反,AfterQC執(zhí)行全局修整策略,即以相同的方式修整所有讀取。使用一種算法來確定要在前部和尾部修剪多少個循環(huán),該算法基于每個循環(huán)基本內(nèi)容曲線和基本質(zhì)量曲線的分段。
AfterQC的一個主要優(yōu)點(diǎn)是重疊分析。讓T表示測序DNA模板的長度,S表示成對雙端測序長度的長度,那么如果T≤S、 重疊長度將是2S-T、 如果S<T<2S,則不會重疊,如果2S≤T、 AfterQC根據(jù)編輯距離優(yōu)化檢查每對讀取如何重疊。對于一對讀取R1和R2,讓O作為偏移量,我們將R2放在R1下,然后我們將有垂直對齊的子序列R1o和R2o,我們可以計(jì)算它們的編輯距離ed.(R1o,R2o)。該方法優(yōu)化偏移量O以獲得最小編輯距離,ed(R1o-1,R2o-1)>ed(R1o,R2o)<ed(R1o+1,R2o+1)。圖4顯示了AfterQC的重疊分析如何工作的示例。

基于重疊分析,AfterQC可以檢測不匹配。如果不匹配對的質(zhì)量分?jǐn)?shù)不平衡,這意味著一個基數(shù)具有高質(zhì)量分?jǐn)?shù)(即>Q30),而另一個基數(shù)的質(zhì)量分?jǐn)?shù)非常低(即<Q15),AfterQC可以自動更正低質(zhì)量基數(shù)。如果質(zhì)量分?jǐn)?shù)不平衡,AfterQC可以通過將基數(shù)更改為N或?yàn)槠浞峙淞阗|(zhì)量分?jǐn)?shù)來掩蓋它們?;诓黄ヅ?,AfterQC可以評估測序錯誤率并分析測序錯誤轉(zhuǎn)換分布(即,有多少堿基是T,但測序?yàn)镃)。
重疊分析可用于自動適配器切割。在重疊分析過程中,我們得到了每對最佳局部對齊的最佳偏移量O。該對的重疊長度可以使用偏移量O直接計(jì)算。如果O為負(fù)值,重疊區(qū)域外的堿基將被視為適配器序列的一部分,然后自動切割。
AfterQC是一個開源工具:https://github.com/OpenGene/AfterQC。它是用Python和C++實(shí)現(xiàn)的,啟用了PyPy支持。AfterQC為每個輸入生成一個獨(dú)立的HTML報(bào)告,圖按Plotly繪制。示例報(bào)告可在以下網(wǎng)址找到:http://opengene.org/AfterQC/report.html.
分子條形碼測序及其數(shù)據(jù)分析
PCR和測序方法引入的系統(tǒng)性錯誤阻礙了ctDNA NGS深度測序的潛力。分子索引與深度測序相結(jié)合有望打破PCR和測序錯誤的限制,并能夠檢測罕見和極罕見的突變。
自2007年以來,人們提出并報(bào)告了用分子條形碼標(biāo)記單個模板。分子條形碼或分子索引有多種名稱,如唯一標(biāo)識符(UID)、唯一分子標(biāo)識符(UMI)、引物ID、雙鏈條形碼等。它們通常設(shè)計(jì)為一串完全隨機(jī)的核苷酸(如NNNNNNNN)、部分退化的核苷酸(例如NNNRNYNN)或定義的核苷酸(當(dāng)模板分子有限時)。UID或UMI可以通過連接或通過PCR或逆轉(zhuǎn)錄過程中的引物引入靶模板。
用UID或雙鏈條形碼標(biāo)記DNA片段已被證明可以減少錯誤并提高測序準(zhǔn)確性,因?yàn)楦鶕?jù)共享相同UID的一致讀取結(jié)果,可以將真正的突變與PCR錯誤或測序錯誤區(qū)分開來。目前,經(jīng)典的基于標(biāo)簽的方法有SafeSeq、CircleSeq和duplex測序。SafeSeq是一種基于“條形碼”的單鏈標(biāo)記方法?;诩羟悬c(diǎn)的單鏈標(biāo)簽的替代方法是circle sequencing,該方法利用Phi29 DNA聚合酶的鏈置換活性,在擴(kuò)增前串聯(lián)產(chǎn)生多個循環(huán)DNA分子副本。然而,這兩種方法都無法區(qū)分真變異體和在最初幾輪PCR擴(kuò)增過程中引入的人工變異體。相比之下,雙鏈測序通過標(biāo)記dsDNA的兩條鏈來解決這些類型的錯誤,利用DNA作為雙鏈實(shí)體自然存在的事實(shí),一個分子相互編碼其補(bǔ)體的序列信息。表3比較了SafeSeq、CircleSeq和雙工測序的聲稱錯誤率。

分子條形碼測序數(shù)據(jù)的分析可分為三個步驟。
第一步是提取UID。需要注意的是,連接到原始DNA模板上的條形碼通常是由DNA合成技術(shù)制成的,通常錯誤率很高。例如,如果設(shè)計(jì)了8-nt條碼,由于合成錯誤,我們?nèi)匀挥袡C(jī)會獲得7-nt或9-bt條碼。為了解決這個問題,通常使用由幾個堿基(通常是三到五個堿基)組成的固定序列來表示UID和原始DNA序列的邊界。分割算法應(yīng)在設(shè)計(jì)位置附近尋找該標(biāo)志,通常算法應(yīng)允許一個堿基錯配,以實(shí)現(xiàn)DNA合成或測序容錯。通過使用特殊適配器,一些分子條形碼方法將UID放置在多路復(fù)用索引位置(Illumina TrueSeq的I7或I5索引)。在這種情況下,UID提取要容易得多,因?yàn)樗梢灾苯訌臉颖舅饕刑崛?。這個過程是用FASTQ數(shù)據(jù)完成的。
第二步是對來自相同原始DNA的讀取進(jìn)行聚類。這些讀取應(yīng)該共享非常相似的UID和映射協(xié)調(diào)。但由于PCR和測序錯誤的存在,它們不需要完全相同。通??梢匀萑桃粋€基替換不匹配,松散的聚類方法可以允許INDEL或多個替換不匹配。此過程通常使用排序的BAM文件完成,但也可以使用基于序列聚類算法的FASTQ文件完成。
最后一步是為每個讀取集群生成一致讀取。首先,同一集群中的讀取應(yīng)該對齊在一起。這一過程可以通過像Clustal這樣的多序列比對工具來完成。完整的多序列比對通常很耗時,如果我們限制不匹配替換和INDEL的數(shù)量,一些簡單的方法可以運(yùn)行得更快。校準(zhǔn)完成后,可以通過從前到后掃描來生成一致性讀數(shù)。對于每個職位,該職位中的所有基地將根據(jù)其質(zhì)量分?jǐn)?shù)投票給共識基地。對于基礎(chǔ)完全相同的職位,該共識基礎(chǔ)的質(zhì)量分?jǐn)?shù)可以調(diào)高一點(diǎn),反之亦然,對于沒有共識的職位,結(jié)果基礎(chǔ)的質(zhì)量得分可以調(diào)低一點(diǎn)。如果只有兩個讀取被聚集,如果相同位置的兩個基數(shù)不同,但都有高質(zhì)量分?jǐn)?shù),則可以用N或零質(zhì)量分?jǐn)?shù)掩蓋此位置。
baseline methods
NGS數(shù)據(jù)有不同類型的錯誤。有些錯誤,如測序錯誤和PCR錯誤,是隨機(jī)的,可以發(fā)生在任何基因組位置的任何核苷酸上,盡管有一些偏差。有些錯誤更為常見,比如由基因組高度重復(fù)區(qū)域的錯位引起的錯誤。這些常規(guī)錯誤可以通過基線技術(shù)消除。
基線技術(shù)是從盡可能多的樣本中組合和存儲所有相關(guān)檢測到的突變和其他相關(guān)信息,然后對這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并為查詢和更新提供接口?;€數(shù)據(jù)通常存儲在數(shù)據(jù)庫中,因此可以使用標(biāo)準(zhǔn)SQL語言進(jìn)行插入、更新、刪除和查詢。可以使用兩種不同類型的數(shù)據(jù)庫:面向行的數(shù)據(jù)庫和面向列的數(shù)據(jù)庫。面向行的數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫的主流形式,如MySQL和PostgreSQL,而面向列的數(shù)據(jù)庫則鮮為人知,如Infobright和MonetDB。面向行的數(shù)據(jù)庫可以支持在線事務(wù)處理(OLTP),并針對關(guān)系查詢進(jìn)行了高度優(yōu)化,而面向列的數(shù)據(jù)庫可以提供更高的數(shù)據(jù)壓縮率。
基線應(yīng)該存儲每個突變及其染色體、位置、參考和替代堿基,以及突變讀取數(shù)和總深度。利用這個基線,我們可以計(jì)算檢測到多少次具有特定變化的特定位置的突變,其平均MAF是多少,以及突變的讀取數(shù)是多少。
由于在許多不同類型的癌癥中可以檢測到一些突變,一個更好的解決方案是用健康人的數(shù)據(jù)序列建立一個特定的基線。然后,該基線可用于篩選假陽性突變。當(dāng)一個變異被調(diào)用時,它的基線重復(fù)數(shù)將被評估。若基線重復(fù)數(shù)太高,則該突變可被視為假陽性,需要仔細(xì)評估。
基線的另一個用途是檢測熱點(diǎn)突變,包括體細(xì)胞突變和種系突變。通過從與腫瘤個體建立的基線中挖掘熱點(diǎn)突變,我們可以找到有潛力成為生物標(biāo)記物的目標(biāo)突變。
直接掃描FASTQ數(shù)據(jù)的目標(biāo)變異檢測
NGS數(shù)據(jù)的常規(guī)突變檢測管道通常涉及多個工具的不同步驟。由于應(yīng)用了不同的過濾器,這些工具可能會導(dǎo)致信息丟失,并可能最終導(dǎo)致漏檢真突變,尤其是MAF低的突變。這種由數(shù)據(jù)分析引起的假陰性在臨床應(yīng)用中是不可接受的,因?yàn)樗鼤够颊咤e過更好的治療機(jī)會。
相反,也應(yīng)避免這些關(guān)鍵突變的假陽性檢測,因?yàn)樗赡軐?dǎo)致昂貴但無效的治療,甚至可能導(dǎo)致嚴(yán)重的不良反應(yīng)。常規(guī)的NGS管道可以檢測到大量替換和INDEL,并不可避免地產(chǎn)生誤報(bào)。特別是,由于比對物的參考基因組定位不準(zhǔn)確,在基因組的高重復(fù)區(qū)域中調(diào)用的INDEL中有很大一部分是假陽性。
作者開發(fā)了一些工具,可以通過掃描原始FASTQ數(shù)據(jù)檢測目標(biāo)突變,而無需進(jìn)行任何校準(zhǔn)和變量調(diào)用。一個工具是MutScan,它基于容錯字符串搜索算法,并通過滾動哈希和bloom過濾器對速度進(jìn)行了高度優(yōu)化。MutScan可以在無參考模式下運(yùn)行,以檢測程序中預(yù)定義的目標(biāo)突變。通過提供VCF文件及其相應(yīng)的參考FastA文件,MutScan可以掃描VCF中的所有變體,并通過為每個變體創(chuàng)建HTML文件來可視化它們。
MutScan超靈敏、超快速。它可以在只支持一個變異讀取的情況下捕獲變異。它能跑50×,如果只掃描預(yù)定義的癌癥藥物靶點(diǎn),則比常規(guī)管道(AfterQC+BWA+Samtools+VarScan2)更快。此外,MutScan生成的交互式HTML報(bào)告有助于可視化和驗(yàn)證目標(biāo)突變。圖5顯示了MutScan的交互式突變連鎖反應(yīng)。

MutScan位于:https://github.com/OpenGene/MutScan。它是用C++編寫的,支持多線程。它支持單端和配對端數(shù)據(jù),對于后者,它將嘗試通過質(zhì)量調(diào)整和糾錯來合并每對數(shù)據(jù)。
作者開發(fā)的另一個工具是FusionDirect,它可以直接從原始FASTQ數(shù)據(jù)中檢測基因融合。此工具還可以直接處理FASTQ文件,不需要對齊。它可以輸出融合位點(diǎn)(基因和位置),以及支持融合的讀數(shù)。圖6給出了FusionDirect的輸出示例。

FusionDirect需要一個包含四列(染色體、起始位置、結(jié)束位置、基因名稱)的BED文件。如果未提供此文件,F(xiàn)usionDirect將使用內(nèi)置BED文件,其中包含大多數(shù)具有高度臨床重要性的融合基因。
FusionDirect的網(wǎng)址為:https://github.com/OpenGene/FusionDirect.jl。它是用Julia編寫的,這是一種允許高性能技術(shù)計(jì)算的新語言。FusionDirect基于OpenGene Julia庫構(gòu)建(https://github.com/OpenGene/OpenGene.jl),提供常規(guī)NGS相關(guān)文件格式(即FASTQ/FastA/VCF)的基本序列和變量表示以及I/O功能。
去重和唯一支持讀取計(jì)數(shù)
在確定被調(diào)用變量的可信度時,最重要的證據(jù)是其支持讀取的數(shù)量和質(zhì)量。為了計(jì)算支持讀取的數(shù)量,我們需要識別并折疊重復(fù)的讀取。
有一些工具可以消除PCR重復(fù)。Picard MarkDuplicates比較SAM/BAM文件中讀取和讀取對的五個主要位置中的序列。標(biāo)記重復(fù)讀取后,此工具使用一種算法來區(qū)分主要讀取和重復(fù)讀取,該算法通過讀取的基本質(zhì)量分?jǐn)?shù)的總和對讀取進(jìn)行排序。然而,當(dāng)該工具與某些野生型讀取共享映射協(xié)調(diào)時,可能會導(dǎo)致不必要的腫瘤衍生變異讀取的刪除。
CAPP-seq引入了另一種方法。它會折疊那些具有完全相同序列的讀取,但具有超低質(zhì)量分?jǐn)?shù)的讀取除外。與Picard MarkDuplicates相比,此方法刪除的讀取更少,因此損失更少。然而,它通常受到排序錯誤的影響,因此處理的數(shù)據(jù)的重復(fù)級別仍然很高。
上面介紹的分子條形碼測序是一種新的方法,似乎可以有效地消除PCR重復(fù)。由于UID連接是在任何擴(kuò)增發(fā)生之前進(jìn)行的,因此來自相同原始DNA的讀取將共享相同的UID?;赨ID和讀取序列的聚類,可以檢測到PCR重復(fù),一致讀取生成過程將刪除重復(fù)的讀取。表4比較了現(xiàn)有的重復(fù)數(shù)據(jù)消除工具。

上述方法在調(diào)用變體之前檢測重復(fù)。另一種策略是在變量調(diào)用完成后檢測重復(fù),它將具有相同映射位置(開始和結(jié)束)的讀取折疊為唯一讀取,并為每個變異提供支持引用和替代基的讀取數(shù)。這種獨(dú)特的讀取計(jì)數(shù)方法可以提供更精確的支持讀取計(jì)算。應(yīng)用此策略后,我們可以應(yīng)用損失較小的重復(fù)數(shù)據(jù)消除方法,如CAPP-seq方法,為變量調(diào)用保留更多信息。如果變量調(diào)用方能夠處理重復(fù)數(shù)據(jù),我們甚至可以在變量調(diào)用之前跳過重復(fù)數(shù)據(jù)消除。
MrBam是為這種獨(dú)特的讀取計(jì)數(shù)任務(wù)而設(shè)計(jì)的工具。它區(qū)分了共享相同映射協(xié)調(diào)的單個讀取或多個讀取生成的結(jié)果讀取。對于成對末端測序數(shù)據(jù),它區(qū)分突變位于讀對重疊或非重疊區(qū)域的情況。MrBam將給出以下條件組合的唯一讀取數(shù):支持引用或替代、由單個或多個讀取聚集,以及位于重疊或非重疊區(qū)域。
MrBam的結(jié)果可用于篩選從ctDNA測序數(shù)據(jù)中調(diào)用的變體。根據(jù)我們的經(jīng)驗(yàn),要報(bào)告一個突變,我們需要至少兩個支持它的唯一讀取對,每一對應(yīng)該在其重疊區(qū)域中有這個突變,或者是由多個對生成的一致對。由于高比率測序錯誤和ctDNA測序數(shù)據(jù)的極端深度,僅由非重疊區(qū)域的少數(shù)單次讀取支持的突變通常為假陽性。
Cell-Free DNA的甲基化分析
甲基化變化在不同的癌癥類型中很常見,通常發(fā)生在癌癥發(fā)展的早期,通常抑制腫瘤抑制基因的表達(dá)。與突變相比,異常的DNA甲基化可能為血液中的腫瘤DNA提供一個更為一致的、因而廣泛適用的標(biāo)記。
有大量公開信息描述腫瘤組織中的DNA甲基化模式及其對患者預(yù)后的影響。當(dāng)腫瘤DNA流入血流時,這些模式也可在血漿和血清中檢測到。
腫瘤特異性ctDNA甲基化可用于量化腫瘤DNA,提供有關(guān)腫瘤負(fù)擔(dān)水平的信息,并揭示腫瘤中的甲基化模式。基于DNA甲基化的生物標(biāo)記物可以納入患者護(hù)理和管理,但對臨床實(shí)踐的影響很小,例如甲基化ctDNA最近在確定癌癥預(yù)后和在手術(shù)后或化療期間的疾病監(jiān)測中的應(yīng)用。甲基化ctDNA檢測也被開發(fā)出來,以滿足癌癥篩查所需的嚴(yán)格標(biāo)準(zhǔn)。
下一代測序平臺允許以單個堿基分辨率構(gòu)建DNA甲基化的基因組圖。用亞硫酸氫鈉脫氨基處理基因組DNA,使非甲基化胞嘧啶(C)轉(zhuǎn)化為尿嘧啶(U),而甲基化C殘基保持不變。在隨后的聚合酶鏈反應(yīng)(PCR)中,U最終轉(zhuǎn)化為胸腺嘧啶(T)。全基因組亞硫酸氫鹽測序(WGBS)和減少代表性亞硫酸氫酯測序(RRBS)是全基因組甲基化研究的兩種經(jīng)典方法。
WGBS(BS seq;MethylC seq)理論上涵蓋了所有C信息。在這種方法中,基因組DNA被純化并剪切成片段。碎片DNA進(jìn)行端部修復(fù);腺嘌呤堿基被添加到DNA片段的3' 端(A尾),甲基化適配器被連接到DNA片段。在亞硫酸氫鈉處理和PCR擴(kuò)增之前,對DNA片段進(jìn)行大小選擇,并對產(chǎn)生的文庫進(jìn)行測序。WGBS的主要優(yōu)點(diǎn)是它能夠評估幾乎每個CpG位點(diǎn)的甲基化狀態(tài),包括低CpG密度區(qū)域,如基因間“基因沙漠”、部分甲基化域和遠(yuǎn)端調(diào)控元件。它還可以確定絕對DNA甲基化水平,并揭示甲基化序列的背景。
RRBS的開發(fā)成本低于WGBS,后者集成了Msp1限制酶消化、亞硫酸氫鹽轉(zhuǎn)化和下一代測序,用于分析特定片段的甲基化模式。研究發(fā)現(xiàn),40到220 bps之間的MspI消化片段的大小選擇覆蓋了85%的CGI,大部分位于啟動子中,啟動子僅占哺乳動物基因組的1–3%,因此顯著減少了測序數(shù)量?;赗RBS的協(xié)議比WGBS更具成本效益,因?yàn)檫@些方法側(cè)重于富集靠近限制酶識別序列的富含CpG的區(qū)域。然而,這些方案可能在相對較少研究的基因間和遠(yuǎn)端調(diào)控元件方面缺乏覆蓋。
最近,基于靶捕獲的亞硫酸氫鹽測序方法也已經(jīng)開發(fā)出來,一些試劑盒,如NimbleGen SeqCap Epi已經(jīng)商業(yè)化,以提供靶向甲基化分析。由于cfDNA中腫瘤DNA的比例較低,通常需要進(jìn)行超深測序,因此進(jìn)行目標(biāo)捕獲亞硫酸氫鹽測序的能力對于分析ctDNA樣本的甲基化信息非常重要。
ctDNA甲基化分析的主要應(yīng)用之一是檢測早期癌癥。血漿中的循環(huán)甲基化SEPT9 DNA被開發(fā)為結(jié)直腸癌的生物標(biāo)記物,SHP-1啟動子2(SHP1P2)的甲基化被報(bào)道為非小細(xì)胞肺癌(NSCLC)的生物標(biāo)記。這些生物標(biāo)記物通常比蛋白質(zhì)生物標(biāo)記物(即癌胚抗原,CEA)更敏感,有潛力應(yīng)用于癌癥篩查或早期癌癥檢測。
ctDNA甲基化分析的另一個主要應(yīng)用是確定未知原發(fā)癌(CUP)的組織起源。這種應(yīng)用基于這樣一個事實(shí),即不同的人類組織和細(xì)胞具有不同的DNA甲基化模式。最近,一種鑒定甲基化單倍型區(qū)的方法被開發(fā)出來,用于從血漿DNA進(jìn)行腫瘤組織起源定位。
分析亞硫酸氫鹽測序(BS-seq)數(shù)據(jù)的生物信息學(xué)管道與分析正常測序數(shù)據(jù)不同。分析BS序列數(shù)據(jù)的關(guān)鍵步驟是質(zhì)量控制、繪圖、甲基化評分、差異甲基化評估等。
BS-seq數(shù)據(jù)的QA過程與正常測序數(shù)據(jù)的相同過程,包括質(zhì)量分析、適配器修剪和低質(zhì)量讀取過濾。然而,要注意亞硫酸氫鹽處理會導(dǎo)致T的過度表達(dá)和C的不足表達(dá),這可能被傳統(tǒng)的QC工具認(rèn)為是有偏見的。因此,傳統(tǒng)的QC工具,如FastQC,不是處理BS序列數(shù)據(jù)質(zhì)量控制的好選擇。BseQC和MethyQA是更好的選擇,因?yàn)樗鼈儗iT用于BS序列數(shù)據(jù)。
將BS-seq讀數(shù)映射到參考基因組具有挑戰(zhàn)性,因?yàn)樾蛄信c參考基因組不完全匹配,并且由于亞硫酸氫鹽處理,文庫復(fù)雜性降低。此外,每個給定的T都可能是真正的基因組T或轉(zhuǎn)化的非甲基化C。由于這些原因,傳統(tǒng)的比對工具如BWA和Bowtie不適合將BS序列讀數(shù)映射到參考。一些BS-seq專用對齊器已經(jīng)開發(fā)出來,通常可以分為兩個通配符對齊器和三個字母對齊器。通配符如BSMAP通過將C替換為Y(胞嘧啶或胸腺嘧啶的IUPAC代碼)來操作,而三字母比對符如Bismark在測序讀取和參考中都將C轉(zhuǎn)換為T。
一旦比對完成,就可以計(jì)算胞嘧啶或基因組區(qū)域的甲基化分?jǐn)?shù),以找到差異甲基化胞嘧啶(DMC)和差異甲基化區(qū)域(DMR)。胞嘧啶甲基化評分是通過聚集重疊讀數(shù)并計(jì)算C或T的比例來計(jì)算的,這稱為β評分。這個過程可以通過Bismark和GBSA等工具實(shí)現(xiàn)。像Methylkit這樣的軟件提供了一種將基因組劃分為小倉的策略,平均β-得分作為bin得分。然后,可以應(yīng)用Fisher精確檢驗(yàn)(FET)等統(tǒng)計(jì)檢驗(yàn)來評估樣本之間DMC/DMR的統(tǒng)計(jì)相關(guān)性。這部分工作也可以用Methylkit完成,這是一個用于分析DNA甲基化的全面R包(https://code.google.com/p/methylkit).)。
最近發(fā)表了一些新的BS-seq數(shù)據(jù)甲基化分析方法。例如,Gao等人提出了一種搜索具有高度協(xié)調(diào)甲基化的基因組區(qū)域的方法。這種方法基于緊密耦合的CpG位點(diǎn)塊,稱為甲基化單倍型塊(MHB)。然后可以在塊水平(MHL)上進(jìn)行甲基化分析,基于MHL分析的結(jié)果比基于分析單個CpG位點(diǎn)的結(jié)果要好得多,這意味著該方法可以用于鑒定來源組織。
亞硫酸氫鹽測序作為分析DNA甲基化的黃金方法,已被研究多年,并開發(fā)了許多方法和工具。由于迫切需要建立用于癌癥篩查和組織起源鑒定的甲基化分析,BS-seq數(shù)據(jù)分析將引起研究人員的更多關(guān)注。我們不能在本章中討論BS seq的所有方面。可以在OMIC在線工具中找到BS seq數(shù)據(jù)分析工具和管道的集合(https://omictools.com/bsseq-category.)). (此鏈接無法訪問)
機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)(ML)技術(shù)在許多領(lǐng)域中創(chuàng)建數(shù)據(jù)模型非常流行,它也可以應(yīng)用于ctDNA數(shù)據(jù)分析。最適用的方法是監(jiān)督學(xué)習(xí)方法,它基于標(biāo)記數(shù)據(jù)的訓(xùn)練來構(gòu)建分類器。在本小節(jié)中,我們將展示如何使用ML技術(shù)構(gòu)建帶有ctDNA測序數(shù)據(jù)的分類器。
一個ML應(yīng)用是對cfDNA數(shù)據(jù)和非cfDNA數(shù)據(jù)進(jìn)行分類。CfDNA具有一定的片段模式,可以帶來測序數(shù)據(jù)開始周期的非隨機(jī)堿基含量曲線。Chandrananda等人于2014年首次報(bào)道了cfDNA片段模式,其一個核苷酸分辨率。他們在cfDNA片段的兩側(cè)發(fā)現(xiàn)了一些高頻率的10個核苷酸基序,而在切割位點(diǎn)的cfDNA的前兩個堿基可以決定其他八個堿基中的大部分。他在2015年的進(jìn)一步研究表明,這些斷裂模式與染色體上的非隨機(jī)生物分裂有關(guān)。DNA切割位點(diǎn)兩側(cè)的十個位置顯示出一致的模式,其中特定核苷酸優(yōu)先于核小體核心和連接區(qū)。圖7顯示了血漿cfDNA測序數(shù)據(jù)的碎片模式。

由于cfDNA的這種片段模式是穩(wěn)定和獨(dú)特的,它可以用于區(qū)分cfDNA的數(shù)據(jù)和其他種類的樣品的數(shù)據(jù)。作者開發(fā)了一個名為CfdnaPattern的開源工具,用于訓(xùn)練分類器,如SVM、KNN或隨機(jī)森林,以預(yù)測FASTQ是否從cfDNA中測序。使用0.632 + bootstrapping與3000多個FASTQ文件進(jìn)行交叉驗(yàn)證,結(jié)果平均準(zhǔn)確率為99.8%,使用隨機(jī)森林、線性SVM或KNN分類器獲得。這個工具是用Python編寫的,使用了廣泛使用的Python機(jī)器學(xué)習(xí)包scikit-learn。這個工具可從https://github.com/OpenGene/CfdnaPattern訪問。
另一個ML應(yīng)用是預(yù)測突變是體細(xì)胞還是種系。通常,腫瘤和正常樣本都被測序,正常樣本可以用作參考,以確定腫瘤樣本中稱為種系或體細(xì)胞突變的突變。但在某些情況下,我們可能沒有與腫瘤樣本匹配的正常樣本,然后我們可以應(yīng)用ML方法根據(jù)支持參考文獻(xiàn)和突變的讀數(shù)對突變進(jìn)行分類。
DeepSomatic是提供此類功能的工具。它可以用深度神經(jīng)網(wǎng)絡(luò)對體細(xì)胞和種系突變進(jìn)行分類。如果讀取數(shù)大于256,則提取覆蓋突變的所有讀取并采樣到256個讀取。然后將突變位點(diǎn)周圍的這些讀取堿基編碼為2D圖像,每個像素包含以下通道:讀取堿基及其質(zhì)量分?jǐn)?shù)、參考堿基以及插入或刪除的長度。然后,用五個常規(guī)層構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)。利用腫瘤正常配對數(shù)據(jù)對模型進(jìn)行訓(xùn)練和驗(yàn)證,然后交叉驗(yàn)證評估表明,該模型的平均準(zhǔn)確率高于99.9%。DeepSomatic也是一個開源工具,可在https://github.com/OpenGene/DeepSomatic訪問。
數(shù)據(jù)模擬
調(diào)整生物信息學(xué)管道和訓(xùn)練軟件參數(shù)需要具有已知地面真相的測序數(shù)據(jù),而這實(shí)際上很難從真實(shí)測序數(shù)據(jù)中獲得。特別是,對于ctDNA測序應(yīng)用,其目的是從超深度測序數(shù)據(jù)中檢測低頻變異,很難區(qū)分所謂的變異是真陽性還是假陽性,這是由測序或其他過程的錯誤引起的。在這些情況下,具有配置變化的模擬數(shù)據(jù)可用于診斷和驗(yàn)證生物信息學(xué)程序。
盡管已經(jīng)開發(fā)了許多下一代測序模擬器,但大多數(shù)模擬器缺乏模擬一些實(shí)際特征的能力,例如目標(biāo)捕獲測序、拷貝數(shù)變化、基因融合、擴(kuò)增偏差和測序錯誤。作者開發(fā)了SeqMaker,這是一種現(xiàn)代NGS模擬器,能夠模擬不同類型的變化,并集成了放大偏差和測序誤差。目標(biāo)捕獲測序只需使用捕獲面板描述文件即可支持,測序錯誤率、平均重復(fù)水平、DNA模板長度分布和質(zhì)量分布等其他特性可以通過簡單的JSON格式配置文件輕松配置。通過整合測序誤差和擴(kuò)增偏差,SeqMaker能夠模擬更真實(shí)的下一代測序數(shù)據(jù)??膳渲玫淖凅w和捕獲區(qū)域使SeqMaker非常有助于生成數(shù)據(jù),以訓(xùn)練生物信息學(xué)管道,用于體細(xì)胞突變調(diào)用等應(yīng)用。表5比較了SeqMaker和其他NGS模擬器的特性。

SeqMaker是一種工具,可生成SNV、INDEL、CNV和基因融合的測序讀數(shù),并集成測序誤差和PCR偏差。該工具使用JSON格式的配置文件來描述測序模擬設(shè)置,使用BED格式的TSV文件來配置捕獲的目標(biāo)區(qū)域。首先,模擬器從整個基因組或面板文件配置的目標(biāo)區(qū)域中提取DNA片段,并在此過程中模擬CNV。其次,根據(jù)配置文件中配置的變異列表,DNA片段將被改變以模擬SNV、INDEL和基因融合。第三,將在每個DNA片段上模擬測序過程以生成NGS讀數(shù),測序誤差和擴(kuò)增偏差也將在該過程中模擬。最后,生成的讀取被寫入FASTQ文件。
SeqMaker是用Julia編寫的,源代碼可從GitHub獲得:https://github.com/OpenGene/SeqMaker.jl/。目前,它僅支持Illumina平臺。需要更多的努力來構(gòu)建其他平臺的模擬器,尤其是PacBio和Nanopore平臺等新一代測序儀。
討論
作為癌癥領(lǐng)域的一種創(chuàng)新方法,液體活檢在癌癥診斷、監(jiān)測和篩查中具有當(dāng)前或潛在的應(yīng)用。無細(xì)胞腫瘤DNA作為液體活檢的主要成分,已廣泛用于腫瘤患者的個性化藥物指導(dǎo)。對于那些不適合通過手術(shù)或針頭穿刺獲取組織樣本的患者,ctDNA測序?yàn)樗麄冊\斷腫瘤提供了新的機(jī)會。
由于ctDNA應(yīng)該進(jìn)行非常深入的測序,因此通常會考慮到成本,使用小基因板進(jìn)行靶捕獲。然而,小面板有一些缺點(diǎn)。小面板不允許檢測目標(biāo)區(qū)域外的突變,難以檢測大規(guī)??截悢?shù)變化,并且難以計(jì)算總突變負(fù)擔(dān)(TMB),這通常需要大面板或整個外顯子組測序。隨著測序成本的下降,不難推測整個外顯子組甚至全基因組深度測序?qū)⒆兊秘?fù)擔(dān)得起,并被更廣泛地用于ctDNA測序。然后將獲得非常大的測序數(shù)據(jù),對這些數(shù)據(jù)的數(shù)據(jù)處理和分析將非常具有挑戰(zhàn)性。
結(jié)論
在本章中,我們介紹了ctDNA的概念和應(yīng)用,解釋了分析ctDNA NGS數(shù)據(jù)的困難,回顧了一些相關(guān)工具,并提出了一些新的方法或工具。人們應(yīng)該認(rèn)識到,cfDNA中的體細(xì)胞突變通常具有非常低的MAF,因?yàn)槟[瘤特異性DNA片段通常是整個cfDNA的一小部分。人們還應(yīng)該意識到,在實(shí)驗(yàn)和測序步驟中可能會發(fā)生錯誤,軟件也可能會引入錯位或假陽性變量調(diào)用等偽影。
未來的工作
盡管我們已經(jīng)討論了用于ctDNA NGS數(shù)據(jù)分析的生物信息學(xué)的許多方面,但仍存在上文未討論的主題。
數(shù)據(jù)壓縮是我們在本章中沒有討論的一個關(guān)鍵主題。由于ctDNA通常需要超深度測序,它通常產(chǎn)生非常大的數(shù)據(jù)。想象一下,如果10000?如果應(yīng)用WES,我們將為單個樣本獲得超過500 Gb的數(shù)據(jù),從而得到大于1 TB的未壓縮原始文件。存儲或傳輸這樣大的文件將非常具有挑戰(zhàn)性,并且迫切需要提供高壓縮比的方法。從信號處理的角度來看,ctDNA測序數(shù)據(jù)是高度冗余的,因?yàn)樗浅I?,并且有可能被高比率壓縮。然而,由于三個原因,壓縮此類數(shù)據(jù)仍然不容易:排序錯誤導(dǎo)致的不一致讀取、不同的質(zhì)量分?jǐn)?shù)以及無損壓縮的要求。與通用壓縮器(如gzip和bzip2)相比,當(dāng)前的方法(如DSRC)表現(xiàn)出了更好的性能,但壓縮比的改善仍不令人滿意。一些新型壓縮機(jī),如gtz(https://github.com/Genetalks/gtz)已經(jīng)開發(fā)出來,但它們?nèi)匀粵]有針對深度測序數(shù)據(jù)進(jìn)行優(yōu)化。我們認(rèn)為,完美的深度測序數(shù)據(jù)壓縮器應(yīng)該實(shí)現(xiàn)局部從頭組裝或應(yīng)用基于參考的策略來實(shí)現(xiàn)更高的壓縮比。
另一個有待討論的話題是CNV檢測。由于腫瘤特異性DNA只是cfDNA的一小部分,腫瘤細(xì)胞中的拷貝數(shù)變化只會導(dǎo)致ctDNA測序數(shù)據(jù)中的微小拷貝數(shù)差異。例如,如果腫瘤特異性DNA占整個cfDNA的1%,并且腫瘤細(xì)胞中的拷貝數(shù)倍數(shù)為5,那么整個cfDNA數(shù)據(jù)中的拷貝數(shù)量將為104%,略高于平均水平。目前的CNV檢測器,如CNVkit,并不是用來處理ctDNA測序數(shù)據(jù)的,也不夠靈敏,無法檢測CNV中的這種細(xì)微變化。更好的CNV檢測器仍有待開發(fā),這將為深度和目標(biāo)捕獲的ctDNA測序數(shù)據(jù)提供更好的標(biāo)準(zhǔn)化。
最近,一些針對癌癥免疫學(xué)的新方法正在吸引人們。一個主題是預(yù)測癌癥免疫治療的結(jié)果,特別是PD-1/PD-L1檢查點(diǎn)抑制劑。腫瘤突變負(fù)荷(TMB)已被證明與癌癥免疫療法的反應(yīng)有關(guān)。然而,TMB通常使用組織全外顯子組測序數(shù)據(jù)計(jì)算,并且由于低MAF和高噪聲水平,使用ctDNA計(jì)算TMB仍然具有挑戰(zhàn)性。需要針對基于ctDNA的TMB計(jì)算進(jìn)行優(yōu)化的方法,這一主題可以在未來討論。另一個與癌癥免疫治療相關(guān)的話題是新抗原的發(fā)現(xiàn)。2016年12月,帕克癌癥免疫治療研究所和其他機(jī)構(gòu)宣布成立腫瘤新抗原選擇聯(lián)盟。這個聯(lián)盟包括來自30個非營利機(jī)構(gòu)的研究人員,旨在確定能夠最好地預(yù)測患者腫瘤DNA新抗原的軟件。目前,計(jì)算預(yù)測能夠在患者中引發(fā)有效抗腫瘤反應(yīng)的新抗原仍然是一個偶然事件。從患者的ctDNA進(jìn)行同樣的預(yù)測甚至更具挑戰(zhàn)性。新抗原預(yù)測研究將是學(xué)術(shù)界和工業(yè)界的熱門話題,其進(jìn)展和結(jié)果將在未來討論。
end~