好吊视频一区二区三巨,国产精品呻吟久久

Bioinformatics Analysis for Cell-Free Tumor DNA Sequencing Data

摘要

ctDNA (cell-free tumor DNA)是液體活檢的主要生物標(biāo)志物，可從血液、尿液或其他循環(huán)液體中提取，能夠提供全面的腫瘤遺傳信息，較組織活檢更好地克服腫瘤異質(zhì)性問題。下一代測序技術(shù)是近年來發(fā)展起來的一種廣泛應(yīng)用于ctDNA分析的技術(shù)。盡管處理ctDNA樣本的技術(shù)已經(jīng)成熟，但從噪聲測序數(shù)據(jù)中檢測低突變等位基因頻率(MAF)變化的任務(wù)仍然具有挑戰(zhàn)性。在本章中，作者將首先解釋ctDNA測序數(shù)據(jù)分析的難點(diǎn)，回顧相關(guān)技術(shù)，然后提出一些新的生物信息學(xué)方法，以更好地分析ctDNA NGS數(shù)據(jù)。

Key words Liquid biopsy, Circulating tumor DNA, ctDNA, Gene fusion, CNV, Mutation visualization, OpenGene

介紹

ctDNA及其應(yīng)用

ctDNA如何測序

image

ctDNA NGS數(shù)據(jù)分析的難點(diǎn)

無細(xì)胞游離腫瘤DNA只是cfDNA的一小部分，特別是對于早期癌癥患者的樣本。這一事實(shí)使檢測腫瘤特異性突變變得困難。此外，PCR和測序錯誤、DNA氧化損傷和軟件引入的偽象會產(chǎn)生高水平的噪聲，并引入許多假陽性突變。

腫瘤特異性DNA的含量可以從低于0.01%到超過90%不等。ctDNA豐度的可變性與腫瘤負(fù)荷、分期、血管密度、細(xì)胞周轉(zhuǎn)和對治療的反應(yīng)有關(guān)。理論上，任何部分的DNA改變都可以通過足夠數(shù)量的分子深度測序檢測到。然而，在異質(zhì)混合物聚合酶鏈反應(yīng)中，擴(kuò)增偏置會導(dǎo)致群體傾斜，聚合酶錯誤會導(dǎo)致錯誤的堿基合并和重排。此外，在測序過程中產(chǎn)生的錯誤可能導(dǎo)致約0.1-1%的錯誤堿基調(diào)用[6]，這稱為測序錯誤。表1顯示了不同主要NGS平臺的錯誤率。

image

文庫準(zhǔn)備也可能引入重大錯誤。例如，鳥嘌呤氧化是人工突變的一個重要來源，因?yàn)?-oxoG傾向于與腺嘌呤配對，而不是胞嘧啶。長時間的熱培養(yǎng)，這在許多DNA提取和混合捕獲協(xié)議中是常見的，可以顯著增加G-->T替換。最近一項(xiàng)研究表明，DNA修復(fù)過程可以分別消除77%和82%的G-->T和C-->A錯誤。這項(xiàng)研究表明，DNA損傷會導(dǎo)致大量的錯誤。

除了樣品制備和測序過程中引入的誤差，軟件和分析工具也會引入誤差。特別是在同源序列和重復(fù)序列的參考基因組區(qū)域可以稱為假陽性變異。

細(xì)胞游離DNA片段通常很短，在167 bp附近有一個緊湊的峰值。這一事實(shí)增加了兩個不同的原始cfDNA片段共享相同序列的可能性，因此增加了刪除這些重復(fù)的難度，因?yàn)橹貜?fù)數(shù)據(jù)刪除算法將無法區(qū)分這些由放大引起的相同和重復(fù)讀取。

總之，從嘈雜的ctDNA測序數(shù)據(jù)中檢測低頻突變具有挑戰(zhàn)性。傳統(tǒng)的工具不能很好地處理ctDNA分析任務(wù)，因此需要更專門的工具。

ctDNA測序數(shù)據(jù)分析管道

為了分析ctDNA測序數(shù)據(jù)，需要使用一系列的軟件工具。例如，來自Illumina測序儀的原始測序數(shù)據(jù)以基調(diào)用(BCL)格式獲得。這個BCL文件需要根據(jù)樣本條形碼進(jìn)行解復(fù)用以分離FASTQ文件。然后用質(zhì)量控制工具測量FASTQ文件，以確保它們滿足質(zhì)量要求，并過濾掉低質(zhì)量和錯誤表示的讀取。接下來，過濾后的FASTQ文件將使用對齊器與參考基因組進(jìn)行對齊，輸出應(yīng)該是SAM/BAM文件。然后需要對BAM文件進(jìn)行排序并刪除重復(fù)項(xiàng)。然后，變量調(diào)用者需要處理BAM文件，并生成帶有原始變量記錄的VCF。接下來，這個VCF文件應(yīng)該用dbSNP和COSMIC這樣的數(shù)據(jù)庫進(jìn)行注釋?；€技術(shù)將被應(yīng)用于標(biāo)記一些假陽性突變，然后支持每個突變的唯一讀數(shù)將被計(jì)數(shù)，從而形成一個完整的VCF。然后，這個VCF文件將被過濾，生成一個干凈的文件，并使用交互式分析工具進(jìn)行可視化。最后對目標(biāo)突變進(jìn)行解釋和報(bào)告。這些工具可以被安排成一個管道。圖3展示了作者經(jīng)常使用的ctDNA測序數(shù)據(jù)分析管道。

image

對于Illumina平臺，使用bcl2fastq工具將BCL格式文件轉(zhuǎn)換為FASTQ文件。Illumina平臺通過對不同的樣本使用不同的條形碼來支持multiplexing，因此在轉(zhuǎn)換的同時也進(jìn)行了de-multiplexing。

一些附加的工具可以對FASTQ文件執(zhí)行質(zhì)量控制和數(shù)據(jù)過濾，例如FastQC和Trimmomatic。作者建議使用AfterQC，它是高度優(yōu)化的ctDNA測序數(shù)據(jù)處理。AfterQC將在下一節(jié)中介紹。

許多校準(zhǔn)器可以用于將DNA測序reads映射到參考基因組，如bowtie2和BWA。根據(jù)我們的實(shí)踐，BWA在對齊質(zhì)量和速度方面都有較好的性能。BWA是一個軟件包，用于根據(jù)大型參考基因組繪制低發(fā)散序列。該算法由BWA-backtrack、BWA-SW和BWA-MEM三種算法組成。BWA-MEM通常推薦用于高質(zhì)量的查詢，因?yàn)樗?、更?zhǔn)確。但要注意，BWA和任何其他對齊器仍然可能引入不對中，特別是在有重復(fù)或同源序列的參考基因組區(qū)域。

對齊過程將生成一個SAM文件，其中包含可以立即轉(zhuǎn)換為BAM的對齊信息，BAM是SAM的二進(jìn)制標(biāo)識。這個BAM文件通常是無序的，應(yīng)該對其進(jìn)行排序并建立索引。最常用的BAM文件排序和索引工具是Samtools，還有其他一些工具可以更快地對BAM進(jìn)行排序。例如，Sambamba是一個使用SAM/BAM數(shù)據(jù)的高性能工具。Sambamba是用D語言編寫的，其源代碼可在以下網(wǎng)站獲得: https://github.com/lomereiter/sambamba。

在BAM文件被排序和索引之后，一個可選的過程是應(yīng)用重新排列來改進(jìn)插入和刪除(INDELs)的檢測。一些工具，如ABRA[16]可以執(zhí)行基于程序集的重新排列以輸出更干凈的indel，但這些工具通常很慢。現(xiàn)在可以應(yīng)用BAM文件的質(zhì)量控制來評估數(shù)據(jù)的對齊質(zhì)量并檢測不必要的偏差。這個過程可以用Qualimap這樣的工具來完成。

后續(xù)處理就是重復(fù)數(shù)據(jù)刪除。Samtools rmdup和Picard markduplicate (http://picard.sourceforge.net))通常用于根據(jù)讀的映射坐標(biāo)和質(zhì)量分?jǐn)?shù)識別和分解讀重復(fù)。由于cfDNA片段較短，長度分布緊接近167 bp，不同原始DNA片段的許多reads可能共享相同的映射坐標(biāo)，不應(yīng)視為重復(fù)。因此，我們不建議使用Samtools rmdup或Picard markduplates進(jìn)行重復(fù)數(shù)據(jù)刪除，我們將在下一節(jié)中討論新的方法和策略。

變異調(diào)用是BAM操作(排序、重新排列、去重)之后的關(guān)鍵過程。眾所周知，癌癥基因組具有廣泛的突變，包括單核苷酸變異(SNVs)、多核苷酸變異(MNVs)、小插入和刪除(INDELs)以及復(fù)雜變異(如拷貝數(shù)變異(CNVs)和基因融合)。許多不同的調(diào)用者，如GATK HaplotypeCaller， FreeBayes (https://github.com/ekg/FreeBayes)， MuTect2和VarScan2，可以用來調(diào)用SNV, MNV和小型INDELs。根據(jù)我們的經(jīng)驗(yàn)，GATK HaplotypeCaller和FreeBayes并不擅長從超深測序數(shù)據(jù)中調(diào)用ctDNA的低頻體細(xì)胞突變，因?yàn)樗鼈冏畛跏窃O(shè)計(jì)用于基因分型和發(fā)現(xiàn)遺傳多態(tài)性的。MuTect2在調(diào)用體細(xì)胞突變方面要好得多，特別是在腫瘤-正常配對數(shù)據(jù)時。然而，它僅能很好地處理組織測序數(shù)據(jù)，但對檢測ctDNA測序數(shù)據(jù)中的低頻突變不夠敏感。VarScan2在檢測低頻突變方面非常敏感，但可能報(bào)告大量假陽性突變。因此，我們無法找到一個完美的變異調(diào)用器來檢測ctDNA測序等超深NGS數(shù)據(jù)中的低頻突變。目前我們建議使用VarScan2，結(jié)合嚴(yán)格的變量過濾。請注意，一些可變調(diào)用程序，如GATK HaplotypeCaller，不能很好地隨深度擴(kuò)展，通常是下采樣(隨機(jī)刪除數(shù)據(jù)的部分)來提高計(jì)算性能。然而，下采樣會顯著降低檢測低等位基因頻率突變的敏感性，不建議用于ctDNA測序數(shù)據(jù)分析。

變量調(diào)用過程完成后，得到原始VCF文件。該VCF文件可以使用ANNOVAR等注釋工具進(jìn)行注釋，獲取編碼序列和蛋白質(zhì)變化，并與dbSNP、ClinVar、COSMIC等數(shù)據(jù)庫進(jìn)行比較。

突變基線將用于注釋每個變體，說明該變體在過去的數(shù)據(jù)中被記錄了多少次。該信息可用于過濾由軟件工件和其他常規(guī)系統(tǒng)錯誤引起的假陽性突變。基線技術(shù)將在下一節(jié)中介紹。

為了更準(zhǔn)確地計(jì)算每個突變的支持讀數(shù)，我們可以將具有相同映射坐標(biāo)的讀視為一個唯一的讀。一個名為MrBam (https://github.com/OpenGene/MrBam)的工具用于計(jì)算每個突變的惟一引用支持和惟一替代支持。

在完成唯一讀取計(jì)數(shù)之后，我們獲得一個完整的VCF文件。這個VCF文件中的記錄可以添加到突變基線中。這個VCF文件可以根據(jù)不同的條件進(jìn)行過濾，以盡可能多地去除假陽性突變。在篩選過程中，通常使用由重要臨床靶點(diǎn)(即癌癥可藥物突變靶點(diǎn))組成的白名單，以避免重要靶點(diǎn)突變被意外過濾掉。

另一方面，可以使用像MutScan (https://github.com/OpenGene/MutScan))這樣的工具可視化被調(diào)用的變體，以生成用于交互分析的突變可視化。對癌癥診斷和治療很重要的突變將被人工解釋。

除了snv和INDELs，另外兩種重要的癌癥診斷變異是基因融合和拷貝數(shù)變異(CNV)。這些工具中的大多數(shù)只能使用已排序的BAM文件。例如，DELLY和Factera可用于檢測基因融合，CNVkit (https://github.com/etal/CNVkit) 可用于檢測靶向DNA測序中的基因擴(kuò)增。一個例外是，作者開發(fā)的工具FusionDirect可以直接使用FASTQ文件來檢測目標(biāo)融合。

作者創(chuàng)建了一個開源項(xiàng)目來演示這個管道，該項(xiàng)目可在GitHub (https://github.com/OpenGene/ctdna-pipeline)上獲得。通過研究它，讀者可以了解如何安裝工具，準(zhǔn)備所需的數(shù)據(jù)庫和參考數(shù)據(jù)，并使用FASTQ文件嘗試管道進(jìn)行測試。

在上面介紹的管道中，超過一半的工具是常用的軟件(例如，BWA、Samtools和VarScan2)，而其余的工具是由作者開發(fā)的(例如，MutScan、AfterQC和MrBam)。這些新開發(fā)的工具是高度優(yōu)化的ctDNA測序數(shù)據(jù)分析。這些工具中的大多數(shù)都是GitHub組織OpenGene (https://github.com/OpenGene))下的開源項(xiàng)目。我們將在下一節(jié)中介紹其中一些。

新方法

由于腫瘤特異性DNA只是cfDNA的一小部分，ctDNA中體細(xì)胞突變的突變等位基因頻率(MAF)通常很低。為了檢測具有如此低MAF的突變，我們應(yīng)該應(yīng)用目標(biāo)捕獲和超深測序(例如，10000×或更深)。然而，這種超深測序中的測序錯誤和實(shí)驗(yàn)錯誤（即PCR錯誤）可能會導(dǎo)致高水平的背景噪聲，并且很難從ctDNA NGS數(shù)據(jù)中檢測到高靈敏度和特異性的突變。此外，基因融合的檢測也很困難，因?yàn)閏fDNA片段通常很短，而腫瘤特異性DNA片段太少。由于腫瘤細(xì)胞中拷貝數(shù)的變化只會導(dǎo)致cfDNA的拷貝數(shù)總數(shù)的微小差異，因此檢測拷貝數(shù)變異(CNV)比檢測融合更加具有挑戰(zhàn)性。

在本節(jié)中，我們將介紹一些新方法來部分解決上面列出的問題。其中一些是由作者開發(fā)的，并已在我們的常規(guī)管道中使用。

更好的數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是為下游分析獲取更清晰數(shù)據(jù)的重要步驟。對于NGS原始數(shù)據(jù)（FASTQ格式），有必要丟棄低質(zhì)量讀取、去除接頭并應(yīng)用其他過濾器。此外，還需要質(zhì)量控制（QC）方法來確保數(shù)據(jù)符合質(zhì)量要求。

一些好的工具可以執(zhí)行質(zhì)量控制，例如具有每堿基和每序列質(zhì)量分析功能的FastQC和具有FASTA/FASTQ統(tǒng)計(jì)功能的PRINSEQ，而其他一些工具可以執(zhí)行讀取修剪，例如Trimmomatic和SolexaQA。由于數(shù)據(jù)過濾的方式取決于QC結(jié)果，并且過濾的數(shù)據(jù)也需要后過濾QC，因此仍然需要一個具有豐富QC和過濾功能的工具。

由于cfDNA片段通常較短（~167 bp），2×150對端序列將導(dǎo)致讀對重疊?；谶@個事實(shí)，我們可以對配對末端測序數(shù)據(jù)進(jìn)行重疊分析。當(dāng)DNA模板長度小于測序長度的兩倍時，這對讀取將重疊。請注意，重疊區(qū)域中的每個堿基實(shí)際上被測序了兩次，因此這些堿基對的不一致可能反映了測序錯誤。

AfterQC是作者開發(fā)的一種工具，用于解決許多實(shí)際測序數(shù)據(jù)質(zhì)量控制和過濾問題。除了常規(guī)的質(zhì)量控制功能，如每個循環(huán)的堿基數(shù)和質(zhì)量統(tǒng)計(jì)，AfterQC還提供了許多新功能，如自動修剪和重疊分析。例如，我們發(fā)現(xiàn)一些測序器（如Illumina NextSeq系列）可能會輸出大量具有高質(zhì)量分?jǐn)?shù)的polyX讀取。

AfterQC可以使用其polyX過濾器去除它們，而普通質(zhì)量的過濾器不能。我們還發(fā)現(xiàn)，如果擴(kuò)增或測序過程存在嚴(yán)重的鏈偏差，序列讀取將顯示K-MER計(jì)數(shù)偏差（即ATCGATCG及其反向補(bǔ)體CGATCGAT的計(jì)數(shù)顯著不同）?；谶@一發(fā)現(xiàn)，AfterQC提供了基于K-MER計(jì)數(shù)的鏈偏差分析。該工具的另一個主要貢獻(xiàn)是對成對末端測序數(shù)據(jù)進(jìn)行重疊分析，可用于分析測序錯誤率，并將其用于錯誤基礎(chǔ)校正或消除。對于單個或一對FASTQ文件的每個輸入，AfterQC輸出一個HTML報(bào)告，其中包含質(zhì)量控制和數(shù)據(jù)篩選摘要，以及一個交互式圖形列表。表2 顯示了AfterQC和其他NGS質(zhì)量控制或過濾工具的特性比較。

image

AfterQC旨在批量處理FASTQ文件。它通過一個文件夾，其中包含所有FASTQ文件（可以是單端或成對端輸出），這些文件通常是不同樣本的測序運(yùn)行數(shù)據(jù)，并將每個FASTQ或成對文件傳遞到QC和過濾管道。首先，AfterQC將運(yùn)行bubble檢測，以查找測序過程中出現(xiàn)的bubble；其次，將進(jìn)行預(yù)過濾QC，以使用每個周期的基本內(nèi)容和質(zhì)量曲線對數(shù)據(jù)進(jìn)行剖面分析；第三，AfterQC將根據(jù)數(shù)據(jù)質(zhì)量評測執(zhí)行自動讀取修剪；第四，每次讀取都將通過氣泡過濾器、polyX過濾器、質(zhì)量過濾器和重疊分析過濾器進(jìn)行過濾，未通過這些過濾器的將被視為錯誤讀取而丟棄；第五，基于重疊分析的誤差校正將應(yīng)用于配對末端測序數(shù)據(jù)；最后，AfterQC將存儲正確的讀取，執(zhí)行過濾后QC分析，并生成HTML報(bào)告。

（AfterQC檢測bubble的原理是什么？）

AfterQC可以處理FASTQ數(shù)據(jù)的自動修剪。有兩種修剪策略，本地策略和全局策略。有些工具，如Trimmomatic，應(yīng)用本地策略，逐reads進(jìn)行裁剪。然而，局部修剪策略有一些缺點(diǎn)。第一個缺點(diǎn)是局部修剪僅使用質(zhì)量信息進(jìn)行修剪，而不能利用全局統(tǒng)計(jì)信息來發(fā)現(xiàn)異常cycle。第二個缺點(diǎn)是局部修剪會導(dǎo)致未對齊的修剪，這意味著重復(fù)讀取可能會被不同地修剪，從而導(dǎo)致某些重復(fù)數(shù)據(jù)消除工具（如Picard）失敗。大多數(shù)重復(fù)數(shù)據(jù)消除工具僅通過對具有相同映射位置的讀取進(jìn)行群集來檢測重復(fù)數(shù)據(jù)。相反，AfterQC執(zhí)行全局修整策略，即以相同的方式修整所有讀取。使用一種算法來確定要在前部和尾部修剪多少個循環(huán)，該算法基于每個循環(huán)基本內(nèi)容曲線和基本質(zhì)量曲線的分段。

AfterQC的一個主要優(yōu)點(diǎn)是重疊分析。讓T表示測序DNA模板的長度，S表示成對雙端測序長度的長度，那么如果T≤S、重疊長度將是2S-T、如果S<T<2S，則不會重疊，如果2S≤T、 AfterQC根據(jù)編輯距離優(yōu)化檢查每對讀取如何重疊。對于一對讀取R1和R2，讓O作為偏移量，我們將R2放在R1下，然后我們將有垂直對齊的子序列R1o和R2o，我們可以計(jì)算它們的編輯距離ed.（R1o，R2o）。該方法優(yōu)化偏移量O以獲得最小編輯距離，ed（R1o-1，R2o-1）>ed（R1o，R2o）<ed（R1o+1，R2o+1）。圖4顯示了AfterQC的重疊分析如何工作的示例。

image

基于重疊分析，AfterQC可以檢測不匹配。如果不匹配對的質(zhì)量分?jǐn)?shù)不平衡，這意味著一個基數(shù)具有高質(zhì)量分?jǐn)?shù)（即>Q30），而另一個基數(shù)的質(zhì)量分?jǐn)?shù)非常低（即<Q15），AfterQC可以自動更正低質(zhì)量基數(shù)。如果質(zhì)量分?jǐn)?shù)不平衡，AfterQC可以通過將基數(shù)更改為N或?yàn)槠浞峙淞阗|(zhì)量分?jǐn)?shù)來掩蓋它們?；诓黄ヅ?，AfterQC可以評估測序錯誤率并分析測序錯誤轉(zhuǎn)換分布（即，有多少堿基是T，但測序?yàn)镃）。

重疊分析可用于自動適配器切割。在重疊分析過程中，我們得到了每對最佳局部對齊的最佳偏移量O。該對的重疊長度可以使用偏移量O直接計(jì)算。如果O為負(fù)值，重疊區(qū)域外的堿基將被視為適配器序列的一部分，然后自動切割。

AfterQC是一個開源工具：https://github.com/OpenGene/AfterQC。它是用Python和C++實(shí)現(xiàn)的，啟用了PyPy支持。AfterQC為每個輸入生成一個獨(dú)立的HTML報(bào)告，圖按Plotly繪制。示例報(bào)告可在以下網(wǎng)址找到：http://opengene.org/AfterQC/report.html.

分子條形碼測序及其數(shù)據(jù)分析

PCR和測序方法引入的系統(tǒng)性錯誤阻礙了ctDNA NGS深度測序的潛力。分子索引與深度測序相結(jié)合有望打破PCR和測序錯誤的限制，并能夠檢測罕見和極罕見的突變。

自2007年以來，人們提出并報(bào)告了用分子條形碼標(biāo)記單個模板。分子條形碼或分子索引有多種名稱，如唯一標(biāo)識符（UID）、唯一分子標(biāo)識符（UMI）、引物ID、雙鏈條形碼等。它們通常設(shè)計(jì)為一串完全隨機(jī)的核苷酸（如NNNNNNNN）、部分退化的核苷酸（例如NNNRNYNN）或定義的核苷酸（當(dāng)模板分子有限時）。UID或UMI可以通過連接或通過PCR或逆轉(zhuǎn)錄過程中的引物引入靶模板。

用UID或雙鏈條形碼標(biāo)記DNA片段已被證明可以減少錯誤并提高測序準(zhǔn)確性，因?yàn)楦鶕?jù)共享相同UID的一致讀取結(jié)果，可以將真正的突變與PCR錯誤或測序錯誤區(qū)分開來。目前，經(jīng)典的基于標(biāo)簽的方法有SafeSeq、CircleSeq和duplex測序。SafeSeq是一種基于“條形碼”的單鏈標(biāo)記方法?；诩羟悬c(diǎn)的單鏈標(biāo)簽的替代方法是circle sequencing，該方法利用Phi29 DNA聚合酶的鏈置換活性，在擴(kuò)增前串聯(lián)產(chǎn)生多個循環(huán)DNA分子副本。然而，這兩種方法都無法區(qū)分真變異體和在最初幾輪PCR擴(kuò)增過程中引入的人工變異體。相比之下，雙鏈測序通過標(biāo)記dsDNA的兩條鏈來解決這些類型的錯誤，利用DNA作為雙鏈實(shí)體自然存在的事實(shí)，一個分子相互編碼其補(bǔ)體的序列信息。表3比較了SafeSeq、CircleSeq和雙工測序的聲稱錯誤率。

image

分子條形碼測序數(shù)據(jù)的分析可分為三個步驟。

第一步是提取UID。需要注意的是，連接到原始DNA模板上的條形碼通常是由DNA合成技術(shù)制成的，通常錯誤率很高。例如，如果設(shè)計(jì)了8-nt條碼，由于合成錯誤，我們?nèi)匀挥袡C(jī)會獲得7-nt或9-bt條碼。為了解決這個問題，通常使用由幾個堿基（通常是三到五個堿基）組成的固定序列來表示UID和原始DNA序列的邊界。分割算法應(yīng)在設(shè)計(jì)位置附近尋找該標(biāo)志，通常算法應(yīng)允許一個堿基錯配，以實(shí)現(xiàn)DNA合成或測序容錯。通過使用特殊適配器，一些分子條形碼方法將UID放置在多路復(fù)用索引位置（Illumina TrueSeq的I7或I5索引）。在這種情況下，UID提取要容易得多，因?yàn)樗梢灾苯訌臉颖舅饕刑崛?。這個過程是用FASTQ數(shù)據(jù)完成的。

第二步是對來自相同原始DNA的讀取進(jìn)行聚類。這些讀取應(yīng)該共享非常相似的UID和映射協(xié)調(diào)。但由于PCR和測序錯誤的存在，它們不需要完全相同。通?？梢匀萑桃粋€基替換不匹配，松散的聚類方法可以允許INDEL或多個替換不匹配。此過程通常使用排序的BAM文件完成，但也可以使用基于序列聚類算法的FASTQ文件完成。

最后一步是為每個讀取集群生成一致讀取。首先，同一集群中的讀取應(yīng)該對齊在一起。這一過程可以通過像Clustal這樣的多序列比對工具來完成。完整的多序列比對通常很耗時，如果我們限制不匹配替換和INDEL的數(shù)量，一些簡單的方法可以運(yùn)行得更快。校準(zhǔn)完成后，可以通過從前到后掃描來生成一致性讀數(shù)。對于每個職位，該職位中的所有基地將根據(jù)其質(zhì)量分?jǐn)?shù)投票給共識基地。對于基礎(chǔ)完全相同的職位，該共識基礎(chǔ)的質(zhì)量分?jǐn)?shù)可以調(diào)高一點(diǎn)，反之亦然，對于沒有共識的職位，結(jié)果基礎(chǔ)的質(zhì)量得分可以調(diào)低一點(diǎn)。如果只有兩個讀取被聚集，如果相同位置的兩個基數(shù)不同，但都有高質(zhì)量分?jǐn)?shù)，則可以用N或零質(zhì)量分?jǐn)?shù)掩蓋此位置。

baseline methods

NGS數(shù)據(jù)有不同類型的錯誤。有些錯誤，如測序錯誤和PCR錯誤，是隨機(jī)的，可以發(fā)生在任何基因組位置的任何核苷酸上，盡管有一些偏差。有些錯誤更為常見，比如由基因組高度重復(fù)區(qū)域的錯位引起的錯誤。這些常規(guī)錯誤可以通過基線技術(shù)消除。

基線技術(shù)是從盡可能多的樣本中組合和存儲所有相關(guān)檢測到的突變和其他相關(guān)信息，然后對這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，并為查詢和更新提供接口?；€數(shù)據(jù)通常存儲在數(shù)據(jù)庫中，因此可以使用標(biāo)準(zhǔn)SQL語言進(jìn)行插入、更新、刪除和查詢。可以使用兩種不同類型的數(shù)據(jù)庫：面向行的數(shù)據(jù)庫和面向列的數(shù)據(jù)庫。面向行的數(shù)據(jù)庫是關(guān)系數(shù)據(jù)庫的主流形式，如MySQL和PostgreSQL，而面向列的數(shù)據(jù)庫則鮮為人知，如Infobright和MonetDB。面向行的數(shù)據(jù)庫可以支持在線事務(wù)處理（OLTP），并針對關(guān)系查詢進(jìn)行了高度優(yōu)化，而面向列的數(shù)據(jù)庫可以提供更高的數(shù)據(jù)壓縮率。

基線應(yīng)該存儲每個突變及其染色體、位置、參考和替代堿基，以及突變讀取數(shù)和總深度。利用這個基線，我們可以計(jì)算檢測到多少次具有特定變化的特定位置的突變，其平均MAF是多少，以及突變的讀取數(shù)是多少。

由于在許多不同類型的癌癥中可以檢測到一些突變，一個更好的解決方案是用健康人的數(shù)據(jù)序列建立一個特定的基線。然后，該基線可用于篩選假陽性突變。當(dāng)一個變異被調(diào)用時，它的基線重復(fù)數(shù)將被評估。若基線重復(fù)數(shù)太高，則該突變可被視為假陽性，需要仔細(xì)評估。

基線的另一個用途是檢測熱點(diǎn)突變，包括體細(xì)胞突變和種系突變。通過從與腫瘤個體建立的基線中挖掘熱點(diǎn)突變，我們可以找到有潛力成為生物標(biāo)記物的目標(biāo)突變。

直接掃描FASTQ數(shù)據(jù)的目標(biāo)變異檢測

NGS數(shù)據(jù)的常規(guī)突變檢測管道通常涉及多個工具的不同步驟。由于應(yīng)用了不同的過濾器，這些工具可能會導(dǎo)致信息丟失，并可能最終導(dǎo)致漏檢真突變，尤其是MAF低的突變。這種由數(shù)據(jù)分析引起的假陰性在臨床應(yīng)用中是不可接受的，因?yàn)樗鼤够颊咤e過更好的治療機(jī)會。

相反，也應(yīng)避免這些關(guān)鍵突變的假陽性檢測，因?yàn)樗赡軐?dǎo)致昂貴但無效的治療，甚至可能導(dǎo)致嚴(yán)重的不良反應(yīng)。常規(guī)的NGS管道可以檢測到大量替換和INDEL，并不可避免地產(chǎn)生誤報(bào)。特別是，由于比對物的參考基因組定位不準(zhǔn)確，在基因組的高重復(fù)區(qū)域中調(diào)用的INDEL中有很大一部分是假陽性。

作者開發(fā)了一些工具，可以通過掃描原始FASTQ數(shù)據(jù)檢測目標(biāo)突變，而無需進(jìn)行任何校準(zhǔn)和變量調(diào)用。一個工具是MutScan，它基于容錯字符串搜索算法，并通過滾動哈希和bloom過濾器對速度進(jìn)行了高度優(yōu)化。MutScan可以在無參考模式下運(yùn)行，以檢測程序中預(yù)定義的目標(biāo)突變。通過提供VCF文件及其相應(yīng)的參考FastA文件，MutScan可以掃描VCF中的所有變體，并通過為每個變體創(chuàng)建HTML文件來可視化它們。

MutScan超靈敏、超快速。它可以在只支持一個變異讀取的情況下捕獲變異。它能跑50×，如果只掃描預(yù)定義的癌癥藥物靶點(diǎn)，則比常規(guī)管道（AfterQC+BWA+Samtools+VarScan2）更快。此外，MutScan生成的交互式HTML報(bào)告有助于可視化和驗(yàn)證目標(biāo)突變。圖5顯示了MutScan的交互式突變連鎖反應(yīng)。

image

MutScan位于：https://github.com/OpenGene/MutScan。它是用C++編寫的，支持多線程。它支持單端和配對端數(shù)據(jù)，對于后者，它將嘗試通過質(zhì)量調(diào)整和糾錯來合并每對數(shù)據(jù)。

作者開發(fā)的另一個工具是FusionDirect，它可以直接從原始FASTQ數(shù)據(jù)中檢測基因融合。此工具還可以直接處理FASTQ文件，不需要對齊。它可以輸出融合位點(diǎn)（基因和位置），以及支持融合的讀數(shù)。圖6給出了FusionDirect的輸出示例。

image

FusionDirect需要一個包含四列（染色體、起始位置、結(jié)束位置、基因名稱）的BED文件。如果未提供此文件，F(xiàn)usionDirect將使用內(nèi)置BED文件，其中包含大多數(shù)具有高度臨床重要性的融合基因。

FusionDirect的網(wǎng)址為：https://github.com/OpenGene/FusionDirect.jl。它是用Julia編寫的，這是一種允許高性能技術(shù)計(jì)算的新語言。FusionDirect基于OpenGene Julia庫構(gòu)建(https://github.com/OpenGene/OpenGene.jl），提供常規(guī)NGS相關(guān)文件格式（即FASTQ/FastA/VCF）的基本序列和變量表示以及I/O功能。

去重和唯一支持讀取計(jì)數(shù)

在確定被調(diào)用變量的可信度時，最重要的證據(jù)是其支持讀取的數(shù)量和質(zhì)量。為了計(jì)算支持讀取的數(shù)量，我們需要識別并折疊重復(fù)的讀取。

有一些工具可以消除PCR重復(fù)。Picard MarkDuplicates比較SAM/BAM文件中讀取和讀取對的五個主要位置中的序列。標(biāo)記重復(fù)讀取后，此工具使用一種算法來區(qū)分主要讀取和重復(fù)讀取，該算法通過讀取的基本質(zhì)量分?jǐn)?shù)的總和對讀取進(jìn)行排序。然而，當(dāng)該工具與某些野生型讀取共享映射協(xié)調(diào)時，可能會導(dǎo)致不必要的腫瘤衍生變異讀取的刪除。

CAPP-seq引入了另一種方法。它會折疊那些具有完全相同序列的讀取，但具有超低質(zhì)量分?jǐn)?shù)的讀取除外。與Picard MarkDuplicates相比，此方法刪除的讀取更少，因此損失更少。然而，它通常受到排序錯誤的影響，因此處理的數(shù)據(jù)的重復(fù)級別仍然很高。

上面介紹的分子條形碼測序是一種新的方法，似乎可以有效地消除PCR重復(fù)。由于UID連接是在任何擴(kuò)增發(fā)生之前進(jìn)行的，因此來自相同原始DNA的讀取將共享相同的UID?；赨ID和讀取序列的聚類，可以檢測到PCR重復(fù)，一致讀取生成過程將刪除重復(fù)的讀取。表4比較了現(xiàn)有的重復(fù)數(shù)據(jù)消除工具。

image

上述方法在調(diào)用變體之前檢測重復(fù)。另一種策略是在變量調(diào)用完成后檢測重復(fù)，它將具有相同映射位置（開始和結(jié)束）的讀取折疊為唯一讀取，并為每個變異提供支持引用和替代基的讀取數(shù)。這種獨(dú)特的讀取計(jì)數(shù)方法可以提供更精確的支持讀取計(jì)算。應(yīng)用此策略后，我們可以應(yīng)用損失較小的重復(fù)數(shù)據(jù)消除方法，如CAPP-seq方法，為變量調(diào)用保留更多信息。如果變量調(diào)用方能夠處理重復(fù)數(shù)據(jù)，我們甚至可以在變量調(diào)用之前跳過重復(fù)數(shù)據(jù)消除。

MrBam是為這種獨(dú)特的讀取計(jì)數(shù)任務(wù)而設(shè)計(jì)的工具。它區(qū)分了共享相同映射協(xié)調(diào)的單個讀取或多個讀取生成的結(jié)果讀取。對于成對末端測序數(shù)據(jù)，它區(qū)分突變位于讀對重疊或非重疊區(qū)域的情況。MrBam將給出以下條件組合的唯一讀取數(shù)：支持引用或替代、由單個或多個讀取聚集，以及位于重疊或非重疊區(qū)域。

MrBam的結(jié)果可用于篩選從ctDNA測序數(shù)據(jù)中調(diào)用的變體。根據(jù)我們的經(jīng)驗(yàn)，要報(bào)告一個突變，我們需要至少兩個支持它的唯一讀取對，每一對應(yīng)該在其重疊區(qū)域中有這個突變，或者是由多個對生成的一致對。由于高比率測序錯誤和ctDNA測序數(shù)據(jù)的極端深度，僅由非重疊區(qū)域的少數(shù)單次讀取支持的突變通常為假陽性。

Cell-Free DNA的甲基化分析

甲基化變化在不同的癌癥類型中很常見，通常發(fā)生在癌癥發(fā)展的早期，通常抑制腫瘤抑制基因的表達(dá)。與突變相比，異常的DNA甲基化可能為血液中的腫瘤DNA提供一個更為一致的、因而廣泛適用的標(biāo)記。

有大量公開信息描述腫瘤組織中的DNA甲基化模式及其對患者預(yù)后的影響。當(dāng)腫瘤DNA流入血流時，這些模式也可在血漿和血清中檢測到。

腫瘤特異性ctDNA甲基化可用于量化腫瘤DNA，提供有關(guān)腫瘤負(fù)擔(dān)水平的信息，并揭示腫瘤中的甲基化模式。基于DNA甲基化的生物標(biāo)記物可以納入患者護(hù)理和管理，但對臨床實(shí)踐的影響很小，例如甲基化ctDNA最近在確定癌癥預(yù)后和在手術(shù)后或化療期間的疾病監(jiān)測中的應(yīng)用。甲基化ctDNA檢測也被開發(fā)出來，以滿足癌癥篩查所需的嚴(yán)格標(biāo)準(zhǔn)。

下一代測序平臺允許以單個堿基分辨率構(gòu)建DNA甲基化的基因組圖。用亞硫酸氫鈉脫氨基處理基因組DNA，使非甲基化胞嘧啶（C）轉(zhuǎn)化為尿嘧啶（U），而甲基化C殘基保持不變。在隨后的聚合酶鏈反應(yīng)（PCR）中，U最終轉(zhuǎn)化為胸腺嘧啶（T）。全基因組亞硫酸氫鹽測序（WGBS）和減少代表性亞硫酸氫酯測序（RRBS）是全基因組甲基化研究的兩種經(jīng)典方法。

WGBS（BS seq；MethylC seq）理論上涵蓋了所有C信息。在這種方法中，基因組DNA被純化并剪切成片段。碎片DNA進(jìn)行端部修復(fù)；腺嘌呤堿基被添加到DNA片段的3' 端（A尾），甲基化適配器被連接到DNA片段。在亞硫酸氫鈉處理和PCR擴(kuò)增之前，對DNA片段進(jìn)行大小選擇，并對產(chǎn)生的文庫進(jìn)行測序。WGBS的主要優(yōu)點(diǎn)是它能夠評估幾乎每個CpG位點(diǎn)的甲基化狀態(tài)，包括低CpG密度區(qū)域，如基因間“基因沙漠”、部分甲基化域和遠(yuǎn)端調(diào)控元件。它還可以確定絕對DNA甲基化水平，并揭示甲基化序列的背景。

RRBS的開發(fā)成本低于WGBS，后者集成了Msp1限制酶消化、亞硫酸氫鹽轉(zhuǎn)化和下一代測序，用于分析特定片段的甲基化模式。研究發(fā)現(xiàn)，40到220 bps之間的MspI消化片段的大小選擇覆蓋了85%的CGI，大部分位于啟動子中，啟動子僅占哺乳動物基因組的1–3%，因此顯著減少了測序數(shù)量?；赗RBS的協(xié)議比WGBS更具成本效益，因?yàn)檫@些方法側(cè)重于富集靠近限制酶識別序列的富含CpG的區(qū)域。然而，這些方案可能在相對較少研究的基因間和遠(yuǎn)端調(diào)控元件方面缺乏覆蓋。

最近，基于靶捕獲的亞硫酸氫鹽測序方法也已經(jīng)開發(fā)出來，一些試劑盒，如NimbleGen SeqCap Epi已經(jīng)商業(yè)化，以提供靶向甲基化分析。由于cfDNA中腫瘤DNA的比例較低，通常需要進(jìn)行超深測序，因此進(jìn)行目標(biāo)捕獲亞硫酸氫鹽測序的能力對于分析ctDNA樣本的甲基化信息非常重要。

ctDNA甲基化分析的主要應(yīng)用之一是檢測早期癌癥。血漿中的循環(huán)甲基化SEPT9 DNA被開發(fā)為結(jié)直腸癌的生物標(biāo)記物，SHP-1啟動子2（SHP1P2）的甲基化被報(bào)道為非小細(xì)胞肺癌（NSCLC）的生物標(biāo)記。這些生物標(biāo)記物通常比蛋白質(zhì)生物標(biāo)記物（即癌胚抗原，CEA）更敏感，有潛力應(yīng)用于癌癥篩查或早期癌癥檢測。

ctDNA甲基化分析的另一個主要應(yīng)用是確定未知原發(fā)癌（CUP）的組織起源。這種應(yīng)用基于這樣一個事實(shí)，即不同的人類組織和細(xì)胞具有不同的DNA甲基化模式。最近，一種鑒定甲基化單倍型區(qū)的方法被開發(fā)出來，用于從血漿DNA進(jìn)行腫瘤組織起源定位。

分析亞硫酸氫鹽測序（BS-seq）數(shù)據(jù)的生物信息學(xué)管道與分析正常測序數(shù)據(jù)不同。分析BS序列數(shù)據(jù)的關(guān)鍵步驟是質(zhì)量控制、繪圖、甲基化評分、差異甲基化評估等。

BS-seq數(shù)據(jù)的QA過程與正常測序數(shù)據(jù)的相同過程，包括質(zhì)量分析、適配器修剪和低質(zhì)量讀取過濾。然而，要注意亞硫酸氫鹽處理會導(dǎo)致T的過度表達(dá)和C的不足表達(dá)，這可能被傳統(tǒng)的QC工具認(rèn)為是有偏見的。因此，傳統(tǒng)的QC工具，如FastQC，不是處理BS序列數(shù)據(jù)質(zhì)量控制的好選擇。BseQC和MethyQA是更好的選擇，因?yàn)樗鼈儗ｉT用于BS序列數(shù)據(jù)。

將BS-seq讀數(shù)映射到參考基因組具有挑戰(zhàn)性，因?yàn)樾蛄信c參考基因組不完全匹配，并且由于亞硫酸氫鹽處理，文庫復(fù)雜性降低。此外，每個給定的T都可能是真正的基因組T或轉(zhuǎn)化的非甲基化C。由于這些原因，傳統(tǒng)的比對工具如BWA和Bowtie不適合將BS序列讀數(shù)映射到參考。一些BS-seq專用對齊器已經(jīng)開發(fā)出來，通常可以分為兩個通配符對齊器和三個字母對齊器。通配符如BSMAP通過將C替換為Y（胞嘧啶或胸腺嘧啶的IUPAC代碼）來操作，而三字母比對符如Bismark在測序讀取和參考中都將C轉(zhuǎn)換為T。

一旦比對完成，就可以計(jì)算胞嘧啶或基因組區(qū)域的甲基化分?jǐn)?shù)，以找到差異甲基化胞嘧啶（DMC）和差異甲基化區(qū)域（DMR）。胞嘧啶甲基化評分是通過聚集重疊讀數(shù)并計(jì)算C或T的比例來計(jì)算的，這稱為β評分。這個過程可以通過Bismark和GBSA等工具實(shí)現(xiàn)。像Methylkit這樣的軟件提供了一種將基因組劃分為小倉的策略，平均β-得分作為bin得分。然后，可以應(yīng)用Fisher精確檢驗(yàn)（FET）等統(tǒng)計(jì)檢驗(yàn)來評估樣本之間DMC/DMR的統(tǒng)計(jì)相關(guān)性。這部分工作也可以用Methylkit完成，這是一個用于分析DNA甲基化的全面R包(https://code.google.com/p/methylkit).)。

最近發(fā)表了一些新的BS-seq數(shù)據(jù)甲基化分析方法。例如，Gao等人提出了一種搜索具有高度協(xié)調(diào)甲基化的基因組區(qū)域的方法。這種方法基于緊密耦合的CpG位點(diǎn)塊，稱為甲基化單倍型塊（MHB）。然后可以在塊水平（MHL）上進(jìn)行甲基化分析，基于MHL分析的結(jié)果比基于分析單個CpG位點(diǎn)的結(jié)果要好得多，這意味著該方法可以用于鑒定來源組織。

亞硫酸氫鹽測序作為分析DNA甲基化的黃金方法，已被研究多年，并開發(fā)了許多方法和工具。由于迫切需要建立用于癌癥篩查和組織起源鑒定的甲基化分析，BS-seq數(shù)據(jù)分析將引起研究人員的更多關(guān)注。我們不能在本章中討論BS seq的所有方面。可以在OMIC在線工具中找到BS seq數(shù)據(jù)分析工具和管道的集合(https://omictools.com/bsseq-category.)). （此鏈接無法訪問）

機(jī)器學(xué)習(xí)方法

機(jī)器學(xué)習(xí)（ML）技術(shù)在許多領(lǐng)域中創(chuàng)建數(shù)據(jù)模型非常流行，它也可以應(yīng)用于ctDNA數(shù)據(jù)分析。最適用的方法是監(jiān)督學(xué)習(xí)方法，它基于標(biāo)記數(shù)據(jù)的訓(xùn)練來構(gòu)建分類器。在本小節(jié)中，我們將展示如何使用ML技術(shù)構(gòu)建帶有ctDNA測序數(shù)據(jù)的分類器。

一個ML應(yīng)用是對cfDNA數(shù)據(jù)和非cfDNA數(shù)據(jù)進(jìn)行分類。CfDNA具有一定的片段模式，可以帶來測序數(shù)據(jù)開始周期的非隨機(jī)堿基含量曲線。Chandrananda等人于2014年首次報(bào)道了cfDNA片段模式，其一個核苷酸分辨率。他們在cfDNA片段的兩側(cè)發(fā)現(xiàn)了一些高頻率的10個核苷酸基序，而在切割位點(diǎn)的cfDNA的前兩個堿基可以決定其他八個堿基中的大部分。他在2015年的進(jìn)一步研究表明，這些斷裂模式與染色體上的非隨機(jī)生物分裂有關(guān)。DNA切割位點(diǎn)兩側(cè)的十個位置顯示出一致的模式，其中特定核苷酸優(yōu)先于核小體核心和連接區(qū)。圖7顯示了血漿cfDNA測序數(shù)據(jù)的碎片模式。

image

由于cfDNA的這種片段模式是穩(wěn)定和獨(dú)特的，它可以用于區(qū)分cfDNA的數(shù)據(jù)和其他種類的樣品的數(shù)據(jù)。作者開發(fā)了一個名為CfdnaPattern的開源工具，用于訓(xùn)練分類器，如SVM、KNN或隨機(jī)森林，以預(yù)測FASTQ是否從cfDNA中測序。使用0.632 + bootstrapping與3000多個FASTQ文件進(jìn)行交叉驗(yàn)證，結(jié)果平均準(zhǔn)確率為99.8%，使用隨機(jī)森林、線性SVM或KNN分類器獲得。這個工具是用Python編寫的，使用了廣泛使用的Python機(jī)器學(xué)習(xí)包scikit-learn。這個工具可從https://github.com/OpenGene/CfdnaPattern訪問。

另一個ML應(yīng)用是預(yù)測突變是體細(xì)胞還是種系。通常，腫瘤和正常樣本都被測序，正常樣本可以用作參考，以確定腫瘤樣本中稱為種系或體細(xì)胞突變的突變。但在某些情況下，我們可能沒有與腫瘤樣本匹配的正常樣本，然后我們可以應(yīng)用ML方法根據(jù)支持參考文獻(xiàn)和突變的讀數(shù)對突變進(jìn)行分類。

DeepSomatic是提供此類功能的工具。它可以用深度神經(jīng)網(wǎng)絡(luò)對體細(xì)胞和種系突變進(jìn)行分類。如果讀取數(shù)大于256，則提取覆蓋突變的所有讀取并采樣到256個讀取。然后將突變位點(diǎn)周圍的這些讀取堿基編碼為2D圖像，每個像素包含以下通道：讀取堿基及其質(zhì)量分?jǐn)?shù)、參考堿基以及插入或刪除的長度。然后，用五個常規(guī)層構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）。利用腫瘤正常配對數(shù)據(jù)對模型進(jìn)行訓(xùn)練和驗(yàn)證，然后交叉驗(yàn)證評估表明，該模型的平均準(zhǔn)確率高于99.9%。DeepSomatic也是一個開源工具，可在https://github.com/OpenGene/DeepSomatic訪問。

數(shù)據(jù)模擬

調(diào)整生物信息學(xué)管道和訓(xùn)練軟件參數(shù)需要具有已知地面真相的測序數(shù)據(jù)，而這實(shí)際上很難從真實(shí)測序數(shù)據(jù)中獲得。特別是，對于ctDNA測序應(yīng)用，其目的是從超深度測序數(shù)據(jù)中檢測低頻變異，很難區(qū)分所謂的變異是真陽性還是假陽性，這是由測序或其他過程的錯誤引起的。在這些情況下，具有配置變化的模擬數(shù)據(jù)可用于診斷和驗(yàn)證生物信息學(xué)程序。

盡管已經(jīng)開發(fā)了許多下一代測序模擬器，但大多數(shù)模擬器缺乏模擬一些實(shí)際特征的能力，例如目標(biāo)捕獲測序、拷貝數(shù)變化、基因融合、擴(kuò)增偏差和測序錯誤。作者開發(fā)了SeqMaker，這是一種現(xiàn)代NGS模擬器，能夠模擬不同類型的變化，并集成了放大偏差和測序誤差。目標(biāo)捕獲測序只需使用捕獲面板描述文件即可支持，測序錯誤率、平均重復(fù)水平、DNA模板長度分布和質(zhì)量分布等其他特性可以通過簡單的JSON格式配置文件輕松配置。通過整合測序誤差和擴(kuò)增偏差，SeqMaker能夠模擬更真實(shí)的下一代測序數(shù)據(jù)?？膳渲玫淖凅w和捕獲區(qū)域使SeqMaker非常有助于生成數(shù)據(jù)，以訓(xùn)練生物信息學(xué)管道，用于體細(xì)胞突變調(diào)用等應(yīng)用。表5比較了SeqMaker和其他NGS模擬器的特性。

image

SeqMaker是一種工具，可生成SNV、INDEL、CNV和基因融合的測序讀數(shù)，并集成測序誤差和PCR偏差。該工具使用JSON格式的配置文件來描述測序模擬設(shè)置，使用BED格式的TSV文件來配置捕獲的目標(biāo)區(qū)域。首先，模擬器從整個基因組或面板文件配置的目標(biāo)區(qū)域中提取DNA片段，并在此過程中模擬CNV。其次，根據(jù)配置文件中配置的變異列表，DNA片段將被改變以模擬SNV、INDEL和基因融合。第三，將在每個DNA片段上模擬測序過程以生成NGS讀數(shù)，測序誤差和擴(kuò)增偏差也將在該過程中模擬。最后，生成的讀取被寫入FASTQ文件。

SeqMaker是用Julia編寫的，源代碼可從GitHub獲得：https://github.com/OpenGene/SeqMaker.jl/。目前，它僅支持Illumina平臺。需要更多的努力來構(gòu)建其他平臺的模擬器，尤其是PacBio和Nanopore平臺等新一代測序儀。

討論

作為癌癥領(lǐng)域的一種創(chuàng)新方法，液體活檢在癌癥診斷、監(jiān)測和篩查中具有當(dāng)前或潛在的應(yīng)用。無細(xì)胞腫瘤DNA作為液體活檢的主要成分，已廣泛用于腫瘤患者的個性化藥物指導(dǎo)。對于那些不適合通過手術(shù)或針頭穿刺獲取組織樣本的患者，ctDNA測序?yàn)樗麄冊\斷腫瘤提供了新的機(jī)會。

由于ctDNA應(yīng)該進(jìn)行非常深入的測序，因此通常會考慮到成本，使用小基因板進(jìn)行靶捕獲。然而，小面板有一些缺點(diǎn)。小面板不允許檢測目標(biāo)區(qū)域外的突變，難以檢測大規(guī)?？截悢?shù)變化，并且難以計(jì)算總突變負(fù)擔(dān)（TMB），這通常需要大面板或整個外顯子組測序。隨著測序成本的下降，不難推測整個外顯子組甚至全基因組深度測序?qū)⒆兊秘?fù)擔(dān)得起，并被更廣泛地用于ctDNA測序。然后將獲得非常大的測序數(shù)據(jù)，對這些數(shù)據(jù)的數(shù)據(jù)處理和分析將非常具有挑戰(zhàn)性。

結(jié)論

在本章中，我們介紹了ctDNA的概念和應(yīng)用，解釋了分析ctDNA NGS數(shù)據(jù)的困難，回顧了一些相關(guān)工具，并提出了一些新的方法或工具。人們應(yīng)該認(rèn)識到，cfDNA中的體細(xì)胞突變通常具有非常低的MAF，因?yàn)槟[瘤特異性DNA片段通常是整個cfDNA的一小部分。人們還應(yīng)該意識到，在實(shí)驗(yàn)和測序步驟中可能會發(fā)生錯誤，軟件也可能會引入錯位或假陽性變量調(diào)用等偽影。

未來的工作

盡管我們已經(jīng)討論了用于ctDNA NGS數(shù)據(jù)分析的生物信息學(xué)的許多方面，但仍存在上文未討論的主題。

數(shù)據(jù)壓縮是我們在本章中沒有討論的一個關(guān)鍵主題。由于ctDNA通常需要超深度測序，它通常產(chǎn)生非常大的數(shù)據(jù)。想象一下，如果10000？如果應(yīng)用WES，我們將為單個樣本獲得超過500 Gb的數(shù)據(jù)，從而得到大于1 TB的未壓縮原始文件。存儲或傳輸這樣大的文件將非常具有挑戰(zhàn)性，并且迫切需要提供高壓縮比的方法。從信號處理的角度來看，ctDNA測序數(shù)據(jù)是高度冗余的，因?yàn)樗浅Ｉ?，并且有可能被高比率壓縮。然而，由于三個原因，壓縮此類數(shù)據(jù)仍然不容易：排序錯誤導(dǎo)致的不一致讀取、不同的質(zhì)量分?jǐn)?shù)以及無損壓縮的要求。與通用壓縮器（如gzip和bzip2）相比，當(dāng)前的方法（如DSRC）表現(xiàn)出了更好的性能，但壓縮比的改善仍不令人滿意。一些新型壓縮機(jī)，如gtz(https://github.com/Genetalks/gtz）已經(jīng)開發(fā)出來，但它們?nèi)匀粵]有針對深度測序數(shù)據(jù)進(jìn)行優(yōu)化。我們認(rèn)為，完美的深度測序數(shù)據(jù)壓縮器應(yīng)該實(shí)現(xiàn)局部從頭組裝或應(yīng)用基于參考的策略來實(shí)現(xiàn)更高的壓縮比。

另一個有待討論的話題是CNV檢測。由于腫瘤特異性DNA只是cfDNA的一小部分，腫瘤細(xì)胞中的拷貝數(shù)變化只會導(dǎo)致ctDNA測序數(shù)據(jù)中的微小拷貝數(shù)差異。例如，如果腫瘤特異性DNA占整個cfDNA的1%，并且腫瘤細(xì)胞中的拷貝數(shù)倍數(shù)為5，那么整個cfDNA數(shù)據(jù)中的拷貝數(shù)量將為104%，略高于平均水平。目前的CNV檢測器，如CNVkit，并不是用來處理ctDNA測序數(shù)據(jù)的，也不夠靈敏，無法檢測CNV中的這種細(xì)微變化。更好的CNV檢測器仍有待開發(fā)，這將為深度和目標(biāo)捕獲的ctDNA測序數(shù)據(jù)提供更好的標(biāo)準(zhǔn)化。

最近，一些針對癌癥免疫學(xué)的新方法正在吸引人們。一個主題是預(yù)測癌癥免疫治療的結(jié)果，特別是PD-1/PD-L1檢查點(diǎn)抑制劑。腫瘤突變負(fù)荷（TMB）已被證明與癌癥免疫療法的反應(yīng)有關(guān)。然而，TMB通常使用組織全外顯子組測序數(shù)據(jù)計(jì)算，并且由于低MAF和高噪聲水平，使用ctDNA計(jì)算TMB仍然具有挑戰(zhàn)性。需要針對基于ctDNA的TMB計(jì)算進(jìn)行優(yōu)化的方法，這一主題可以在未來討論。另一個與癌癥免疫治療相關(guān)的話題是新抗原的發(fā)現(xiàn)。2016年12月，帕克癌癥免疫治療研究所和其他機(jī)構(gòu)宣布成立腫瘤新抗原選擇聯(lián)盟。這個聯(lián)盟包括來自30個非營利機(jī)構(gòu)的研究人員，旨在確定能夠最好地預(yù)測患者腫瘤DNA新抗原的軟件。目前，計(jì)算預(yù)測能夠在患者中引發(fā)有效抗腫瘤反應(yīng)的新抗原仍然是一個偶然事件。從患者的ctDNA進(jìn)行同樣的預(yù)測甚至更具挑戰(zhàn)性。新抗原預(yù)測研究將是學(xué)術(shù)界和工業(yè)界的熱門話題，其進(jìn)展和結(jié)果將在未來討論。

end~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

cell-free tumor DNA序列數(shù)據(jù)的生物信息學(xué)分析

cell-free tumor DNA序列數(shù)據(jù)的生物信息學(xué)分析

摘要

介紹

ctDNA及其應(yīng)用

ctDNA如何測序

ctDNA NGS數(shù)據(jù)分析的難點(diǎn)

ctDNA測序數(shù)據(jù)分析管道

新方法

更好的數(shù)據(jù)預(yù)處理

分子條形碼測序及其數(shù)據(jù)分析

baseline methods

直接掃描FASTQ數(shù)據(jù)的目標(biāo)變異檢測

去重和唯一支持讀取計(jì)數(shù)

Cell-Free DNA的甲基化分析

機(jī)器學(xué)習(xí)方法

數(shù)據(jù)模擬

討論

結(jié)論

未來的工作

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

cell-free tumor DNA序列數(shù)據(jù)的生物信息學(xué)分析

摘要

介紹

ctDNA及其應(yīng)用

ctDNA如何測序

ctDNA NGS數(shù)據(jù)分析的難點(diǎn)

ctDNA測序數(shù)據(jù)分析管道

新方法

更好的數(shù)據(jù)預(yù)處理

分子條形碼測序及其數(shù)據(jù)分析

baseline methods

直接掃描FASTQ數(shù)據(jù)的目標(biāo)變異檢測

去重和唯一支持讀取計(jì)數(shù)

Cell-Free DNA的甲基化分析

機(jī)器學(xué)習(xí)方法

數(shù)據(jù)模擬

討論

結(jié)論

未來的工作

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av