參考鏈接:http://www.huangshujia.me/2018/05/26/2018-05-26-How-Does-Sequencing-Duplicates-happen.html
1. RNA-Seq是否可以替代WES完成對外顯子的變異檢測?這不但省去用探針做外顯子捕獲這個步驟,代價更?。欢?,它在融合基因的檢測上還更有優(yōu)勢?
這是一個非常好的問題。我的回答是:RNA-Seq不能代替WES完成外顯子的變異檢測,原因如下:
(1). 轉(zhuǎn)錄本不是全部的外顯子。由于基因通過可變剪切出不同的轉(zhuǎn)錄本,實現(xiàn)多能性。那么,沒被該轉(zhuǎn)錄本包括的外顯子就丟失了;
(2). 轉(zhuǎn)錄本數(shù)據(jù)在基因上的覆蓋度是極度不均勻的。不同基因的表達(dá)量不同,有些很高,有些甚至沒有。進(jìn)行變異檢測的時候,這種不均勻性會極大影響變異結(jié)果的有效檢出。導(dǎo)致很多發(fā)現(xiàn)的變異可能都是那些高表達(dá)但是卻很可能不具備什么關(guān)注點的基因上。如果這時你還是想獲得更多的變異,那么到頭來還是得花更多的錢加大測序深度;
(3). 目前對轉(zhuǎn)錄本數(shù)據(jù)進(jìn)行變異檢測,還是一個偏于補充性質(zhì)的分析。RNA-Seq的目的主要還是集中在基因表達(dá)方面,以及尋找差異表達(dá)基因和融合基因上。對于變異檢測,這類數(shù)據(jù)中也肯定可以發(fā)現(xiàn),但假陰一定是很高的,比如低表達(dá)的基因,甚至是在這個組織(或者樣本)中不表達(dá)的基因,你就無法有效檢出它基因組上的變異了。另外,由于目前的二代測序系統(tǒng)并不能對RNA中的U堿基進(jìn)行識別,因此,RNA測序的時候需要先反轉(zhuǎn)錄為cDNA,這個過程會為RNA的變異檢測帶來一定程度的假陽結(jié)果;
(4). 變異檢測范圍有限。使用RNA-Seq數(shù)據(jù)很難發(fā)現(xiàn)除單堿基變異(SNV)之外的其他突變(比如Indel)。
2. 為什么二代測序的原始數(shù)據(jù)中會出現(xiàn)Read重復(fù)現(xiàn)象?
要搞清楚這個read重復(fù)(duplicate)的問題,我想我們需要從NGS數(shù)據(jù)的產(chǎn)出過程說起,具體來說如下:
- 基因組DNA提?。?/li>
- DNA隨機打斷,最常用的是超聲打斷;
- 對被打斷的DNA片段進(jìn)行末端修復(fù)(通常是3’加A),然后在兩端加接頭,選擇特定長度的片段文庫進(jìn)行PCR擴(kuò)增(通過PCR的擴(kuò)增會選!擇!性!地提高加上了接頭的文庫分子數(shù)量);
- 文庫上機與測序芯片(Flowcell)上的引物結(jié)合,經(jīng)過橋式PCR擴(kuò)增,在芯片上形成測序所需的cluster;
- 進(jìn)行SBS測序,光學(xué)信號捕獲,生成序列。
我們一般認(rèn)為第1步DNA提取出來的是完整的基因組,打斷則是完全隨機的——通常來說也確實如此。
在第3步,PCR擴(kuò)增時,同一個DNA片段會產(chǎn)生多個相同的拷貝,第4步測序的時候,這些來源于同!一!個!拷貝的DNA片段會結(jié)合到Fellowcell的不同位置上,生成完全相同的測序cluster,然后被測序出來,這些相同的序列就是duplicate。這是duplicate的第一個來源,也是主要來源,稱為PCR duplicates(PCR重復(fù))。
同樣,在第4步,生成測序cluster的時候,某一個cluster中的DNA序列可能搭到旁邊的另一個cluster的生成位點上,又再重新長成一個相同的cluster,這也是序列duplicate的另一個來源,這個現(xiàn)象在Illumina HiSeq4000之后的Flowcell中會有這類Cluster duplicates,這是第二類duplicate(如下圖)。
在第5步中,某些cluster在測序的時候,捕獲的熒光亮點由于光波的衍射,導(dǎo)致形狀出現(xiàn)重影(如同近視散光一樣),導(dǎo)致它可能會被當(dāng)成兩個熒光點來處理。這也會被讀出為兩條完全相同的reads,這是第三類duplicate,稱之為Optical duplicates(光學(xué)重復(fù));
以上三種比較常見,還有第四種,稱為Sister duplicates,這是比較特殊的一個情況。它是文庫分子的兩條互補鏈同時都與Flowcell上的引物結(jié)合分別形成了各自的cluster被測序,最后產(chǎn)生的這對reads是完全反向互補的。比對到參考基因組時,也分別在正負(fù)鏈的相同位置上,在有些分析中也會被認(rèn)為是一種duplicates。
另外,據(jù)說 NextSeq 平臺上還出現(xiàn)過由于熒光信號捕獲相機移動位置不夠,導(dǎo)致 tile 邊緣被重復(fù)拍攝,每次采樣區(qū)域的邊緣由于重復(fù)采樣而出現(xiàn)了duplicates,下圖中藍(lán)色點代表 duplicates,可以看到在tile的左右兩側(cè)明顯富集。
以上,除了NextSeq的情況之外,所有這些不同類型的duplicates都各有特點。比如,PCR duplicate的特點是隨機分布于Flowcell表面;而cluster duplicates和optical duplicates 的特點是它們都來自Flowcell上位置相鄰的cluster。Cluster的位置一般都會被記錄在原始測序fastq文件@Sequence-id那一行中。
這些Read重復(fù)都會一定程度上導(dǎo)致一些堿基信號被錯誤地拉高或者減低,會對后續(xù)分析帶來干擾,特別是在WGS和WES分析時都需要去除。如果測序過程沒什么特殊問題或者原因,那么,測序數(shù)據(jù)的duplicate比例一般都在10%以下。
PCR duplicates可以通過PCR-free來避免。并且PCR本身還會帶來一些其他的問題,比如擴(kuò)增過程自帶了一定的偏向性,這會損失一定的測序隨機性,使得某些序列信息被擴(kuò)大或者減小。所以,只要DNA起始量足夠,那么我們就應(yīng)該盡量采用PCR Free的方式來建庫。
3、二代測序的原理及專業(yè)名詞解釋匯總
參考鏈接:
http://blog.sina.com.cn/s/blog_5c2f929b0102w5b8.html
https://www.cnblogs.com/leezx/p/6247885.html


樣本:就是待測的DNA、RNA或蛋白序列,樣本來源單一的就是單樣本,樣本來源于多處就是多樣本,一般我們測序用的樣本都是單樣本,但有時候有特殊需求,我們會把一些樣本混合在一起測序,也就是多樣本測序。
文庫:二代三代讀長都是有限的,為此我們必須將全長的序列打斷成小片段的文庫才能進(jìn)行測序??偟膩碚f,在NGS分析之前,制備RNA或DNA的主要步驟包括:片段化和/或篩分指定長度的目標(biāo)序列;將目標(biāo)片段轉(zhuǎn)化成雙鏈DNA;在片段末端連上寡核苷酸接頭;以及定量最終的文庫。
單端測序和雙端測序:單端測序(Single-read)首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在flow cell上生成DNA簇,上機測序單端讀取序列(圖1)。 Paired-end方法是指在構(gòu)建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后,去除第一輪測序的模板鏈,用對讀測序模塊(Paired-End Module)引導(dǎo)互補鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測序所用的模板量,進(jìn)行第二輪互補鏈的合成測序(圖2)。
flowcell:FC,一個FC就是一個載玻片狀的載體,它是測序的場所。
lane:表示測序芯片上的一條流通槽,測序文庫與試劑均在里面,測序信號的掃描也是按照一條lane上的一個tile進(jìn)行。一個FC有多條lane,一般是8條
run:測序儀運行一次
4、Read Group的信息解釋
參考鏈接:https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g
在使用bwa進(jìn)行比對時,會有-R參數(shù)用來補充read group信息,這對于后續(xù)進(jìn)行call variation時必要的
read group:在sam中以@RG開頭,它是用來將比對的read進(jìn)行分組的。不同的組之間測序過程被認(rèn)為是相互獨立的,這個信息對于我們后續(xù)對比對數(shù)據(jù)進(jìn)行錯誤率分析和Mark duplicate時非常重要。
1)ID,這是Read Group的分組ID,一般設(shè)置為測序的lane ID(不同lane之間的測序過程認(rèn)為是獨立的),下機數(shù)據(jù)中我們都能看到這個信息的,一般都是包含在fastq的文件名中
2)PL,指的是所用的測序平臺,這個信息不要隨便寫!特別是當(dāng)我們需要使用GATK進(jìn)行后續(xù)分析的時候,更是如此!這是一個很多新手都容易忽視的一個地方,在GATK中,PL只允許被設(shè)置為:ILLUMINA,SLX,SOLEXA,SOLID,454,LS454,COMPLETE,PACBIO,IONTORRENT,CAPILLARY,HELICOS或UNKNOWN這幾個信息?;旧暇褪悄壳笆袌錾洗嬖谥臏y序平臺,當(dāng)然,如果實在不知道,那么必須設(shè)置為UNKNOWN,名字方面不區(qū)分大小寫
3)SM,樣本ID,同樣非常重要,有時候我們測序的數(shù)據(jù)比較多的時候,那么可能會分成多個不同的lane分布測出來,這個時候SM名字就是可以用于區(qū)分這些樣本;
4)LB,測序文庫的名字,這個重要性稍微低一些,主要也是為了協(xié)助區(qū)分不同的group而存在。文庫名字一般可以在下機的fq文件名中找到,如果上面的lane ID足夠用于區(qū)分的話,也可以不用設(shè)置LB。
除了以上這四個之外,還可以自定義添加其他的信息,不過如無特殊的需要,對于序列比對而言,這4個就足夠了。這些信息設(shè)置好之后,在RG字符串中要用制表符(\t)將它們分開
總結(jié):ID一般用來寫lane ID,如果在測的時候一個樣本一個lane,那也可以是sample id。PL必須是它指定的那幾個。SM是樣本的ID,如果是一個樣本一個lane的話,ID=SM,如果是一個樣本多個lane的話(測序很深時),ID是laneID,SM是樣本id,要做區(qū)分。LB,可以隨便設(shè)置。
例子:
$ bwa mem -t 4 -R '@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name' /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -b - > sample_name.bam
5、為什么比對完之后要排序(sort)?
FASTQ文件里面這些被測序下來的read是隨機分布于基因組上面的,第一步的比對是按照FASTQ文件的順序把read逐一定位到參考基因組上之后,隨即就輸出了,它不會也不可能在這一步里面能夠自動識別比對位置的先后位置重排比對結(jié)果。因此,比對后得到的結(jié)果文件中,每一條記錄之間位置的先后順序是亂的,我們后續(xù)去重復(fù)等步驟都需要在比對記錄按照順序從小到大排序下來才能進(jìn)行,所以這才是需要進(jìn)行排序的原因
[注意] 排序后如果發(fā)現(xiàn)新的BAM文件比原來的BAM文件稍微小一些,不用覺得驚訝,這是壓縮算法導(dǎo)致的結(jié)果,文件內(nèi)容是沒有損失的。
6、去除重復(fù)序列的原因
https://mp.weixin.qq.com/s/awdjoXRYobrQAbXmAp3C0g

首先什么是重復(fù)序列,重復(fù)序列是在進(jìn)行PCR擴(kuò)增時,由同一個DNA分子產(chǎn)生了很多的相同的拷貝。重復(fù)序列的存在會導(dǎo)致對于變異的判斷產(chǎn)生錯誤,主要有以下幾點:
1)DNA在打斷的時候會發(fā)生一些變異,而PCR會擴(kuò)大這個信號,導(dǎo)致假陽性的出現(xiàn)。
2)PCR過程會引入新的變異,這些變異越早發(fā)生,那其在后續(xù)的擴(kuò)增中錯誤的拷貝會越多,導(dǎo)致假陽性
3)PCR本身存在序列偏好性,如果存在真實的變異后,PCR產(chǎn)生了偏好性,如對reference序列擴(kuò)增偏向強烈,那變異的堿基信息會減少,導(dǎo)致假陰性,反之,導(dǎo)致假陽性。
4)目前使用的主流工具,GATK、Samtools、Platpus等這種利用貝葉斯原理的變異檢測算法都是認(rèn)為所用的序列數(shù)據(jù)都不是重復(fù)序列(即將它們和其他序列一視同仁地進(jìn)行變異的判斷,所以帶來誤導(dǎo)),因此必須要進(jìn)行標(biāo)記(去除)或者使用PCR-Free的測序方案
其次是如何識別或去除重復(fù)序列,既然PCR擴(kuò)增是把同一段DNA序列復(fù)制出很多份,那么這些序列在經(jīng)過比對之后它們一定會定位到基因組上相同的位置,比對的信息看起來也將是一樣的!于是,我們就可以根據(jù)這個特點找到這些重復(fù)序列了!事實上,現(xiàn)有的工具包括Samtools和Picard中去除重復(fù)序列的算法也的確是這么做的。不同的地方在于,samtools的rmdup是直接將這些重復(fù)序列從比對BAM文件中刪除掉,而Picard的MarkDuplicates默認(rèn)情況則只是在BAM的FLAG信息中標(biāo)記出來,而不是刪除,因此這些重復(fù)序列依然會被留在文件中,只是我們可以在變異檢測的時候識別到它們,并進(jìn)行忽略。