1.序列比對
2.DNA-seq&RNA-seq
3.幾款比對工具的比較
4.基因組變異
5.變異檢測工具的選擇
6.參考
????序列比對
????目前的生物信息分析流程離不開序列比對,基于比對結(jié)果才能進行后續(xù)相關(guān)分析(組裝、變異檢測等)。可以說,序列比對已經(jīng)成為生物信息分析的基石。根據(jù)不同應(yīng)用,序列比對大致可以分為三類:
????1)全局比對,常用軟件有 Clustal Omega、MUSCLE、HMMER 等,主要用于多序列比對、種系分析、保守區(qū)段分析等;
????2)局部比對,常用軟件有 Blast+、Blat、Blastz、GeneWise 等,主要用于同源序列分析、數(shù)據(jù)庫比對、基因功能注釋等;
????3)短序列比對,常用軟件有 BWA、Bowtie2、SOAP2、NovoAlign、TopHat、STAR、HISAT2 等,主要用于將高通量測序產(chǎn)出的短片段(Reads)快速且準確地比對到參考序列上。
????DNA-seq & RNA-seq
????大家在對比對工具進行比較時,喜歡將其分為DNA比對工具(DNA-seq)和RNA比對工具(RNA-seq)。它們的區(qū)別僅在于是否會考慮跨外顯子的比對,即:是否會將沒有比對上的reads劈開,對劈開后的兩部分再次比對)。
????隨著現(xiàn)在各種seq的出現(xiàn),我們已經(jīng)不能簡單的根據(jù)是比對DNA還是RNA來判斷工具的選擇,而是要判斷reads的比對是否需跨外顯子。比如PRO-seq/GRO-seq,它們在建庫時捕獲的RNA,但是它們并不需要考慮跨外顯子的比對。
? ??常用工具:
DNA-seq:bowtie;bowtie2;BWA
RNA-seq:STAR;HISAT2;Tophat
????HISAT2不僅支持RNA-seq的比對還支持DNA-seq比對,唯一需要做的就是加上一個參數(shù)--no-spliced-alignment。但是就目前來看,大部分人都是使用HISAT2做RNA-seq,沒人使用它做DNA-seq
????STAR是ENCODE皇家御用的RNA-seq比對工具,ENCODE計劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計劃,是2003年在人類基因組計劃完成之后緊接著的又一個大型國際科研項目。
? ??幾款比對工具的比較
????可能是因為RNA-seq分析比較大眾,因此大部分的比對工具都是利用RNA-seq的效率進行比較。對于 DNA-seq,最常用是 BWA;對于 RNA-seq,目前用的較多的是 HISAT2。
? ??無論是HISAT2還是STAR,對于Tophat來說都有很大的優(yōu)勢,Tophat已不再繼續(xù)更新,所以我們不再使用它。
????對 RNA-seq 產(chǎn)出的數(shù)據(jù)進行變異檢測分析,與常規(guī)重測序的主要區(qū)別就在序列比對這一步,因為 RNA-seq 的數(shù)據(jù)來自轉(zhuǎn)錄本,比對到參考基因組需要跨越轉(zhuǎn)錄剪切位點,所以 RNA-seq 進行變異檢測的重點就在于跨剪切位點的精確序列比對。GATK 發(fā)布的 RNA-seq 數(shù)據(jù)變異檢測最佳實踐流程用了 STAR 2-pass 這一方法進行序列比對,STAR 比對速度還算挺快。
????推薦文獻:Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Systematic evaluation of spliced alignment programsfor RNA-seq data
? ??HISAT2,找到j(luò)unction正確率最高,但是在總數(shù)上卻比TopHat和STAR少,二類錯誤(納偽)比較少,一類錯誤(棄真)有點高,靈敏度相對較低。STAR靈敏度更高,但是會有許多包含soft-clip的低質(zhì)量比對,即對lower-quality(包括more soft-clipped和錯配堿基)比對有較高的容忍度。
? ? (?junction:轉(zhuǎn)錄組reads比對不同于基因組reads比對(如ChIP-seq、WES等)的地方在于,比對的reads可能來源于2個被內(nèi)含子隔開的外顯子區(qū)域,導(dǎo)致reads一端比對在第一個外顯子的后面部分,另一端比對在第二個外顯子的前面部分,即跨剪切位點,從而形成exon-exon junction (剪接點)。這些reads又稱為junction reads,對轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。)
? ? (soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導(dǎo)致比對不上的, STAR會自動嘗試截去未比對部分,只保留比對上的部分。)? ? ? ? ? ? ? ? ? ? ? ?
? ??STAR的unique mapping比例最高,它對于雙端測序的reads,要么全部比對上,要么全部拋棄,不會像TopHat和HISAT2一樣只比對上某一個reads,即STAR相比較其他兩款軟件有較高的唯一比對率
????就唯一比對而言,STAR是三者最佳的,主要是因為它不會像TopHat和HISAT2一樣在PE比對不上的情況還強行把SE也比對到基因組上。而且在處理較長的read和較短read的不同情況,STAR的穩(wěn)定性也是最佳的。就速度而言,在比對速度方面,HISAT2比STAR快2.5倍,比TopHat快大約100倍。
????推薦一個網(wǎng)站,這里介紹了幾種不同比對軟件的使用方法(bowtie2, bwa, STAR, Tophat四種):homer。
在HOMER網(wǎng)站上,對幾種比對軟件進行的說明,可以看到STAR的速度是最快的,當然得保證有這么多的內(nèi)存來運行:
bowtie: fast, works well
bowtie2: fast, can perform local alignments too
BWA- Fast, allows indels, commonly used for genome/exome resequencing? 快速,允許indels,通常用于 基因組/外顯子組 重測序
Subread- Very fast, (also does splice alignment)
STAR- Extremely fast (also does splice alignment, requires at least 30 Gb memory)
? ??BWA mem算法產(chǎn)生的SNP 比bowtie2的高很多,大多數(shù)的variant calling的pipeline中都會推薦使用BWA比對工具。
? ??基因組變異
????http://www.itdecent.cn/p/4453e58a9c96
? ??變異檢測工具的選擇
? ??GATK的HaplotypeCaller在精度和準確上都比FreeBayes, Platypus 和samtools?好。
? ??samtools 在找indels更加的粗獷,找到了更多本來不存在的indels,但是在SNP上的表現(xiàn)其實是一致的。Samtools+bcftools 能Call SNP,速度會比GATK快。
? ??GATK 能夠利用機器學(xué)習(xí)的方法根據(jù)已有變異數(shù)據(jù)庫進一步提高結(jié)果的準確度。但是對于植物而言,所能做的也就是硬指標過濾。因此,如果做人類,最推薦的工具是GATK,因為表現(xiàn)的確很好。而且人類還會不斷增加樣本,需要使用GVCFs文件解決N+1的問題。如果是植物,可以考慮freebayes,效率高,表現(xiàn)也不錯。
? ??xuzhougeng 推薦閱讀這篇文獻 "Single Nucleotide Polymorphism Identification in Polyploids: A Review, Example, and Recommendations"。
聲明:本篇多為資料整理總結(jié),僅用于自學(xué)記錄和交流,侵刪,謝謝。參考:
參考
https://www.bioinfo-scrounger.com/archives/288/
http://www.itdecent.cn/p/5b6dfc954315
https://mp.weixin.qq.com/s/Gp1EJunbhcZ1x1V2augpSA
https://mp.weixin.qq.com/s/QVvfD9dIphRdE1RVkRpjdg
https://shengxin.ren/article/428
http://www.itdecent.cn/p/b4b43e467c33
http://www.itdecent.cn/p/b400dc7c5eea