文章僅是記錄自己的學(xué)習(xí)使用,有錯(cuò)誤請(qǐng)指出,我立刻改正!
更多說明:
https://zhuanlan.zhihu.com/p/451939113
http://www.bio-soft.net/format.html
http://www.itdecent.cn/p/0e36e3cc33bb
一、序列比對(duì)軟件區(qū)別
- 在對(duì)比對(duì)工具進(jìn)行比較時(shí),通常將其分為DNA比對(duì)工具(DNA-seq)和RNA比對(duì)工具(RNA-seq)。
- 它們的區(qū)別在于是否會(huì)考慮跨外顯子的比對(duì),即:是否會(huì)將沒有比對(duì)上的reads劈開,對(duì)劈開后的兩部分再次比對(duì)。(PRO-seq/GRO-seq,它們雖然在建庫時(shí)捕獲的RNA,但是它們的比對(duì)并不需要考慮跨外顯子)
- 常用軟件:
DNA-seq:BWA;bowtie&bowtie2
RNA-seq:STAR;HISAT2;Tophat&Tophat2
二、DNA-seq 比對(duì)工具
(一)BWA
- BWA主要應(yīng)用二代測序后的大量短小片段與參考基因組之間的定位比對(duì)。需要先對(duì)參考序列建建立索引,BWA也是基于 BWT和 FM-Index 理論來對(duì)參考基因組做索引。根據(jù)測序方法的不同,有單末端序列(Single-end,SE)比對(duì)和雙末端序列(Pair-end,PE)比對(duì)。
(二)bowtie&bowtie2
- bowtie出現(xiàn)在測序行業(yè)還不成熟的時(shí)候,序列長度普遍在50bp以下,bowtie的只滿足長度在50bp以下的reads的比對(duì)。官方稱其可以把短的DNA序列(35bp)快速的比對(duì)到人類基因組上。
- bowtie2 是一款經(jīng)典的短讀長序列( 50-100 bp,最多可到1000 bp ) 比對(duì)軟件,節(jié)約內(nèi)存且靈活與成熟的短序列比對(duì)軟件,比較適合下一代測序技術(shù)。支持單端測序(unpaired) 和雙端測序的比對(duì)。支持全局比對(duì)(end-to-end align ) 和 局部比對(duì)( local align )。其通常使用全文分索引(FM-index)以及Burrows-Wheeler 變換(BWT)索引基因組使得比對(duì)非常快速且內(nèi)存高效,但是這種方法不適合于找到較長的、帶缺口的序列比對(duì)
- 結(jié)論:bowtie和bowtie2,是兩個(gè)不同類型的比對(duì)工具,bowtie2并非是bowtie的升級(jí)。尺有所長寸有所短,bowtie適合長度在50b長度以內(nèi)的reads比對(duì),而bowtie2適合50-100b,甚至更長的reads比對(duì)。但是這兩個(gè)都屬DNA-seq比對(duì)工具
一、RNA-seq 比對(duì)工具
- RNA-Seq測序的特性,天然的會(huì)有一部分?jǐn)?shù)據(jù)延伸到內(nèi)含子區(qū),這部分跨越外顯子和內(nèi)含子的reads就稱為『junction reads』,所以RNA-Seq比對(duì)軟件需要針對(duì)此進(jìn)行優(yōu)化。
- junction 和 soft-clip
1、junction事件:轉(zhuǎn)錄組RNA reads比對(duì)不同于基因組DNA reads比對(duì)(如ChIP-seq、WES等)的地方在于,比對(duì)的reads可能來源于2個(gè)被內(nèi)含子隔開的外顯子區(qū)域,導(dǎo)致reads一端比對(duì)在第一個(gè)外顯子的后面部分,另一端比對(duì)在第二個(gè)外顯子的前面部分,即跨剪切位點(diǎn),從而形成exon-exon junction (剪接點(diǎn))。這些reads又稱為junction reads,對(duì)轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。
2、soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導(dǎo)致比對(duì)不上的, STAR會(huì)自動(dòng)嘗試截去未比對(duì)部分,只保留比對(duì)上的部分 。
(一)STAR
- STAR是ENCODE皇家御用的RNA-seq比對(duì)工具,ENCODE計(jì)劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計(jì)劃,是2003年在人類基因組計(jì)劃完成之后緊接著的又一個(gè)大型國際科研項(xiàng)目。
(二)HISAT2
- Tophat2的原作者們也不知道是出于什么考慮,不再更新Tophat2,轉(zhuǎn)而開發(fā)了一個(gè)新的比對(duì)工具HISAT2,更是推薦人們使用HISAT2,聲稱其速度更快,內(nèi)存占用率更小,準(zhǔn)確率更高。
- 此外,HISAT2不僅支持RNA-seq的比對(duì)還支持DNA-seq比對(duì),唯一需要做的就是加上一個(gè)參數(shù)--no-spliced-alignment。但是就目前來看,大部分人都是使用HISAT2做RNA-seq,沒人使用它做DNA-seq
(三)Tophat&Tophat2
- Tophat/Tophat2工具本身不能進(jìn)行比對(duì),它是通過調(diào)用bowtie/bowtie2進(jìn)行比對(duì)的。劃重點(diǎn),bowtie2不是bowtie的升級(jí)版,但是Tophat2是Tophat2的升級(jí)版。因此Tophat只可以調(diào)用bowtie,而Tophat2不僅可以調(diào)用bowtie2(默認(rèn))還可以更改設(shè)置調(diào)用bowtie。
- Tophat/Tophat2調(diào)用bowtie/bowtie2后,會(huì)首先使用bowtie/bowtie2對(duì)序列進(jìn)行比對(duì),對(duì)于那些沒有比對(duì)上的,會(huì)考慮其跨外顯子的可能性,將reads劈開重新比對(duì)。
(四)全長轉(zhuǎn)錄本
- 全長轉(zhuǎn)錄組(Full-length transcriptome)是基于PacBio和Nanopore三代測序平臺(tái),無需打斷拼接,直接獲得包含5’UTR、3’UTR、polyA尾的mRNA全長序列及完整結(jié)構(gòu)信息,從而準(zhǔn)確分析有參考基因組物種可變剪接及融合基因等結(jié)構(gòu)信息,克服無參考基因組物種轉(zhuǎn)錄本拼接較短、信息不完整的難題。同時(shí)還可以借助二代測序數(shù)據(jù),進(jìn)行轉(zhuǎn)錄本特異性表達(dá)分析,獲得更加全面的注釋信息。
1、GMAP
- 傳統(tǒng)的使用比較多的長讀長比對(duì)軟件是GMAP,05年發(fā)表公布,最開始是用來比對(duì)低通量的EST序列的,后來進(jìn)一步升級(jí)為GSNAP,,其支持高通量的二代測序。
- PacBio測序技術(shù)出現(xiàn)后,GMAP常用于Iso-seq轉(zhuǎn)錄本的鑒定,目前仍是相關(guān)研究引用量最高的比對(duì)軟件,該軟件也一直在持續(xù)更新升級(jí)。其可以將轉(zhuǎn)錄本序列與參考基因組序列比對(duì),輸出gff文件,比對(duì)速度稍慢。
2、 Minimap2
- Minimap2是生信大牛李恒18年用C語言開發(fā)的可以用于三代數(shù)據(jù)(subreads、iso-seq)比對(duì)的長序列比對(duì)軟件,與傳統(tǒng)的三代比對(duì)工具GMAP相比,其速度有非常顯著的提升,當(dāng)然同時(shí)消耗的內(nèi)存也比較大。使用方法也比較簡單,近幾年引用次數(shù)增長的也很迅速.