比對(duì)軟件(DNA or RNA序列)的區(qū)別

文章僅是記錄自己的學(xué)習(xí)使用,有錯(cuò)誤請(qǐng)指出,我立刻改正!

更多說明:
https://zhuanlan.zhihu.com/p/451939113
http://www.bio-soft.net/format.html
http://www.itdecent.cn/p/0e36e3cc33bb

一、序列比對(duì)軟件區(qū)別

  • 在對(duì)比對(duì)工具進(jìn)行比較時(shí),通常將其分為DNA比對(duì)工具(DNA-seq)和RNA比對(duì)工具(RNA-seq)。
  • 它們的區(qū)別在于是否會(huì)考慮跨外顯子的比對(duì),即:是否會(huì)將沒有比對(duì)上的reads劈開,對(duì)劈開后的兩部分再次比對(duì)。(PRO-seq/GRO-seq,它們雖然在建庫時(shí)捕獲的RNA,但是它們的比對(duì)并不需要考慮跨外顯子)
  • 常用軟件:
    DNA-seq:BWA;bowtie&bowtie2
    RNA-seq:STAR;HISAT2;Tophat&Tophat2

二、DNA-seq 比對(duì)工具

(一)BWA

  • BWA主要應(yīng)用二代測序后的大量短小片段與參考基因組之間的定位比對(duì)。需要先對(duì)參考序列建建立索引,BWA也是基于 BWT和 FM-Index 理論來對(duì)參考基因組做索引。根據(jù)測序方法的不同,有單末端序列(Single-end,SE)比對(duì)和雙末端序列(Pair-end,PE)比對(duì)。

(二)bowtie&bowtie2

  • bowtie出現(xiàn)在測序行業(yè)還不成熟的時(shí)候,序列長度普遍在50bp以下,bowtie的只滿足長度在50bp以下的reads的比對(duì)。官方稱其可以把短的DNA序列(35bp)快速的比對(duì)到人類基因組上。
  • bowtie2 是一款經(jīng)典的短讀長序列( 50-100 bp,最多可到1000 bp ) 比對(duì)軟件,節(jié)約內(nèi)存且靈活與成熟的短序列比對(duì)軟件,比較適合下一代測序技術(shù)。支持單端測序(unpaired) 和雙端測序的比對(duì)。支持全局比對(duì)(end-to-end align ) 和 局部比對(duì)( local align )。其通常使用全文分索引(FM-index)以及Burrows-Wheeler 變換(BWT)索引基因組使得比對(duì)非常快速且內(nèi)存高效,但是這種方法不適合于找到較長的、帶缺口的序列比對(duì)
  • 結(jié)論:bowtie和bowtie2,是兩個(gè)不同類型的比對(duì)工具,bowtie2并非是bowtie的升級(jí)。尺有所長寸有所短,bowtie適合長度在50b長度以內(nèi)的reads比對(duì),而bowtie2適合50-100b,甚至更長的reads比對(duì)。但是這兩個(gè)都屬DNA-seq比對(duì)工具

一、RNA-seq 比對(duì)工具

  • RNA-Seq測序的特性,天然的會(huì)有一部分?jǐn)?shù)據(jù)延伸到內(nèi)含子區(qū),這部分跨越外顯子和內(nèi)含子的reads就稱為『junction reads』,所以RNA-Seq比對(duì)軟件需要針對(duì)此進(jìn)行優(yōu)化。
  • junction 和 soft-clip
    1、junction事件:轉(zhuǎn)錄組RNA reads比對(duì)不同于基因組DNA reads比對(duì)(如ChIP-seq、WES等)的地方在于,比對(duì)的reads可能來源于2個(gè)被內(nèi)含子隔開的外顯子區(qū)域,導(dǎo)致reads一端比對(duì)在第一個(gè)外顯子的后面部分,另一端比對(duì)在第二個(gè)外顯子的前面部分,即跨剪切位點(diǎn),從而形成exon-exon junction (剪接點(diǎn))。這些reads又稱為junction reads,對(duì)轉(zhuǎn)錄本的拼接、鑒定和差異分析具有重要的意義。
    2、soft-clip事件: 即reads末端存在低質(zhì)量堿基或接頭導(dǎo)致比對(duì)不上的, STAR會(huì)自動(dòng)嘗試截去未比對(duì)部分,只保留比對(duì)上的部分 。

(一)STAR

  • STAR是ENCODE皇家御用的RNA-seq比對(duì)工具,ENCODE計(jì)劃(ENCyclopedia Of DNA Elements)又稱人類基因組DNA元件百科全書計(jì)劃,是2003年在人類基因組計(jì)劃完成之后緊接著的又一個(gè)大型國際科研項(xiàng)目。

(二)HISAT2

  • Tophat2的原作者們也不知道是出于什么考慮,不再更新Tophat2,轉(zhuǎn)而開發(fā)了一個(gè)新的比對(duì)工具HISAT2,更是推薦人們使用HISAT2,聲稱其速度更快,內(nèi)存占用率更小,準(zhǔn)確率更高。
  • 此外,HISAT2不僅支持RNA-seq的比對(duì)還支持DNA-seq比對(duì),唯一需要做的就是加上一個(gè)參數(shù)--no-spliced-alignment。但是就目前來看,大部分人都是使用HISAT2做RNA-seq,沒人使用它做DNA-seq

(三)Tophat&Tophat2

  • Tophat/Tophat2工具本身不能進(jìn)行比對(duì),它是通過調(diào)用bowtie/bowtie2進(jìn)行比對(duì)的。劃重點(diǎn),bowtie2不是bowtie的升級(jí)版,但是Tophat2是Tophat2的升級(jí)版。因此Tophat只可以調(diào)用bowtie,而Tophat2不僅可以調(diào)用bowtie2(默認(rèn))還可以更改設(shè)置調(diào)用bowtie
  • Tophat/Tophat2調(diào)用bowtie/bowtie2后,會(huì)首先使用bowtie/bowtie2對(duì)序列進(jìn)行比對(duì),對(duì)于那些沒有比對(duì)上的,會(huì)考慮其跨外顯子的可能性,將reads劈開重新比對(duì)。

(四)全長轉(zhuǎn)錄本

  • 全長轉(zhuǎn)錄組(Full-length transcriptome)是基于PacBio和Nanopore三代測序平臺(tái),無需打斷拼接,直接獲得包含5’UTR、3’UTR、polyA尾的mRNA全長序列及完整結(jié)構(gòu)信息,從而準(zhǔn)確分析有參考基因組物種可變剪接及融合基因等結(jié)構(gòu)信息,克服無參考基因組物種轉(zhuǎn)錄本拼接較短、信息不完整的難題。同時(shí)還可以借助二代測序數(shù)據(jù),進(jìn)行轉(zhuǎn)錄本特異性表達(dá)分析,獲得更加全面的注釋信息。

1、GMAP

  • 傳統(tǒng)的使用比較多的長讀長比對(duì)軟件是GMAP,05年發(fā)表公布,最開始是用來比對(duì)低通量的EST序列的,后來進(jìn)一步升級(jí)為GSNAP,,其支持高通量的二代測序。
  • PacBio測序技術(shù)出現(xiàn)后,GMAP常用于Iso-seq轉(zhuǎn)錄本的鑒定,目前仍是相關(guān)研究引用量最高的比對(duì)軟件,該軟件也一直在持續(xù)更新升級(jí)。其可以將轉(zhuǎn)錄本序列與參考基因組序列比對(duì),輸出gff文件,比對(duì)速度稍慢。

2、 Minimap2

  • Minimap2是生信大牛李恒18年用C語言開發(fā)的可以用于三代數(shù)據(jù)(subreads、iso-seq)比對(duì)的長序列比對(duì)軟件,與傳統(tǒng)的三代比對(duì)工具GMAP相比,其速度有非常顯著的提升,當(dāng)然同時(shí)消耗的內(nèi)存也比較大。使用方法也比較簡單,近幾年引用次數(shù)增長的也很迅速.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容