mRNA-seq學(xué)習(xí)(二):Bowtie2比對

1. 比對之前需要考慮哪些問題

1. 選什么作為參考序列
  • 基因組序列
    既能做表達(dá)定量,還能發(fā)現(xiàn)新的基因和轉(zhuǎn)錄本
  • 轉(zhuǎn)錄本序列(CDS / cDNA / 基因集)
    表達(dá)定量
2 gff/gtf的作用
  • 在比對的過程中,提供基因組注釋文件可以指導(dǎo)spliced reads的定位
  • 在統(tǒng)計(jì)reads數(shù)的時(shí)候,提供區(qū)間參考
3 選擇合適的比對工具

主要考慮是否需要spliced alignment
Bowtiebwa

  • 原核生物沒有內(nèi)含子,不存在可變剪接
  • 小RNA的產(chǎn)生也沒有可變剪接過程
  • 比對到轉(zhuǎn)錄本序列(因?yàn)橐呀?jīng)是接好的序列)

Tophat、STARhisat2

  • 比對到基因組且基因有內(nèi)含子

2. Bowtie2比對

2.1 Bowtie與Bowtie2有什么區(qū)別
  • Bowtie更適合短序列的比對,如小RNA測序reads; 另外它不允許gap
  • Bowtie2更適合長序列(50堿基以上)的比對;允許gap
2.2 建索引
bowtie2-build -f Arabidopsis_thaliana.TAIR10.dna.toplevel.fa TAIR10.bybowtie

$ ls
TAIR10.bybowtie.1.bt2  TAIR10.bybowtie.3.bt2  TAIR10.bybowtie.rev.1.bt2
TAIR10.bybowtie.2.bt2  TAIR10.bybowtie.4.bt2  TAIR10.bybowtie.rev.2.bt2
2.3 比對
bowtie2 -q --phred33 -p 8 --no-unal -x TAIR10.bybowtie \
-1 SRR3286804_1.fastq.gz -2 SRR3286804_2.fastq.gz -S SRR3286804.sam

#參數(shù)說明
-q: 輸入文件為fastq
--phred33: 測序堿基的質(zhì)量體系,現(xiàn)在基本都是33
-p: 線程數(shù)
--no-unal:不保留未必對上的記錄
-x:索引前綴
-S:sam格式輸出
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容