轉(zhuǎn)錄組入門(mén)(5): 序列比對(duì)

前言

比對(duì)軟件很多,首先大家去收集一下,因?yàn)槲覀兪菐Т蠹胰腴T(mén),請(qǐng)統(tǒng)一用hisat2,并且搞懂它的用法。直接去hisat2的主頁(yè)下載index文件即可,然后把fastq格式的reads比對(duì)上去得到sam文件。接著用samtools把它轉(zhuǎn)為bam文件,并且排序(注意N和P兩種排序區(qū)別)索引好,載入IGV,再截圖幾個(gè)基因看看!順便對(duì)bam文件進(jìn)行簡(jiǎn)單QC,參考直播我的基因組系列。生信技能樹(shù)

參考基因組及注釋

由于在第一節(jié)已經(jīng)準(zhǔn)備好了相應(yīng)的軟件,只需要再準(zhǔn)備好相應(yīng)的數(shù)據(jù)就行了。在HISAT2官網(wǎng)即可下載現(xiàn)成的index文件,這里使用小鼠常用的mm10。

1503648924351.png

接下來(lái)就用下載相應(yīng)的注釋,切記不同及基因組版本的對(duì)應(yīng)關(guān)系

1503649711228.png
1503649797663.png

通過(guò)gencode下載最新小鼠GRCm38版本的gtf注釋。這個(gè)頁(yè)面也收集好了不同分類的基因集合,比如lncRNA的注釋。

序列比對(duì)

ref=/mnt/e/0ngs/ref/mm10_hisat_index/mm10 #index
# 根據(jù)注釋文件提取已知splices位點(diǎn)信息
hisat2_extract_splice_sites.py gencode.vM13.annotation.gtf > splicesites.txt
# 開(kāi)始比對(duì)
for i in `seq 59 62`; do hisat2 -p 6 -x $ref --known-splicesite-infile ref/splicesites.txt -1 SRR35899$i_1.fastq.gz -2 SRR35899$i_2.fastq.gz -S SRR35899$i.sam 2>SRR35899$i.log; done 

比對(duì)結(jié)果統(tǒng)計(jì)

1503912458951.png
image.png

其中,concordantly指方向和相對(duì)距離都與建庫(kù)一致;disconcordantly指配對(duì)的兩個(gè)read都能比對(duì)上,但方向或者(和)相對(duì)距離不符合。s4、s5指不能同時(shí)比對(duì)上的配對(duì)read,拆分按單端測(cè)序條件比對(duì)的情況。

Sort

###  sort -n(read name排序)  ###
# name排序方便提高后續(xù)read count的效率
samtools sort -n -@ 6 Akap95_1.sam -o Akap95_1.Nsort.bam
# position排序利于存儲(chǔ)壓縮
samtools sort -@ 6 Akap95_1.sam -o Akap95_1.Psort.bam   #染色體坐標(biāo)排序
# index
ls *.Psort.bam |while read id;do (samtools index -@ 4 $id &);done
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容