RNA-seq流程

RNA-seq能夠更加詳細(xì)地刻畫(huà)不同病理或生理狀態(tài)下轉(zhuǎn)錄組的改變?;赗NA-seq數(shù)據(jù)在不同狀態(tài)間進(jìn)行差異表達(dá)基因的識(shí)別是研究疾病機(jī)制以及臨床應(yīng)用的主要手段。
流程參考了生物信息課堂上老師給的文檔。
數(shù)據(jù)參考文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177
數(shù)據(jù)選了兩個(gè)進(jìn)行試驗(yàn):SRR957677 SRR957678
軟件篇:
1.Aspera:一款高速傳輸軟件,可以幫助我們快速下載序列文件(安裝教程參考這篇文章http://www.itdecent.cn/p/19dcff88a1eb

 wget https://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
 tar -zvxf aspera-connect-3.6.2.117442-linux-64.tar.gz
 sh aspera-connect-3.6.2.117442-linux-64.sh
 ~/.aspera/connect/bin/ascp -h
4.JPG

2.安裝R語(yǔ)言,在R語(yǔ)言中安裝DESeq2,用DESeq2進(jìn)行基因表達(dá)差異分析(參考文章http://www.itdecent.cn/p/4d0812195b65

 sudo apt install r-base-core
8.JPG
R
#進(jìn)入R語(yǔ)言包
> source("https://bioconductor.org/biocLite.R")
>biocLite("DESeq2")

3.hisat2:比對(duì)基因組工具

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip
echo 'export PATH=~/hisat2:$PATH'>>~/.bashrc
 source ~/.bashrc

7.JPG

4.BWA:序列比對(duì)軟件

wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.15.tar.bz2
tar -jxvf bwa-0.7.15.tar.bz2
cd bwa-0.7.15
make

1.JPG

5.Samtools:samtools是一個(gè)用于操作sam和bam文件的工具合集(安裝參考http://www.itdecent.cn/p/0e05b471189f)。
6.htseq-count利用 htsep-count 計(jì)算比對(duì)到每個(gè)基因的短序列數(shù)目(安裝參考http://www.itdecent.cn/p/5750e8e6fd7e
7.fastp: 一款超快速全功能的FASTQ文件自動(dòng)化質(zhì)控,過(guò)濾,校正,預(yù)處理軟件,可參考fastp說(shuō)明文件 https://github.com/OpenGene/fastp
conda install -c bioconda fastp
5.JPG
6.JPG

1.數(shù)據(jù)獲取
利用Aspera下載原始數(shù)據(jù)時(shí)(語(yǔ)句如下wget anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra)出現(xiàn)下圖問(wèn)題:
2.JPG

加參數(shù) -P 33011還是同樣的問(wèn)題,利用prefetch SRR957677同樣顯示via http....,最后只好在ENA上找到序列的fastq文件,利用wget下載,唯一問(wèn)題就是速度很慢特別耗時(shí)間。

wget https://www.ncbi.nlm.nih.gov//sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra
wget https://www.ncbi.nlm.nih.gov//sra/sra-instant/reads/ByRun/sra/SRR/SRR957/SRR957678/SRR957678.sra

速度太慢了,一秒十幾kb,最后復(fù)制ENA上的網(wǎng)址,用迅雷下了,也不是很快一秒一二百kb,總比wget好一點(diǎn)(中間還試了wget anonftp@ftpprivate.ncbi.nlm.nih.gov:/sra/srainstant/reads/ByRun/sra/SRR/SRR957/SRR957677/SRR957677.sra也沒(méi)成功)。

3.JPG

下載完直接拖進(jìn)MobaXterm文件列表就行。

fastp -i /home/aa/2/SRR957677.fastq.gz -I /home/aa/2/SRR957678.fastq.gz -o SRR957677.clean.fastq -O SRR957678.clean.fastq --trim_front1=5 --trim_front2=5 --trim_tail1=1 --trim_tail2=1  --html -w 1

生成去除低質(zhì)量序列的.clean.fastq 同時(shí)生成可視化文件 fastp.html 可查看各項(xiàng)質(zhì)量指標(biāo)。


4.JPG

3.去除重復(fù)性的冗余序列

remove_redunt_pair_fsq.py SRR957677.clean.fastq SRR957678.clean.fastq 1 1unique SRR957677.clean.uniq.fastq SRR957678.clean.uniq.fastq

生成.clean.uniq.fast格式的文件。
4.利用比對(duì)軟件 bwa 將短序列比對(duì)到參考基因組

bwa mem -t 2 -M /home/aa/2/hg19.exons.gtf SRR957677.clean.fastq > SRR957677.sam
bwa mem -t 2 -M /home/aa/2/hg19.exons.gtf SRR957678.clean.fastq > SRR957678.sam

生成sam格式文件。
5.利用 samtools 對(duì) sam 格式的比對(duì)文件進(jìn)行處理,以便進(jìn)行后續(xù)分析。

samtools view -bt /home/aa/2/hg19/hg19.fa.fai -@ 2 -o SRR957677.bam SRR957677.sam 2>>samtools.log
samtools view -bt /home/aa/2/hg19/hg19.fa.fai -@ 2 -o SRR957678.bam SRR957678.sam 2>>samtools.log

為排序后的bam文件建立索引

samtools index SRR957677.sort.bam
samtools index SRR957678.sort.bam

利用samtools對(duì)排序后的bam文件進(jìn)行可視化

samtools tview SRR957677.sort.bam /home/aa/2/hg19/hg19.fa
samtools tview SRR957678.sort.bam /home/aa/2/hg19/hg19.fa

6.利用 htsep-count 計(jì)算比對(duì)到每個(gè)基因的短序列數(shù)目

htseq-count -f sam -s no -t CDS -i ID -m union --nonunique=none --secondary-alignments=ignore -o SRR957677_assigned.sam SRR957677.sam /home/aa/hg19/hg19.gff > SRR957677_expression.counts
htseq-count -f sam -s no -t CDS -i ID -m union --nonunique=none --secondary-alignments=ignore -o SRR957678_assigned.sam SRR957678.sam /home/aa/hg19/hg19.gff > SRR957678_expression.counts

生成文件:SRR957677_expression.counts SRR957678_expression.counts

記錄比對(duì)到每個(gè)基因上的短片段數(shù)目, 代表基因表達(dá)水平的高低。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 有三大全文網(wǎng)站提供參考基因組下載,它們分別是:1.NCBI (https://www.ncbi.nlm.nih.g...
    whale_jww閱讀 2,671評(píng)論 0 5
  • RNA-seq如今已經(jīng)成了最受寵愛(ài)的生信分析了,而如今琳瑯滿(mǎn)目的各種生信軟件擺在具有新時(shí)代選擇困難癥的同學(xué)們眼前我...
    sober01閱讀 6,730評(píng)論 0 31
  • 一:?jiǎn)?dòng)conda環(huán)境source activate apa二:將sra轉(zhuǎn)化為fastq格式 三:質(zhì)量報(bào)告 四:質(zhì)...
    whale_jww閱讀 574評(píng)論 0 1
  • RNA-seq流程-從SRR下載到得到表達(dá)矩陣 1.數(shù)據(jù)下載 在~/project/new/路徑下,將SRR號(hào)重定...
    小夢(mèng)游仙境閱讀 3,882評(píng)論 1 8
  • 熱烈從紙上 溢滿(mǎn) 深深 是無(wú)法言說(shuō)的 激動(dòng) 飽滿(mǎn) 從疲憊的生活里 鉆出了一條縫 傳來(lái)了 鳥(niǎo)叫聲 人類(lèi)的喧囂聲 寂寞...
    武十狼閱讀 156評(píng)論 0 2

友情鏈接更多精彩內(nèi)容