1、數(shù)據(jù)獲取
轉(zhuǎn)錄組原始數(shù)據(jù)一般以SRA的格式存放于NCBI,并且有一個(gè)ID,如一個(gè)項(xiàng)目ID:PRJNA778905;單個(gè)原始數(shù)據(jù)的ID:SRP346255。一般轉(zhuǎn)錄組一組3個(gè)生物學(xué)重復(fù),最最簡單的實(shí)驗(yàn)也有兩組就是六個(gè)原始數(shù)據(jù)。
直接使用prefetch 下載,自動(dòng)下載六個(gè)樣本
$ prefetch PRJNA778905


#2、轉(zhuǎn)換數(shù)據(jù)格式
SRA-->fastq 多個(gè)文件轉(zhuǎn)換一個(gè)一個(gè)太麻煩,將所有要轉(zhuǎn)換的SRA文件放一起。用xargs -i 批量生成腳本,-i 的意思是按行處理,將每行內(nèi)容存儲(chǔ)到特殊變量{}中, echo 后接要執(zhí)行的命令 parallel-fastq-dump --sra-id {} --threads 70 --outdir ../ --split-files --gzip
$ parallel-fastq-dump --sra-id SRR16953033.sra --threads 70 --outdir ../ --split-files --gzip
批量運(yùn)行腳本
$ ls *.sra |xargs -i echo parallel-fastq-dump --sra-id {} --threads 70 --outdir ./rawdata/ --split-files --gzip & > sra_to_fastq.sh
#3、數(shù)據(jù)質(zhì)控過濾
使用軟件fastp
conda install -c bioconda fastp
雙端數(shù)據(jù)
簡單用法:fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz -c 堿基矯正 -h 報(bào)告.html -j 報(bào)告.json -W 滑窗質(zhì)量剪裁,默認(rèn)4 -M 指定要求的平均質(zhì)量值,默認(rèn)是20,也就是Q20
fastp -i SRR16953033_1.fastq.gz -I SRR16953033_2.fastq.gz -o 33.R1.fq.gz -O 33.R2.fq.gz -c -h 33.html -j 33.json -w 16 最大16線程
#4、比對(duì)到參考基因組
Bowtie2 和hisat2 下載安裝
conda install bowtie2
conda install hisat2
建立參考基因組索引 ,基因組大于4G
$ hisat2-build As.fa As -p 70 --large-index
$ bowtie2-build --threads 70 As.fa As
嘗試比對(duì)一個(gè)轉(zhuǎn)錄組測(cè)序數(shù)據(jù), -p 60線程 --phred33 堿基質(zhì)量 -1 xx.fastq.gz -2 xx.fastq.gz xx.sam
nohup bowtie2 -p 60 --phred33 -x As -1 ./xiumian_SRA/cleandata/33_1.fastq.gz -2 ./xiumian_SRA/cleandata/33_2.fastq.gz -S 33.sam 2>33.bowtie2.log &
nohup hisat2 -x ./As -p 12 --exon ~/genome/garlic/As_exonSite.txt -1 ../xiumian_SRA/cleandata/33_1.fastq.gz -2 ../xiumian_SRA/cleandata/33_2.fastq.gz -S 33.hisat2.sam >33.hisat2.log &