2023-04-11 轉(zhuǎn)錄組原始數(shù)據(jù)下載

1、數(shù)據(jù)獲取

轉(zhuǎn)錄組原始數(shù)據(jù)一般以SRA的格式存放于NCBI,并且有一個(gè)ID,如一個(gè)項(xiàng)目ID:PRJNA778905;單個(gè)原始數(shù)據(jù)的ID:SRP346255。一般轉(zhuǎn)錄組一組3個(gè)生物學(xué)重復(fù),最最簡單的實(shí)驗(yàn)也有兩組就是六個(gè)原始數(shù)據(jù)。

直接使用prefetch 下載,自動(dòng)下載六個(gè)樣本
$ prefetch PRJNA778905
![image.png](https://upload-images.jianshu.io/upload_images/28411468-289cbee3c65cdd2c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![image.png](https://upload-images.jianshu.io/upload_images/28411468-0d4ec37b05d2a23f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
#2、轉(zhuǎn)換數(shù)據(jù)格式
SRA-->fastq 多個(gè)文件轉(zhuǎn)換一個(gè)一個(gè)太麻煩,將所有要轉(zhuǎn)換的SRA文件放一起。用xargs -i 批量生成腳本,-i 的意思是按行處理,將每行內(nèi)容存儲(chǔ)到特殊變量{}中, echo 后接要執(zhí)行的命令 parallel-fastq-dump --sra-id {} --threads 70 --outdir ../ --split-files --gzip
$ parallel-fastq-dump --sra-id SRR16953033.sra --threads 70 --outdir ../ --split-files --gzip
批量運(yùn)行腳本

$ ls *.sra |xargs -i echo parallel-fastq-dump --sra-id {} --threads 70 --outdir ./rawdata/ --split-files --gzip & > sra_to_fastq.sh

#3、數(shù)據(jù)質(zhì)控過濾
使用軟件fastp
conda install -c bioconda fastp
雙端數(shù)據(jù)
簡單用法:fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz -c 堿基矯正 -h 報(bào)告.html -j 報(bào)告.json -W 滑窗質(zhì)量剪裁,默認(rèn)4 -M 指定要求的平均質(zhì)量值,默認(rèn)是20,也就是Q20
fastp -i SRR16953033_1.fastq.gz -I SRR16953033_2.fastq.gz -o 33.R1.fq.gz -O 33.R2.fq.gz -c -h 33.html -j 33.json -w 16 最大16線程
#4、比對(duì)到參考基因組
Bowtie2 和hisat2 下載安裝
conda install bowtie2
conda install hisat2
建立參考基因組索引 ,基因組大于4G
$ hisat2-build As.fa As -p 70 --large-index
$ bowtie2-build --threads 70 As.fa As
嘗試比對(duì)一個(gè)轉(zhuǎn)錄組測(cè)序數(shù)據(jù), -p 60線程 --phred33 堿基質(zhì)量 -1 xx.fastq.gz -2 xx.fastq.gz xx.sam
nohup bowtie2 -p 60 --phred33 -x As -1 ./xiumian_SRA/cleandata/33_1.fastq.gz -2 ./xiumian_SRA/cleandata/33_2.fastq.gz -S 33.sam 2>33.bowtie2.log &
nohup hisat2 -x ./As -p 12 --exon ~/genome/garlic/As_exonSite.txt -1 ../xiumian_SRA/cleandata/33_1.fastq.gz -2 ../xiumian_SRA/cleandata/33_2.fastq.gz -S 33.hisat2.sam >33.hisat2.log &
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容