教程:http://www.bio-info-trainee.com/2218.html
B站 jimmy大神的視頻
數(shù)據(jù)可以從別人的文獻里來,也可以是自己測回來的fastq格式的。
1,數(shù)據(jù)獲得-從文獻來
https://www.ncbi.nlm.nih.gov/geo/
根據(jù)文獻里的GEO accession,輸入上面網(wǎng)站,比如GSE50177,搜索到這組數(shù)據(jù)。
在sample這里可以看到六個數(shù)據(jù),前兩個是ChIP-seq的,后四個是RNAseq的。

點擊下方SRA的編號: SRP029245。
從send to下拉菜單中選擇file,RunInfo。之后下載一個文件名為:SraRunInfo.csv。用excel打開,可以找其中有用的兩列Run和SampleName,不過這個samplename并不是我們需要的啊。
所以回到剛才界面,吧GSM...對應(yīng)的文字名稱拷貝到第三列——這個才是咱們理解的樣本名嘛。然后把這個文件的title刪掉,其他沒用的列都刪掉,只留兩列有用的,保存成為SraRunInfo.txt,一定要是txt格式才行。


最后把SraRunInfo.txt文件上傳到服務(wù)器 ~/rnaseq目錄之下。
2. 安裝SRAToolkit
conda activate py3.7
conda install sra-tools
fastq-dump -h #成功出現(xiàn)幫助文檔
3. 下載sra轉(zhuǎn)換為fastq格式
建立一個txt文本,改名為rnaseq-sra2fq.slurm :輸入下面代碼
#!/bin/bash
#SBATCH --output=rnaseq-sra2fq.out
#SBATCH --error=rnaseq-sra2fq.err
#SBATCH --mail-type=end
#SBATCH --mail-user=zmeraner@126.com
module add Anaconda3/2020.02
source activate
conda activate py3.7 #激活3.7環(huán)境
#sra2fq
mkdir ~/rnaseq/rawdata
analysis_dir=~/rnaseq/rawdata
cat ~/rnaseq/SraRunInfo.txt | while read id
do
arr=($id)
srr=${arr[0]}
sample=${arr[1]}
prefetch $srr
fastq-dump -O $analysis_dir -A $sample --gzip --split-3 ~/rnaseq/$srr/$srr.sra
done
把這個slurm文件上傳到服務(wù)器。并且點擊右側(cè)選項:DOS to UNIX,使之成為可執(zhí)行。
通過sbatch rnaseq-sra2fq.slurm提交
就可以執(zhí)行了。

執(zhí)行完就生成了這些文件名都已經(jīng)變?yōu)榍懊婺切颖久Q,也能看懂是什么意義啦。
心得:
1,不同版本的軟件可能更新或者安全程度不一樣,所以當一個軟件如果運行報錯,看看是不是要升級。
2,從GEO上下數(shù)據(jù),最好先下載sra,這一步比較快一個文件幾百M的,約2分鐘就行,但是fastq-dump轉(zhuǎn)換成fastq這一步就大約要大約十幾分鐘呢,兩步合并操作容易出錯,比如下載數(shù)據(jù)不全之類。之前day16時兩步合并操作,但是長遠看,還是分開的好。
3,prefetch 下載到slurm文件所在文件夾下,每個sra都建立了一個新的文件夾,就以SRR**為文件夾名。這一點和網(wǎng)上教程所說的不一樣啊。別家教程都說會下載到NCBI這個文件夾中。。。在轉(zhuǎn)為fastq之后,這些文件夾和里面的sra文件都可以刪掉啦。
4,其實最初報了幾個錯什么certificate的問題,升級一下sra-tools
conda update sra-tools
又把prefetch和fastq-dump分成兩個命令執(zhí)行就成功了。(最初按照day16的方法用fastq-dump直接不下載sra,直接就轉(zhuǎn)換。但是今天失敗了,總報錯)