下載數(shù)據(jù)

搜索GSEXXX
利用prefetch下載數(shù)據(jù)

  1. prefetch安裝與使用
prefetch -h # 可以顯示幫助文檔就說(shuō)明安裝成功
# 如果要下載數(shù)據(jù)比如SRR文件,直接加ID號(hào),指定輸出目錄就好
prefetch SRRxxxxxxx -O PATH
  1. aspera安裝
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目錄下看看是不是存在了.aspera文件夾,有的話表示安裝成功
cd && ls -a
# 將aspera軟件加入環(huán)境變量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后檢查ascp是不是能用了
ascp --help

3.數(shù)據(jù)下載

wkd=/home/project/single-cell/MCC

cd $wkd/raw
# for patient 2586-4
cat >SRR_Acc_List-2586-4.txt
SRR7722937
SRR7722938
SRR7722939
SRR7722940
SRR7722941
SRR7722942

cat SRR_Acc_List-2586-4.txt |while read i
do prefetch $i -O `pwd` && echo "** ${i}.sra done **"
done

其中Acssesion list 可在GEO-SRA中下載

如果作者將數(shù)據(jù)上傳在EBI中
詳見(jiàn)http://www.itdecent.cn/p/9040b7573380
理解測(cè)序原始數(shù)據(jù)的幾個(gè)參數(shù):
I1:library barcode(sample index)文件大小最小
used to multiple samples on one sequencing lane(8bp)
R1:cell barcode
used to identify the cell the read come from (16bp) +
to identify reads that arise during PCR replication
R2:sequencing reads 文件大小最大
to identify the gene a read came from(91 - 98bp)

sra文件轉(zhuǎn)為fastq

time fastq-dump --gzip --split-3 -A $i ${i}.sra && echo "** ${i}.sra to fastq done **"
cat命令
結(jié)束用法:ctrl + D

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容