具體流程見(jiàn)
trim_galore去接頭(并行處理)
命令為
dir=/home/kelly/wesproject/4_clean/
cat config |while read id
do
arr=${id}
fq1=${arr[0]}
fq2=${arr[1]}
nohup trim_galore -q 25 --phred33 --length 36 -e 0.1 --stringency 3 --paired -o $dir $fq1 $fq2 &
done
config是需要進(jìn)行處理的文件列表
trim_galore命令這里用的也比較簡(jiǎn)單,總結(jié)下處理時(shí)遇到的問(wèn)題
1 關(guān)于一次可以并行處理多少的問(wèn)題
我從15個(gè)到20個(gè)到100個(gè)最后嘗試幾百個(gè),同時(shí)處理,是可行的。但最佳是不要超過(guò)300個(gè)樣本,這好像是我的服務(wù)器能處理的最大量。
2 中間文件
開(kāi)始處理文件是fq 1,也就是先對(duì)_1文件進(jìn)行去接頭處理,開(kāi)始生成的文件是
├── [ 581] SRR8707681_1.fastq.gz_trimming_report.txt
├── [2.9G] SRR8707681_1_trimmed.fq.gz
然后同時(shí)對(duì)-2進(jìn)行去接頭處理,但往往是對(duì)1完成大半后
├── [ 581] SRR8707698_1.fastq.gz_trimming_report.txt
├── [2.9G] SRR8707698_1_trimmed.fq.gz
├── [5.2K] SRR8707698_2.fastq.gz_trimming_report.txt
├── [5.0K] SRR8518370_1.fastq.gz_trimming_report.txt
├── [2.4G] SRR8518370_1_trimmed.fq.gz
├── [ 581] SRR8518370_2.fastq.gz_trimming_report.txt
├── [1.5G] SRR8518370_2_trimmed.fq.gz
當(dāng)1和2都去接頭完成后,就會(huì)開(kāi)始生成val文件,所以接下來(lái)會(huì)存在6個(gè)對(duì)應(yīng)的文件,并且除report外都很大,下面是正在生成val
所以,這個(gè)如果并行很多樣本,要空間夠大
├── [4.7K] SRR8518401_1.fastq.gz_trimming_report.txt
├── [1.9G] SRR8518401_1_trimmed.fq.gz
├── [955M] SRR8518401_1_val_1.fq.gz
├── [4.7K] SRR8518401_2.fastq.gz_trimming_report.txt
├── [2.0G] SRR8518401_2_trimmed.fq.gz
├── [1.0G] SRR8518401_2_val_2.fq.gz
最后,
trimmed文件自動(dòng)刪除,只留下val文件
├── [4.7K] SRR8518401_1.fastq.gz_trimming_report.txt
├── [1.8G] SRR8518401_1_val_1.fq.gz
├── [4.9K] SRR8518401_2.fastq.gz_trimming_report.txt
├── [2.0G] SRR8518401_2_val_2.fq.gz
3 top和ps-ef進(jìn)程
%cpu id開(kāi)始很小,隨著數(shù)據(jù)處理完成會(huì)越來(lái)越大
ps-ef到最后也都會(huì)顯示已經(jīng)結(jié)束
所以 在沒(méi)有學(xué)會(huì)腳本判斷進(jìn)程是否結(jié)束之前,會(huì)用top和ps -ef來(lái)判斷
htop更好用