RNA-seq數(shù)據(jù),PE150策略,公司給出了rawdata及cleandata
公司給出的下機(jī)數(shù)據(jù)格式
格式如下圖

每個(gè)標(biāo)本一個(gè)文件夾

每個(gè)文件夾包括雙端測(cè)序的fq格式文件及MD5校驗(yàn)文件
由于服務(wù)器空間有限,因此在自己的移動(dòng)硬盤處理數(shù)據(jù),每個(gè)流程一個(gè)文件夾,定義移動(dòng)硬盤的check文件夾維目錄檢查內(nèi)容
進(jìn)入文件夾
cd /home/test/project/check
設(shè)定目錄
ad=/home/test/project/data
nohup find $ad -name *.gz -print0 | xargs -0 md5sum > check.md5 &
因?yàn)榭赡苄枰^長(zhǎng)時(shí)間,因此放入后臺(tái)運(yùn)行并掛起
nohup find $ad -name *.txt -print0 |xargs -0 cat > check.list &
把每個(gè)文件夾的md5文件整理并放入check.list中
awk '{print $1}' check.list >newcheck
awk '{print $1}' check.md5 >newmd5
md5值在每個(gè)文件中的第一列中,提取出來(lái)并新建目錄
diff -s newcheck newmd5
利用diff命令對(duì)比兩文件并最終確定是否相同,s參數(shù)的意義是對(duì)比正確后予以顯示

結(jié)果