問題起因:在用gatk進行HaplotypeCaller時,報錯

原因是在用hisat2或者bwa比對是沒有添加RG;hisat2(參數(shù)為--rg),bwa(參數(shù)為-R)

而GATK2.0以上版本將不再支持無頭文件的變異檢測。加頭這一步可以在BWA比對的時候進行,通過-r參數(shù)的選擇可以完成。如果在BWA比對期間沒有選擇-r參數(shù),可以增加這一步驟??墒褂胮icard-tools中AddOrReplaceReadGroups完成(https://www.cnblogs.com/daimakun/p/5089324.html)。
加表頭可以通過兩種方式:samtools reheader和picard AddOrReplaceReadGroups (https://blog.csdn.net/viancheng/article/details/107063765)
所以目前問題可以通過加表頭解決:
picard AddOrReplaceReadGroups I=SRR10052239.rmdup.bam O=test1.bam RGID=SRR10052239 RGLB=SRR10052239 RGPL=ILLUMINA RGPU=unit1 RGSM=SRR10052239 &>test1.log &
這幾個參數(shù)是必須的:
RGID:輸入reads集ID號(可以是SRR10052239)
RGLB:read集文庫名(同樣可以為SRR10052239;在bwa -R不用定義,所以不重要?)
RGPL:測序平臺(ILLUMINA)
RGPU:測序平臺下級單位名稱(run的名稱;在bwa -R不用定義,所以不重要?)
RGSM:樣本名稱(SRR10052239)
Note:以picard AddOrReplaceReadGroups I=SRR10052239.rmdup.bam O=test1.bam RGID=4 RGLB=lib1 RGPL=ILLUMINA RGPU=unit1 RGSM=SRR10052239 &>test1.log &進行測試;生成的結果可以正常生成g.vcf文件,證明填寫好RGPL和RGSM就好了,其他不重要?。。?/p>
Note:參考生信技能樹的課程,他bwa時也沒有添加readgroup;
但是通過AddOrReplaceReadGroups.jar同時實現(xiàn)了sort和添加readgroup??(http://www.bio-info-trainee.com/838.html)
