1. 序列比對(duì)到圖基因組
vg map -m short -t 24 -x graph.xg -g graph.gcsa -f Sample40.1.fq.gz -f Sample40.2.fq.gz > Sample40.gam
關(guān)鍵參數(shù):
-m short:指定短讀長(zhǎng)模式(Illumina數(shù)據(jù))
-t 24:使用24線程并行加速
-x graph.xg:輸入圖基因組索引(XG格式)
-g graph.gcsa:輸入圖基因組GCSA索引(支持高效k-mer查找)
-f:指定雙端FASTQ文件(.1/.2表示read1/read2)
2. 比對(duì)統(tǒng)計(jì)
vg stats -a Sample40.gam > Sample40.gam.stats
輸出內(nèi)容:
總比對(duì)reads數(shù)
比對(duì)率
平均覆蓋深度
插入片段大小分布
用途:質(zhì)控比對(duì)質(zhì)量,確保后續(xù)分析可靠性
3. 圖基因組增強(qiáng)
vg augment -t 14 -Q 5 -q 5 -m 4 -s -A Sample40.aug.gam graph.vg Sample40.gam > Sample40.aug.vg
功能:將樣本特有變異整合到基礎(chǔ)圖基因組中
關(guān)鍵參數(shù):
-t 14:使用14線程
-Q 5 -q 5:過(guò)濾堿基質(zhì)量<5和比對(duì)質(zhì)量<5的數(shù)據(jù)
-m 4:最小覆蓋深度閾值=4
-s:在圖中保留序列信息
-A Sample40.aug.gam:輸出增強(qiáng)后的比對(duì)文件
輸入輸出:
輸入:原始圖graph.vg?+ 比對(duì)Sample40.gam
輸出:樣本特異圖Sample40.aug.vg?+ 新比對(duì)Sample40.aug.gam
4. 構(gòu)建增強(qiáng)圖索引
vg index -t 14 -x Sample40.aug.xg Sample40.aug.vg
功能:為增強(qiáng)后的圖構(gòu)建高效索引
關(guān)鍵參數(shù):
-t 14:多線程加速
-x:構(gòu)建XG格式索引(支持快速遍歷)
輸出:Sample40.aug.xg(索引文件)
必要性:為后續(xù)打包(pack)和變異檢測(cè)提供快速訪問(wèn)支持
5. 覆蓋深度打包
vg pack -t 14 -x Sample40.aug.xg -g Sample40.aug.gam -Q 5 -s 5 -o Sample40.aug.pack
功能:計(jì)算每個(gè)節(jié)點(diǎn)的覆蓋深度和支持堿基
關(guān)鍵參數(shù):
-x:指定增強(qiáng)圖索引
-g:輸入增強(qiáng)后的比對(duì)文件
-Q 5 -s 5:堿基質(zhì)量和比對(duì)質(zhì)量過(guò)濾
-o:輸出打包文件
輸出:Sample40.aug.pack(二進(jìn)制格式,包含覆蓋深度信息)
6. 變異檢測(cè)
vg call -t 14 -a -s Sample40 -k Sample40.aug.pack Sample40.aug.xg > Sample40.aug.vcf
功能:從增強(qiáng)圖中檢測(cè)樣本特異性變異
關(guān)鍵參數(shù):
-t 14:多線程加速
-a:輸出等位基因支持信息
-s Sample40:設(shè)置樣本名稱
-k Sample40.aug.pack:輸入覆蓋深度打包文件
輸出:Sample40.aug.vcf(標(biāo)準(zhǔn)VCF格式變異結(jié)果)

我認(rèn)為:可不可以,不用圖基因組增強(qiáng)和構(gòu)建增強(qiáng)圖索引等步驟。直接基于原始的graph.xg進(jìn)行SV的鑒定。這樣會(huì)節(jié)省很多計(jì)算成本和時(shí)間吧,而且我個(gè)人感覺(jué)短read基礎(chǔ)的圖增強(qiáng),可信度很低。
您的觀點(diǎn)非常合理!確實(shí)可以跳過(guò)圖增強(qiáng)(vg augment)和增強(qiáng)圖索引步驟,直接基于原始圖進(jìn)行變異檢測(cè),這樣能顯著節(jié)省計(jì)算成本和時(shí)間。以下是優(yōu)化后的流程及原因分析:
優(yōu)化后流程(跳過(guò)圖增強(qiáng))
# 1. 比對(duì)到原始圖vg map-mshort-t24-xgraph.xg-ggraph.gcsa-fSample40.1.fq.gz-fSample40.2.fq.gz>Sample40.gam
# 2. 直接計(jì)算覆蓋深度(基于原始圖)vg pack-t24-xgraph.xg-gSample40.gam-oSample40.pack
# 3. 直接在原始圖上調(diào)用變異vg call-t24-a-sSample40-kSample40.pack graph.xg>Sample40.direct.vcf
