mgtak 共有 3 種主要模式:call、bcall、tenx 每種模式輸出相同的文件,根據輸入數據的來源和格式以及計算資源,選擇合適的模式;和 2 種支持模式:check、support 輔助更好地使用 mgtak。
- 每個樣本一個 .bam文件,則使用
call模式; - 來自 10x Genomics 文庫的數據,使用
tenx模式; - 擁有單細胞數據或多個樣本在一個 .bam文件中,但有非常規(guī)的條形碼,或者是未知的條形碼,使用
bcall模式;
mgtak tenx 的使用:
輸入文件為 cellranger-atac 輸出文件
mgtak tenx -i $bamfile \ # cellranger-atac 輸出的 bam 文件: pbmc_10k/out/possorted_bam.bam (該目錄下需含有其 .bam.bi 文件)
-b $barcodefile \ # cellranger-atac 輸出 barcode 文件:pbmc_10k/out/filtered_feature_bc_matrix/barcodes.tsv
-bt CB \ # 讀取標簽(一般為兩個字母)以分離單個細胞;僅在' bcall '模式下有效且必需。
-n $name \ # project name
-o $outdir \ # outdir
-c 12 # 并行運行主作業(yè)的核數
-bt CB 表示 CB SAM 標簽表示每個單細胞的 barcodes, 默認為 10X .bam 文件
輸入文件為 cellranger 的輸出:
mgatk tenx \
-i ${outdir}/outs/possorted_bam.bam \
-n CRR_test1 \
-o CRR_test1_mgatk \
-c 12 \
-ub UB \ # 讀取標簽(通常是兩個字母),以指定在刪除重復基因分型時的UMI標簽。
-bt CB \
-b ${outdir}/outs/filtered_feature_bc_matrix/barcodes.tsv
mgatk 的模式介紹
call
call 模式輸入 .bam 文件目錄,識別所有 .bam 文件,并將每個文件視為單獨的樣本。該模式適用于 1) Fluidigm C1, Smart-seq2 和其他基于平板的檢測;2) 批量基因組學樣本。要運行此模式,只需指定文件路徑并添加所需的任何其他用戶選項。
mgatk call -i folder_of_bam_files ...
bcall
bcall 模式利用用戶指定的 cell barcode 來識別不同的細胞,可以是已知的條形碼列表 (-b FILE),也可以是通過識別大于X 個 mtDNA reads 的條形碼 (-mb X)。將主.bam 文件拆分為數千個單細胞 bam,然后依次處理它們。打開數千個 tile 會對文件系統造成壓力,可使用 -ns 來減少一次打開的文件數量。
使用 bcall,指定包含 mtDNA reads 的有效的 .bam 文件,并使用 -b 或 -mb 選項:
mgatk bcall -i path_to_bam_file ...
tenx
tenx 模式利用 10x Genomics .bam 文件。16bp 條形碼和可選的 UMI 用于實現更智能的處理,從而避免將原始的 bam 文件拆分為數千個單獨的文件。運行時間也更快。例如,輸入文件是 CellRanger 或 CellRanger- atac 的輸出)。
基本輸入需要一個 bam文件和一個用于分析的已知 HQ 條形碼,例如由 CellRanger knee call 產生的條形碼:
mgatk tenx -i path_to_bam_file -b known_barcodes_file ...
check
check 模式檢查上述的輸入。減少不正確的文件路徑,錯誤的參考基因組規(guī)格,或缺少依賴項等問題影響分析。
support
support 模式顯示可用的內置配置。
鑒定信息的變體
使用 Seurat/Signac R 包分析 mtscATAC-seq 的 mtDNA變異
適合多種形式
-
ReadMGATK從 mgatk 輸出中導入文件,并將它們存儲在Seurat對象中; -
IdentifyVariant利用 mtscATAC-seq 庫上的鏈一致性和 VMR 統計來鑒定高質量的亞克隆變異; -
FindClonotypes從前面的函數中獲取高置信度的變體,然后通過異質空間中的細胞-細胞鄰居圖構建來推斷克??; -
AlleleFreq計算每個細胞/變體的等位基因頻率;
使用 mgatk 自動鑒定
不適用于液滴的 scRNA-seq ,因為只有一條鏈被測序。
stand correlation 和 variance-mean ratio 的圖是識別 mtDNA 變異信息量最大的圖,默認輸出在 ".vmr_strand_plot.png"。x軸代表了一個變體在細胞中的正向和反向鏈讀取計數之間的 Pearson 相關性。該指標基于鏈間異質性的總體一致性,有效地分離了低質量變異和高質量變異。總的來說,是確定一種突變模式,其中一些變異比其他變異更常見(轉換比顛換更常見)。此圖可以在 mgatk 輸出的 ".variant_stats.tsv.gz" 和 "refallee .txt" 文件中快速生成。