mtscATAC-seq 使用 mgatk 鑒定高質量變異

mgtak 共有 3 種主要模式:call、bcall、tenx 每種模式輸出相同的文件,根據輸入數據的來源和格式以及計算資源,選擇合適的模式;和 2 種支持模式:check、support 輔助更好地使用 mgtak。

  • 每個樣本一個 .bam文件,則使用 call 模式;
  • 來自 10x Genomics 文庫的數據,使用 tenx 模式;
  • 擁有單細胞數據或多個樣本在一個 .bam文件中,但有非常規(guī)的條形碼,或者是未知的條形碼,使用 bcall 模式;

mgtak tenx 的使用:

輸入文件為 cellranger-atac 輸出文件

mgtak tenx -i $bamfile \  # cellranger-atac 輸出的 bam 文件: pbmc_10k/out/possorted_bam.bam (該目錄下需含有其 .bam.bi 文件)
    -b $barcodefile \  # cellranger-atac 輸出 barcode 文件:pbmc_10k/out/filtered_feature_bc_matrix/barcodes.tsv
    -bt CB \  # 讀取標簽(一般為兩個字母)以分離單個細胞;僅在' bcall '模式下有效且必需。
    -n $name \  # project name
    -o $outdir \  # outdir 
    -c 12  # 并行運行主作業(yè)的核數

-bt CB 表示 CB SAM 標簽表示每個單細胞的 barcodes, 默認為 10X .bam 文件

輸入文件為 cellranger 的輸出:

mgatk tenx \
  -i ${outdir}/outs/possorted_bam.bam \
  -n CRR_test1 \
  -o CRR_test1_mgatk \
  -c 12 \
  -ub UB \ # 讀取標簽(通常是兩個字母),以指定在刪除重復基因分型時的UMI標簽。
  -bt CB \
  -b ${outdir}/outs/filtered_feature_bc_matrix/barcodes.tsv

mgatk 的模式介紹

call

call 模式輸入 .bam 文件目錄,識別所有 .bam 文件,并將每個文件視為單獨的樣本。該模式適用于 1) Fluidigm C1, Smart-seq2 和其他基于平板的檢測;2) 批量基因組學樣本。要運行此模式,只需指定文件路徑并添加所需的任何其他用戶選項。

mgatk call -i folder_of_bam_files ...

bcall

bcall 模式利用用戶指定的 cell barcode 來識別不同的細胞,可以是已知的條形碼列表 (-b FILE),也可以是通過識別大于X 個 mtDNA reads 的條形碼 (-mb X)。將主.bam 文件拆分為數千個單細胞 bam,然后依次處理它們。打開數千個 tile 會對文件系統造成壓力,可使用 -ns 來減少一次打開的文件數量。

使用 bcall,指定包含 mtDNA reads 的有效的 .bam 文件,并使用 -b 或 -mb 選項:

mgatk bcall -i path_to_bam_file ...

tenx

tenx 模式利用 10x Genomics .bam 文件。16bp 條形碼和可選的 UMI 用于實現更智能的處理,從而避免將原始的 bam 文件拆分為數千個單獨的文件。運行時間也更快。例如,輸入文件是 CellRanger 或 CellRanger- atac 的輸出)。

基本輸入需要一個 bam文件和一個用于分析的已知 HQ 條形碼,例如由 CellRanger knee call 產生的條形碼:

mgatk tenx -i path_to_bam_file -b known_barcodes_file ...

check

check 模式檢查上述的輸入。減少不正確的文件路徑,錯誤的參考基因組規(guī)格,或缺少依賴項等問題影響分析。

support

support 模式顯示可用的內置配置。

鑒定信息的變體

使用 Seurat/Signac R 包分析 mtscATAC-seq 的 mtDNA變異

適合多種形式

  • ReadMGATK 從 mgatk 輸出中導入文件,并將它們存儲在Seurat對象中;
  • IdentifyVariant 利用 mtscATAC-seq 庫上的鏈一致性和 VMR 統計來鑒定高質量的亞克隆變異;
  • FindClonotypes 從前面的函數中獲取高置信度的變體,然后通過異質空間中的細胞-細胞鄰居圖構建來推斷克??;
  • AlleleFreq 計算每個細胞/變體的等位基因頻率;

使用 mgatk 自動鑒定

不適用于液滴的 scRNA-seq ,因為只有一條鏈被測序。

stand correlation 和 variance-mean ratio 的圖是識別 mtDNA 變異信息量最大的圖,默認輸出在 ".vmr_strand_plot.png"。x軸代表了一個變體在細胞中的正向和反向鏈讀取計數之間的 Pearson 相關性。該指標基于鏈間異質性的總體一致性,有效地分離了低質量變異和高質量變異。總的來說,是確定一種突變模式,其中一些變異比其他變異更常見(轉換比顛換更常見)。此圖可以在 mgatk 輸出的 ".variant_stats.tsv.gz" 和 "refallee .txt" 文件中快速生成。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容