sigprofiler的安裝與使用
SigProfiler提供了一套完整的生物信息學(xué)工具來進(jìn)行突變特征分析。該軟件涵蓋了分析流程,從生成突變矩陣開始,到完成特征提取,以及繪圖和模擬的支持功能.也已經(jīng)有工具把這些功能都整合到一塊,比如sigminer,使用起來更加方便。

它總共分為四個(gè)工具:
SigProfilerMatrixGenerator :為所有類型的體細(xì)胞突變創(chuàng)建突變矩陣。
SigProfilerExtractor :允許從頭提取突變特征,識(shí)別操作特征的數(shù)量、它們的活動(dòng)和它們導(dǎo)致特定突變類型的概率。
SigProfilerSimulator :允許對(duì)癌癥基因組中的突變模式和突變特征進(jìn)行真實(shí)的模擬。該工具可用于模擬SBS、DBS和ID簽名。
SigProfilerPlotting :提供了一個(gè)標(biāo)準(zhǔn)工具,用于顯示癌癥基因組中所有類型的突變特征以及所有類型的突變模式。
SigProfilerMatrixGenerator
安裝

以上就是它的幾個(gè)依賴,Reference genomes可以先不用安裝,可以通過 pip 實(shí)現(xiàn) pandas、Wget 和 SigProfilerPlotting 的單獨(dú)安裝。
等所有依賴安裝好后,直接使用pip安裝。
pip install SigProfilerMatrixGenerator
在使用 SigProfilerMatrixGenerator 工具之前,需要安裝參考基因組文件。 從命令行安裝所需的參考基因組,如下所示:
$ python3
>> from SigProfilerMatrixGenerator import install as genInstall
>> genInstall.install('GRCh37', bash=True)

雖然說官方也有R的安裝程序,但其實(shí)還是調(diào)用的python程序,所以我推薦直接用python。這里就不再介紹R的安裝步驟,有興趣的話可以去https://osf.io/s93d5/wiki/2.%20Installation%20-%20R/看看。
使用
輸入

ICGC_example

首先需要新建目錄:
[圖片上傳失敗...(image-4ae99f-1628561822275)]
[圖片上傳失敗...(image-35afb6-1628561822275)]
code
python3
>>from SigProfilerMatrixGenerator.scripts import SigProfilerMatrixGeneratorFunc as matGen
>>matrices = matGen.SigProfilerMatrixGeneratorFunc(project, genome, vcfFiles, exome=False, bed_file=None, chrom_based=False, plot=False, tsb_stat=False, seqInfo=False)
必須參數(shù):
project :就是你的輸入文件名; 如"BRCA"
genome:你的參考基因組;如"GRCh37"
vcfFiles:剛剛新建目錄的路徑;如 "~/MatrixTest/"
可選參數(shù):
exome:把生成的矩陣下采樣到基因組的外顯子區(qū)域。
bed_file:將突變矩陣下采樣到基因組的自定義區(qū)域。 需要 BED 文件的完整路徑。
chrom_based:輸出基于染色體的矩陣
plot:與 SigProfilerPlotting 集成以輸出每個(gè)矩陣的所有可用可視化。
tsb_stat:輸出各個(gè)矩陣的轉(zhuǎn)錄鏈偏差測試的結(jié)果。
seqInfo:將原始突變輸出到包含每個(gè)突變的 SigProfilerMatrixGenerator 分類的文本文件中。
輸出
[圖片上傳失敗...(image-b0e62-1628561822275)]

TSB
T:轉(zhuǎn)錄 該變體位于轉(zhuǎn)錄鏈上。
U:未轉(zhuǎn)錄 該變體位于未轉(zhuǎn)錄的鏈上。
B:雙向 該變體在兩條鏈上并且以任一方式轉(zhuǎn)錄。
N:非轉(zhuǎn)錄 該變體位于非編碼區(qū)且未翻譯。

SigProfilerExtractor

安裝
pip install SigProfilerExtractor
使用
$ python3
>> from SigProfilerExtractor import sigpro as sig
>> sig.sigProfilerExtractor("vcf", "results", "path/to/21BRCA_vcf", genome_build="GRCh37", minimum_signatures=1, maximum_signatures=10, nmf_replicates=100)
>>> sig.sigProfilerExtractor("matrix", "results", "path/to/21BRCA.txt", reference_genome="GRCh37", minimum_signatures=1, maximum_signatures=10, nmf_replicates=100, cpu=-1)
詳細(xì)參數(shù):
datatype:"matrix" or "vcf"
output_put: 輸出文件夾的名稱。 輸出文件夾將在當(dāng)前工作目錄中生成。
input_data:對(duì)于vcf文件,是所在的文件夾名;對(duì)于matrix文件,是文件名
reference_genome:參考基因組的名稱。 有效值包括以下之一:“GRCh37”、“GRCh38”、“mm9”、“mm10”。 默認(rèn)參考基因組是“GRCh37”。 此參數(shù)僅在 input_type 為“vcf”時(shí)適用
opportunity_genome:參考基因組的參考簽名的構(gòu)建或版本。 有效值包括以下之一:“GRCh37”、“GRCh38”、“mm9”、“mm10”。 默認(rèn)的機(jī)會(huì)基因組是 GRCh37。 如果 input_type 是“vcf”,genome_build 會(huì)自動(dòng)匹配輸入的參考基因組值。
context_type:一串由逗號(hào) (",") 分隔的突變上下文名稱/名稱。 列表中的項(xiàng)目定義了簽名提取要考慮的突變上下文。 默認(rèn)值為“96,DINUC,ID”,其中“96”為 SBS96 上下文,“DINUC”為 DINUCLEOTIDE 上下文,ID 為 INDEL 上下文。 其他有效上下文包括:“SBS96”、“SBS288”、“SBS1536”、“DBS78”、“ID83”、“CNV48”、“SV32”。
exome:定義是否提取外顯子組。 默認(rèn)值為“false”。
minimum_signatures: 最小簽名數(shù)
maximum_signatures: 最大簽名數(shù)
nmf_replicates:為提取每個(gè)數(shù)字簽名而執(zhí)行的迭代次數(shù)。 默認(rèn)值為 500。
cpu:用于提取簽名的處理器數(shù)量。 默認(rèn)值為 -1,這將使用所有可用的處理器。
gpu: 定義是否在可用時(shí)使用 GPU 資源。 默認(rèn)值為false。 如果為 True,將在計(jì)算中使用 GPU 資源。
輸出:
[圖片上傳失敗...(image-9ccb02-1628561822275)]
[圖片上傳失敗...(image-216fe0-1628561822275)]

該文件包含平均樣本余弦距離和平均穩(wěn)定性之間的圖。 垂直灰色條表示 SigProfilerExtractor 選擇的最佳簽名數(shù)量。



sigprofilersimulator
SigProfilerSimulator 模擬癌癥中的突變特征。 它允許對(duì)單點(diǎn)突變、雙點(diǎn)突變和插入/刪除進(jìn)行真實(shí)模擬,目的是為統(tǒng)計(jì)分析提供背景模型。 模擬以無偏見的方式進(jìn)行,依賴于隨機(jī)機(jī)會(huì)作為主要分布,并且可以在整個(gè)基因組中進(jìn)行或僅限于用戶提供的范圍。
[圖片上傳失敗...(image-9ab5c1-1628561822275)]
[圖片上傳失敗...(image-bee17b-1628561822275)]
安裝
pip3 install fastrand
pip3 install wget
pip3 install SigProfilerSimulator
運(yùn)行
$ python3
>> from SigProfilerSimulator import SigProfilerSimulator as sigSim
>> sigSim.SigProfilerSimulator(project, project_path, genome, contexts, exome, simulations, updating, bed_file, overlap, gender, chrom_based, seed_file, noisePoisson, noiseAWGN, cushion, region, vcf, mask)
必須參數(shù)
project: 項(xiàng)目名稱。
project_path: 項(xiàng)目路徑
genome: 用于模擬的參考基因組。 當(dāng)前支持的默認(rèn)版本包括 {'GRCH37'、'GRCH38'、'MM9'、'MM10'、'rn6'、'yeast'}。
context: 你想要運(yùn)行的模擬。 可接受的上下文包括 {'6'、'24'、'96'、'384'、'1536'、'6144'、'DBS'、'DBS186'、'ID'、'ID415'}。
可選參數(shù)
exome: 僅在給定外顯子組文件中存在的區(qū)域內(nèi)進(jìn)行模擬。
simulations: 在每個(gè)樣本上運(yùn)行的迭代次數(shù)。 默認(rèn)情況下,該工具將對(duì)每個(gè)樣本執(zhí)行 1 次迭代。
updating: 在每個(gè)突變產(chǎn)生后更新染色體。 默認(rèn)情況下,這設(shè)置為 False
gender:樣本的性別。 可接受的輸入包括 {'male', 'female'}。 默認(rèn)情況下,該工具模擬“female”基因組。
overlap:允許沿染色體的突變重疊。 默認(rèn)值為false
vcf : 為 True 時(shí)將結(jié)果導(dǎo)出到 VCF 文件中。 默認(rèn)情況下,該工具將模擬的突變輸出到 maf 文件中。
輸入:

simple Text

輸出:
[圖片上傳失敗...(image-58a649-1628561822275)]