# sigprofiler的安裝與使用

sigprofiler的安裝與使用


SigProfiler提供了一套完整的生物信息學(xué)工具來進(jìn)行突變特征分析。該軟件涵蓋了分析流程,從生成突變矩陣開始,到完成特征提取,以及繪圖和模擬的支持功能.也已經(jīng)有工具把這些功能都整合到一塊,比如sigminer,使用起來更加方便。

image-20210714102414238

它總共分為四個(gè)工具:

SigProfilerMatrixGenerator :為所有類型的體細(xì)胞突變創(chuàng)建突變矩陣。

SigProfilerExtractor :允許從頭提取突變特征,識(shí)別操作特征的數(shù)量、它們的活動(dòng)和它們導(dǎo)致特定突變類型的概率。

SigProfilerSimulator :允許對(duì)癌癥基因組中的突變模式和突變特征進(jìn)行真實(shí)的模擬。該工具可用于模擬SBS、DBS和ID簽名。

SigProfilerPlotting :提供了一個(gè)標(biāo)準(zhǔn)工具,用于顯示癌癥基因組中所有類型的突變特征以及所有類型的突變模式。

SigProfilerMatrixGenerator

安裝


image-20210714163153128

以上就是它的幾個(gè)依賴,Reference genomes可以先不用安裝,可以通過 pip 實(shí)現(xiàn) pandas、Wget 和 SigProfilerPlotting 的單獨(dú)安裝。

等所有依賴安裝好后,直接使用pip安裝。

 pip install SigProfilerMatrixGenerator

在使用 SigProfilerMatrixGenerator 工具之前,需要安裝參考基因組文件。 從命令行安裝所需的參考基因組,如下所示:

$ python3
>> from SigProfilerMatrixGenerator import install as genInstall
>> genInstall.install('GRCh37', bash=True)
image-20210726163130971

雖然說官方也有R的安裝程序,但其實(shí)還是調(diào)用的python程序,所以我推薦直接用python。這里就不再介紹R的安裝步驟,有興趣的話可以去https://osf.io/s93d5/wiki/2.%20Installation%20-%20R/看看。

使用


輸入
image-20210726155335962
ICGC_example
image-20210726155430069
首先需要新建目錄:

[圖片上傳失敗...(image-4ae99f-1628561822275)]

[圖片上傳失敗...(image-35afb6-1628561822275)]

code
python3
>>from SigProfilerMatrixGenerator.scripts import SigProfilerMatrixGeneratorFunc as matGen
>>matrices = matGen.SigProfilerMatrixGeneratorFunc(project, genome, vcfFiles, exome=False, bed_file=None, chrom_based=False, plot=False, tsb_stat=False, seqInfo=False)
必須參數(shù):

project :就是你的輸入文件名; 如"BRCA"

genome:你的參考基因組;如"GRCh37"

vcfFiles:剛剛新建目錄的路徑;如 "~/MatrixTest/"

可選參數(shù):

exome:把生成的矩陣下采樣到基因組的外顯子區(qū)域。

bed_file:將突變矩陣下采樣到基因組的自定義區(qū)域。 需要 BED 文件的完整路徑。

chrom_based:輸出基于染色體的矩陣

plot:與 SigProfilerPlotting 集成以輸出每個(gè)矩陣的所有可用可視化。

tsb_stat:輸出各個(gè)矩陣的轉(zhuǎn)錄鏈偏差測試的結(jié)果。

seqInfo:將原始突變輸出到包含每個(gè)突變的 SigProfilerMatrixGenerator 分類的文本文件中。

輸出

[圖片上傳失敗...(image-b0e62-1628561822275)]

image

TSB

T:轉(zhuǎn)錄 該變體位于轉(zhuǎn)錄鏈上。

U:未轉(zhuǎn)錄 該變體位于未轉(zhuǎn)錄的鏈上。

B:雙向 該變體在兩條鏈上并且以任一方式轉(zhuǎn)錄。

N:非轉(zhuǎn)錄 該變體位于非編碼區(qū)且未翻譯。

image-20210726164603742

SigProfilerExtractor


image-20210726165018082

安裝

pip install SigProfilerExtractor

使用

$ python3
>> from SigProfilerExtractor import sigpro as sig
>> sig.sigProfilerExtractor("vcf", "results", "path/to/21BRCA_vcf", genome_build="GRCh37", minimum_signatures=1, maximum_signatures=10, nmf_replicates=100)
>>> sig.sigProfilerExtractor("matrix", "results", "path/to/21BRCA.txt", reference_genome="GRCh37", minimum_signatures=1, maximum_signatures=10, nmf_replicates=100, cpu=-1)

詳細(xì)參數(shù):

datatype:"matrix" or "vcf"

output_put: 輸出文件夾的名稱。 輸出文件夾將在當(dāng)前工作目錄中生成。

input_data:對(duì)于vcf文件,是所在的文件夾名;對(duì)于matrix文件,是文件名

reference_genome:參考基因組的名稱。 有效值包括以下之一:“GRCh37”、“GRCh38”、“mm9”、“mm10”。 默認(rèn)參考基因組是“GRCh37”。 此參數(shù)僅在 input_type 為“vcf”時(shí)適用

opportunity_genome:參考基因組的參考簽名的構(gòu)建或版本。 有效值包括以下之一:“GRCh37”、“GRCh38”、“mm9”、“mm10”。 默認(rèn)的機(jī)會(huì)基因組是 GRCh37。 如果 input_type 是“vcf”,genome_build 會(huì)自動(dòng)匹配輸入的參考基因組值。

context_type:一串由逗號(hào) (",") 分隔的突變上下文名稱/名稱。 列表中的項(xiàng)目定義了簽名提取要考慮的突變上下文。 默認(rèn)值為“96,DINUC,ID”,其中“96”為 SBS96 上下文,“DINUC”為 DINUCLEOTIDE 上下文,ID 為 INDEL 上下文。 其他有效上下文包括:“SBS96”、“SBS288”、“SBS1536”、“DBS78”、“ID83”、“CNV48”、“SV32”。

exome:定義是否提取外顯子組。 默認(rèn)值為“false”。

minimum_signatures: 最小簽名數(shù)

maximum_signatures: 最大簽名數(shù)

nmf_replicates:為提取每個(gè)數(shù)字簽名而執(zhí)行的迭代次數(shù)。 默認(rèn)值為 500。

cpu:用于提取簽名的處理器數(shù)量。 默認(rèn)值為 -1,這將使用所有可用的處理器。

gpu: 定義是否在可用時(shí)使用 GPU 資源。 默認(rèn)值為false。 如果為 True,將在計(jì)算中使用 GPU 資源。

輸出:

[圖片上傳失敗...(image-9ccb02-1628561822275)]

[圖片上傳失敗...(image-216fe0-1628561822275)]

image-20210727155601211

該文件包含平均樣本余弦距離和平均穩(wěn)定性之間的圖。 垂直灰色條表示 SigProfilerExtractor 選擇的最佳簽名數(shù)量。

image-20210727155711154
image-20210727160300774
image-20210727160320817

sigprofilersimulator


SigProfilerSimulator 模擬癌癥中的突變特征。 它允許對(duì)單點(diǎn)突變、雙點(diǎn)突變和插入/刪除進(jìn)行真實(shí)模擬,目的是為統(tǒng)計(jì)分析提供背景模型。 模擬以無偏見的方式進(jìn)行,依賴于隨機(jī)機(jī)會(huì)作為主要分布,并且可以在整個(gè)基因組中進(jìn)行或僅限于用戶提供的范圍。

[圖片上傳失敗...(image-9ab5c1-1628561822275)]

[圖片上傳失敗...(image-bee17b-1628561822275)]

安裝

pip3 install fastrand
pip3 install wget
pip3 install SigProfilerSimulator

運(yùn)行

$ python3
>> from SigProfilerSimulator import SigProfilerSimulator as sigSim
>> sigSim.SigProfilerSimulator(project, project_path, genome, contexts, exome, simulations, updating, bed_file, overlap, gender, chrom_based, seed_file, noisePoisson, noiseAWGN, cushion, region, vcf, mask)

必須參數(shù)

project: 項(xiàng)目名稱。

project_path: 項(xiàng)目路徑

genome: 用于模擬的參考基因組。 當(dāng)前支持的默認(rèn)版本包括 {'GRCH37'、'GRCH38'、'MM9'、'MM10'、'rn6'、'yeast'}。

context: 你想要運(yùn)行的模擬。 可接受的上下文包括 {'6'、'24'、'96'、'384'、'1536'、'6144'、'DBS'、'DBS186'、'ID'、'ID415'}。

可選參數(shù)

exome: 僅在給定外顯子組文件中存在的區(qū)域內(nèi)進(jìn)行模擬。

simulations: 在每個(gè)樣本上運(yùn)行的迭代次數(shù)。 默認(rèn)情況下,該工具將對(duì)每個(gè)樣本執(zhí)行 1 次迭代。

updating: 在每個(gè)突變產(chǎn)生后更新染色體。 默認(rèn)情況下,這設(shè)置為 False

gender:樣本的性別。 可接受的輸入包括 {'male', 'female'}。 默認(rèn)情況下,該工具模擬“female”基因組。

overlap:允許沿染色體的突變重疊。 默認(rèn)值為false

vcf : 為 True 時(shí)將結(jié)果導(dǎo)出到 VCF 文件中。 默認(rèn)情況下,該工具將模擬的突變輸出到 maf 文件中。

輸入:

image-20210727205234075

simple Text

image-20210727205313451

輸出:

[圖片上傳失敗...(image-58a649-1628561822275)]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • TITLE: 全外顯子測序數(shù)據(jù)分析AUTHOR: Shuntai Yu [TOC] 外顯子是形成mRNA后剪接...
    余順太閱讀 16,142評(píng)論 0 25
  • 結(jié)果文件的解讀 輸出文件1:*.variant_function 第一個(gè)文件包含所有變異的注釋,方法是在每個(gè)輸入行...
    生信師姐閱讀 21,920評(píng)論 2 42
  • 一、簡介 會(huì)得到一系列變異數(shù)據(jù),這些變異數(shù)據(jù)只是告訴我們?cè)诨蚪M的某個(gè)位置發(fā)生了一段序列的改變,至于這個(gè)改變會(huì)不會(huì)...
    生信師姐閱讀 20,278評(píng)論 1 41
  • 1、GWAS4D 網(wǎng)址:http://mulinlab.tmu.edu.cn/gwas4d 2、SNPnexus ...
    happyfox_9f86閱讀 19,687評(píng)論 0 41
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂有人憂愁,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,831評(píng)論 28 54

友情鏈接更多精彩內(nèi)容