結(jié)構(gòu)變異檢測(cè)軟件 SYRI 的使用

目前檢測(cè)結(jié)構(gòu)變異的方法眾多,長(zhǎng) reads 序列的比對(duì)有 NGMLR、Minimap2、Nucmer 等;基于序列比對(duì)結(jié)構(gòu)檢測(cè)結(jié)構(gòu)變異的軟件有 SVIM、Sniffles、SyRI 等。

但不同方法的檢測(cè)效力可能存在差異,Zhou et al. 2023, Nat Commun 發(fā)表了一篇倒位變異的泛基因組文章,測(cè)試了不同方法的檢測(cè)效力。

由上表可知,結(jié)合 Nucmer 和 SyRI 軟件對(duì)于倒位變異的識(shí)別數(shù)目和準(zhǔn)確性都高于其它軟件。

這里對(duì) work flow 4 的計(jì)算流程做簡(jiǎn)要記錄。


nucmer?是 MUMmer 軟件中核苷酸序列比對(duì)的一個(gè)程序,關(guān)于 MUMmer 軟件的計(jì)算可選參數(shù)以及結(jié)果文件的解讀,見之前的分享:

序列比對(duì)軟件 MUMmer 快速上手(一)

序列比對(duì)軟件 MUMmer 高級(jí)使用(二)

序列比對(duì)軟件 MUMmer 結(jié)果文件解讀(三)

序列比對(duì)軟件 MUMmer 結(jié)果可讀化處理(四)

本文主要介紹一下結(jié)構(gòu)變異檢測(cè)軟件 SYRI 的使用。

SYRI(Synteny and Rearrangement Identifier)是一種用于識(shí)別基因組中的結(jié)構(gòu)同源和重排事件的軟件工具。它的主要功能包括識(shí)別基因組中的結(jié)構(gòu)同源、轉(zhuǎn)座、倒位等重排事件,以及識(shí)別基因組中的結(jié)構(gòu)變異(SV)和單核苷酸多態(tài)性(SNP)等。

結(jié)構(gòu)同源識(shí)別:SYRI能夠識(shí)別基因組中的結(jié)構(gòu)同源,即同一物種中不同染色體上的基因之間的保守性關(guān)系。通過識(shí)別結(jié)構(gòu)同源,可以幫助研究人員理解基因組的結(jié)構(gòu)和演化。

重排事件識(shí)別:SYRI可以識(shí)別基因組中的多種重排事件,包括轉(zhuǎn)座、倒位等。這些重排事件在基因組演化和遺傳變異中起著重要作用,因此對(duì)它們的識(shí)別和分析具有重要意義。

結(jié)構(gòu)變異和單核苷酸多態(tài)性識(shí)別:除了識(shí)別結(jié)構(gòu)同源和重排事件外,SYRI還可以識(shí)別基因組中的結(jié)構(gòu)變異(SV)和單核苷酸多態(tài)性(SNP)等其他變異類型。這些變異是基因組遺傳變異的重要組成部分,對(duì)疾病研究和品種改良等方面具有重要意義。

參數(shù)可調(diào)性:SYRI提供了多種參數(shù)和選項(xiàng),可以根據(jù)用戶的需求進(jìn)行調(diào)整。用戶可以根據(jù)自己的研究目的和數(shù)據(jù)特點(diǎn),調(diào)整參數(shù)以獲得最佳的分析結(jié)果。

高效性和準(zhǔn)確性:SYRI具有高效的算法和準(zhǔn)確的分析結(jié)果。它能夠處理大規(guī)模的基因組數(shù)據(jù),并且具有良好的準(zhǔn)確性和可靠性。

快速開始

## 基因組比對(duì)

nucmer --maxmatch -c 100 -b 500 -l 50 refgenome qrygenome?

## 比對(duì)結(jié)果過濾

delta-filter -m -i 90 -l 100 out.delta > out.filtered.delta? ??

## 獲得每個(gè) alignment 的位置

show-coords -THrd out.filtered.delta > out.filtered.coords? ? ??

## 結(jié)構(gòu)變異檢測(cè)

python3 $PATH_TO_SYRI -c out.filtered.coords -d out.filtered.delta -r refgenome -q qrygenome

## 結(jié)果繪圖

python3 $PATH_TO_PLOTSR syri.out refgenome qrygenome -H 8 -W 5

可選參數(shù):

輸入文件:

-c INFILE:包含比對(duì)坐標(biāo)的文件。這個(gè)文件可能是從一個(gè)比對(duì)軟件(比如MUMmer)生成的,其中包含了兩個(gè)基因組之間的比對(duì)信息,包括每個(gè)比對(duì)的起始位置、終止位置等信息。

-r REF:作為比對(duì)參考的基因組A的文件。

-q QRY:作為比對(duì)查詢的基因組B的文件。

-d DELTA:MUMmer生成的.delta文件。

可選參數(shù):

-F {T,S,B}:指定輸入文件的類型??梢允潜砀裎募═),SAM文件(S)或BAM文件(B)。默認(rèn)為表格文件。

-k:保留中間輸出文件。默認(rèn)為False。

--log {DEBUG,INFO,WARN}:設(shè)置日志級(jí)別。可以選擇DEBUG(調(diào)試)、INFO(信息)、WARN(警告)等級(jí)別。默認(rèn)為INFO。

--lf LOG_FIN:指定日志文件的名稱。默認(rèn)為"syri.log"。

--dir DIR:指定工作目錄的路徑。默認(rèn)為當(dāng)前目錄。

--prefix PREFIX:指定輸出文件名前綴。默認(rèn)為空。

--seed SEED:用于生成隨機(jī)數(shù)的種子。默認(rèn)為1。

--nc NCORES:指定并行計(jì)算時(shí)使用的核心數(shù)量。最大值是染色體的數(shù)量。默認(rèn)為1。

--novcf:不將所有文件合并為一個(gè)輸出文件。默認(rèn)為False。

-f:過濾掉低質(zhì)量的比對(duì)。默認(rèn)為True。

結(jié)構(gòu)變異檢測(cè):

--nosv:設(shè)置為True以跳過結(jié)構(gòu)變異的識(shí)別。默認(rèn)為False。

--nosnp:設(shè)置為True以跳過在比對(duì)中識(shí)別SNP/Indel。默認(rèn)為False。

--all:設(shè)置為True以使用重復(fù)區(qū)域(duplications)進(jìn)行變異識(shí)別。默認(rèn)為False。

--allow-offset OFFSET:允許堿基對(duì)(base pairs)重疊的數(shù)量。默認(rèn)為5,表示如果兩個(gè)變異區(qū)域之間的重疊小于等于5個(gè)堿基對(duì),則允許識(shí)別為同一變異。

--cigar:設(shè)置為True以使用CIGAR字符串來查找SNP/Indel。默認(rèn)為False,表示不使用CIGAR字符串。通常在使用除了nucmers之外的比對(duì)器生成的比對(duì)結(jié)果時(shí),需要設(shè)置為True。

-s SSPATH:指定show-snps工具的路徑,show-snps是MUMmer軟件包中的一個(gè)工具,用于從.delta文件中提取SNP信息。默認(rèn)為show-snps。

結(jié)構(gòu)重排識(shí)別:

--nosr:設(shè)置為True以跳過結(jié)構(gòu)重排事件的識(shí)別。默認(rèn)為False,表示執(zhí)行結(jié)構(gòu)重排事件的識(shí)別。

--tdgaplen TDGL:多重比對(duì)轉(zhuǎn)座或重復(fù)(TD)的兩個(gè)比對(duì)之間允許的最大間隙長(zhǎng)度。較大的值會(huì)增加TD識(shí)別的靈敏度,但也會(huì)增加運(yùn)行時(shí)間。默認(rèn)為500000。

-b BRUTERUNTIME:限制Brute Force方法運(yùn)行時(shí)間的閾值(以秒為單位)。較小的值會(huì)使算法運(yùn)行更快,但可能會(huì)對(duì)準(zhǔn)確性產(chǎn)生邊際影響。在一般情況下,可能不需要設(shè)置這個(gè)參數(shù)。默認(rèn)為60。

--unic TRANSUNICOUNT:選擇轉(zhuǎn)座時(shí)所需的唯一堿基對(duì)數(shù)。較小的值會(huì)更好地選擇較小的轉(zhuǎn)座,但可能會(huì)增加時(shí)間并降低準(zhǔn)確性。默認(rèn)為1000。

--unip TRANSUNIPERCENT:選擇轉(zhuǎn)座時(shí)所需的唯一區(qū)域百分比。值應(yīng)在(0,1]范圍內(nèi)。較小的值會(huì)選擇與其他區(qū)域更重疊的轉(zhuǎn)座。默認(rèn)為0.5。

--inc INCREASEBY:添加另一個(gè)比對(duì)到轉(zhuǎn)座簇解決方案所需的最小分?jǐn)?shù)增加。默認(rèn)為1000。

--no-chrmatch:如果兩個(gè)基因組的染色體ID不相等,則設(shè)置為True,不允許SyRI自動(dòng)匹配染色體ID。默認(rèn)為False。



相對(duì)來說,使用 mummer 的比對(duì)和結(jié)構(gòu)變異檢測(cè)過程稍復(fù)雜,使用 minimap2 比對(duì)結(jié)果計(jì)算會(huì)快很多,這里同樣附上相關(guān)過程:

## 全基因組序列比對(duì)

minimap2 -ax asm5 --eqx refgenome qrygenome > out.sam

## 基于比對(duì)結(jié)果檢測(cè)結(jié)構(gòu)變異

python3? ?$PATH_TO_SYRI? ?-c? ?out.sam? ?-r? ?refgenome? ?-q? ?qrygenome? ?-k? ?-F? ? S

## 結(jié)構(gòu)變異檢測(cè)結(jié)果繪圖

python3 $PATH_TO_PLOTSR syri.out refgenome qrygenome -H 8 -W 5



就是,如果覺得有用的話,登錄一下賬號(hào)點(diǎn)個(gè)贊支持一下!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容