SPAdes 安裝與使用

1.SPAdes的使用目的

當(dāng)前版本的SPAdes與Illumina或IonTorrent讀取一起使用,并且能夠使用PacBio,Oxford Nanopore和Sanger讀取提供混合組件。您還可以提供將用作長(zhǎng)讀數(shù)的其他重疊群。

版本3.13.0的SPAdes支持配對(duì)末端讀取,配對(duì)和非配對(duì)讀取。SPAdes可以同時(shí)作為幾個(gè)配對(duì)端和配對(duì)庫(kù)的輸入。請(qǐng)注意,SPAdes最初是為小型基因組設(shè)計(jì)的。它在細(xì)菌(單細(xì)胞MDA和標(biāo)準(zhǔn)分離株),真菌其他小基因組上進(jìn)行了測(cè)試。SPAdes不適用于較大的基因組(例如哺乳動(dòng)物大小的基因組)。出于此目的,您可以自擔(dān)風(fēng)險(xiǎn)使用它。

2.安裝

SPAdes需要64位Linux系統(tǒng)或Mac OS和Python(支持的版本是Python2:2.4-2.7,以及Python3:3.2和更高版本)預(yù)先安裝在其上。要獲得SPAdes,您可以下載二進(jìn)制文件或下載源代碼并自行編譯。

如果安裝成功,以下文件將放在bin目錄中:

  • spades.py (主要可執(zhí)行腳本)
  • metaspades.pymetaSPAdes的主要可執(zhí)行腳本)
  • plasmidspades.pyplasmidSPAdes的主要可執(zhí)行腳本)
  • rnaspades.pyrnaSPAdes的主要可執(zhí)行腳本)
  • truspades.pytruSPAdes的主要可執(zhí)行腳本)
  • spades-core (裝配模塊)
  • spades-gbuilder (獨(dú)立圖形構(gòu)建器應(yīng)用程序)
  • spades-gmapper (獨(dú)立長(zhǎng)讀圖對(duì)齊器)
  • spades-kmercount (獨(dú)立的k-mer計(jì)數(shù)應(yīng)用程序)
  • spades-hammer (讀取Illumina讀數(shù)的糾錯(cuò)模塊)
  • spades-ionhammer (讀取IonTorrent讀取錯(cuò)誤糾正模塊)
  • spades-bwa (錯(cuò)配校正所需的BWA對(duì)準(zhǔn)模塊)
  • spades-corrector-core (不匹配校正模塊)
  • spades-truseq-scfcorrection (truSPAdes管道中使用的可執(zhí)行文件)

2.1下載SPAdes Linux二進(jìn)制文件

要下載SPAdes Linux二進(jìn)制文件并將其解壓縮,請(qǐng)轉(zhuǎn)到您希望安裝和運(yùn)行SPAdes的目錄:


    wget http://cab.spbu.ru/files/release3.13.0/SPAdes-3.13.0-Linux.tar.gz
    tar -xzf SPAdes-3.13.0-Linux.tar.gz
    cd SPAdes-3.13.0-Linux/bin/

SPAdes隨時(shí)可用,無(wú)需進(jìn)一步的安裝步驟。我們還建議將SPAdes安裝目錄添加到PATH變量中。

2.2下載適用于Mac的SPAdes二進(jìn)制文件

要獲取Mac的SPAdes二進(jìn)制文件,請(qǐng)轉(zhuǎn)到您希望安裝和運(yùn)行SPAdes的目錄:


    curl http://cab.spbu.ru/files/release3.13.0/SPAdes-3.13.0-Darwin.tar.gz -o SPAdes-3.13.0-Darwin.tar.gz
    tar -zxf SPAdes-3.13.0-Darwin.tar.gz
    cd SPAdes-3.13.0-Darwin/bin/

與在Linux中一樣,SPAdes已準(zhǔn)備就緒,無(wú)需進(jìn)一步的安裝步驟。我們還建議將SPAdes安裝目錄添加到PATH變量中。
出于測(cè)試目的,SPAdes附帶一個(gè)玩具數(shù)據(jù)集(讀數(shù)與大腸桿菌的前1000bp對(duì)齊)。要在此數(shù)據(jù)集上嘗試SPAdes,請(qǐng)運(yùn)行:


    <spades installation dir>/spades.py --test

如果您將SPAdes安裝目錄添加到PATH變量,則可以運(yùn)行:


    spades.py --test

為簡(jiǎn)單起見(jiàn),我們進(jìn)一步假設(shè)將SPAdes安裝目錄添加到PATH變量中。

如果安裝成功,您將在日志末尾找到以下信息:


===== Assembling finished. Used k-mer sizes: 21, 33, 55

 * Corrected reads are in spades_test/corrected/
 * Assembled contigs are in spades_test/contigs.fasta
 * Assembled scaffolds are in spades_test/scaffolds.fasta
 * Assembly graph is in spades_test/assembly_graph.fastg
 * Assembly graph in GFA format is in spades_test/assembly_graph.gfa
 * Paths in the assembly graph corresponding to the contigs are in spades_test/contigs.paths
 * Paths in the assembly graph corresponding to the scaffolds are in spades_test/scaffolds.paths

======= SPAdes pipeline finished.

========= TEST PASSED CORRECTLY.

SPAdes log can be found here: spades_test/spades.log

Thank you for using SPAdes!

3.運(yùn)行SPAdes

3.1 SPAdes輸入

SPAdes在FASTA和FASTQ中用作輸入配對(duì)末端讀數(shù),配對(duì)對(duì)和單(未配對(duì))讀數(shù)。對(duì)于IonTorrent數(shù)據(jù),SPAdes還支持未映射BAM格式的非配對(duì)讀?。ㄈ鏣orrent服務(wù)器生成的那種)。但是,為了運(yùn)行讀取錯(cuò)誤糾正,讀取應(yīng)采用FASTQ或BAM格式。由于SPAdes不對(duì)這些類(lèi)型的數(shù)據(jù)進(jìn)行糾錯(cuò),因此可以以?xún)煞N格式提供Sanger,Oxford Nanopore和PacBio CLR讀取。

要運(yùn)行SPAdes 3.13.0,您至少需要一個(gè)以下類(lèi)型的庫(kù):

  • Illumina配對(duì)末端/高質(zhì)量配對(duì)/非配對(duì)讀數(shù)
  • IonTorrent配對(duì)端/高質(zhì)量配對(duì)/非配對(duì)讀取
  • PacBio CCS讀取

Illumina和IonTorrent庫(kù)不應(yīng)組裝在一起。所有其他類(lèi)型的輸入數(shù)據(jù)都是兼容的。如果只有PacBio CLR,Oxford Nanopore,Sanger讀數(shù)或其他重疊群可用,則不應(yīng)使用SPAdes。

SPAdes支持僅配對(duì)配對(duì)。但是,我們建議在這種情況下僅使用高質(zhì)量的配對(duì)庫(kù)(例如,沒(méi)有配對(duì)端部件)。我們使用Illumina Nextera配對(duì)測(cè)試了僅配對(duì)配管。在這里查看更多。

當(dāng)前版本的SPA還支持LucigenNxSeq?LongMate Pair庫(kù),它們始終具有正向反向。如果您希望使用LucigenNxSeq?LongMate Pair讀取,則需要在您的計(jì)算機(jī)上預(yù)安裝Python 正則表達(dá)式庫(kù)。您可以使用Python pip-installer安裝它:


    pip install regex

或使用Easy Install Python模塊:


    easy_install regex

筆記:

  • 強(qiáng)烈建議根據(jù)其插入大?。◤淖钚〉阶铋L(zhǎng))提供多個(gè)配對(duì)末端和配對(duì)對(duì)庫(kù)。
  • 不建議在低覆蓋率(小于5)的PacBio讀取上運(yùn)行SPAdes。
  • 我們建議不要對(duì)大型基因組的PacBio讀數(shù)運(yùn)行SPAdes。
  • SPAdes接受gzip壓縮文件。

讀對(duì)庫(kù)

通過(guò)使用命令行界面,您可以指定最多九個(gè)不同的配對(duì)庫(kù),最多九個(gè)配對(duì)庫(kù)以及最多九個(gè)高質(zhì)量的配對(duì)庫(kù)。如果您想使用更多,可以使用YAML數(shù)據(jù)集文件。我們進(jìn)一步將配對(duì)末端和配對(duì)對(duì)庫(kù)稱(chēng)為讀取對(duì)庫(kù)。

默認(rèn)情況下,SPAdes假定配對(duì)端和高質(zhì)量配對(duì)讀取具有正向反向(fr)方向,而通常的配對(duì)具有反向(rf)方向。但是,可以使用SPAdes選項(xiàng)為任何庫(kù)設(shè)置不同的方向。

為了區(qū)分成對(duì)的讀數(shù),我們將它們稱(chēng)為左讀和右讀。對(duì)于正向反向,正向讀數(shù)對(duì)應(yīng)于左側(cè)讀數(shù),反向讀取對(duì)應(yīng)于右側(cè)。類(lèi)似地,在反向前向中,左和右讀取分別對(duì)應(yīng)于反向和正向讀取等。

每個(gè)讀取對(duì)庫(kù)可以存儲(chǔ)在多個(gè)文件或幾對(duì)文件中。配對(duì)讀取可以以?xún)煞N不同的方式組織:

  • 在文件對(duì)中。在這種情況下,左右讀取放在不同的文件中,并在相應(yīng)的文件中以相同的順序。
  • 在交錯(cuò)文件中。在這種情況下,讀取是隔行掃描的,因此每次正確的讀取都在相應(yīng)的成對(duì)左讀取之后進(jìn)行。

例如,Illumina在兩個(gè)文件中生成配對(duì)末端讀?。?code>R1.fastq和R2.fastq。如果選擇存儲(chǔ)文件對(duì)中的讀取,請(qǐng)確保從R1.fastq相應(yīng)的配對(duì)讀取中讀取的每個(gè)讀取R2.fastq都放在相同行號(hào)的相應(yīng)配對(duì)文件中。如果您選擇使用交錯(cuò)文件,則每次讀取R1.fastq都應(yīng)該跟隨相應(yīng)的配對(duì)讀取R2.fastq。

如果在組裝之前使用了適配器和/或質(zhì)量修整軟件,則可以將具有孤立讀取的文件作為相應(yīng)讀取對(duì)庫(kù)的“單個(gè)讀取文件”提供。

如果您已合并了配對(duì)端(非配對(duì)或高質(zhì)量配對(duì))庫(kù)中的某些讀取(使用工具sa BBMergeSTORM),則應(yīng)將該結(jié)果讀取的文件作為“合并讀取文件”提供“為相應(yīng)的圖書(shū)館。
請(qǐng)注意,必須為同一個(gè)庫(kù)提供具有剩余未合并的左/右讀?。▎为?dú)或隔行掃描)的非空文件(對(duì)于SPAdes,以正確檢測(cè)原始讀取長(zhǎng)度)。

在不太可能的情況下,您的配對(duì)(或高質(zhì)量配對(duì))庫(kù)中的某些讀取被“合并”,您應(yīng)該將結(jié)果讀取作為SEPARATE單讀取庫(kù)提供。

不成對(duì)(單讀)庫(kù)

通過(guò)使用命令行界面,您可以指定最多九個(gè)不同的單讀取庫(kù)。要輸入更多庫(kù),可以使用YAML數(shù)據(jù)集文件

假設(shè)單一的圖書(shū)館具有高質(zhì)量和合理的覆蓋范圍。例如,您可以將PacBio CCS讀取作為單讀取庫(kù)提供。

請(qǐng)注意,您不應(yīng)將PacBio CLR,Sanger讀取或其他contigs指定為單讀取庫(kù),每個(gè)都有一個(gè)單獨(dú)的選項(xiàng)。

PacBio和Oxford Nanopore讀到

SPAdes可以作為輸入無(wú)限數(shù)量的PacBio和Oxford Nanopore庫(kù)。

PacBio CLR和Oxford Nanopore讀數(shù)用于混合組裝(例如Illumina或IonTorrent)。無(wú)需預(yù)先更正此類(lèi)數(shù)據(jù)。SPAdes將使用PacBio CLR和Oxford Nanopore讀取間隙閉合和重復(fù)分辨率。

對(duì)于PacBio,您只需要以FASTQ / FASTA格式過(guò)濾子網(wǎng)。使用--pacbio選項(xiàng)提供這些過(guò)濾的子讀取。Oxford Nanopore讀數(shù)提供--nanopore選項(xiàng)。

PacBio CCS /讀取插入讀取或預(yù)校正(使用第三方軟件)PacBio CLR / Oxford Nanopore讀取可以簡(jiǎn)單地作為單個(gè)讀取提供給SPAdes。

額外的重疊群

如果您有其他匯編程序生成的相同基因組的重疊群,并且您希望將它們合并到SPAdes程序集中,則可以使用--trusted-contigs或指定其他重疊群--untrusted-contigs。當(dāng)高質(zhì)量的重疊群可用時(shí),使用第一個(gè)選項(xiàng)。這些重疊群將用于圖形構(gòu)建,間隙閉合和重復(fù)分辨率。第二種選擇用于可能具有更多錯(cuò)誤或質(zhì)量未知的重疊群的不太可靠的重疊群。這些重疊群僅用于間隙閉合和重復(fù)分辨。額外的重疊群數(shù)量是無(wú)限的。

請(qǐng)注意,SPAdes不使用密切相關(guān)物種的基因組進(jìn)行裝配。只應(yīng)指定相同基因組的重疊群。

3.2 SPAdes命令行選項(xiàng)

要從命令行運(yùn)行SPAdes,請(qǐng)鍵入


    spades.py [options] -o <output_dir>

請(qǐng)注意,我們假設(shè)將SPAdes安裝目錄添加到PATH變量中(否則提供SPAdes可執(zhí)行文件的完整路徑:) <spades installation dir>/spades.py。

基本選項(xiàng)

-o <output_dir>
指定輸出目錄。必填選項(xiàng)。

--sc
MDA(單個(gè)單元)數(shù)據(jù)需要此標(biāo)志。

--meta (相同metaspades.py
在匯編宏基因組數(shù)據(jù)集時(shí),建議使用此標(biāo)志(運(yùn)行metaSPAdes,有關(guān)詳細(xì)信息,請(qǐng)參閱紙張)。目前metaSPAdes僅支持必須加以短讀庫(kù)配對(duì)末端(我們希望能盡快取消這種限制)。此外,您可以提供長(zhǎng)讀?。ɡ缡褂?code>--pacbio或--nanopore選項(xiàng)),但宏基因組的混合組裝仍然是一個(gè)實(shí)驗(yàn)性管道,并不能保證最佳性能。它不支持仔細(xì)模式(不匹配校正不可用)。此外,您無(wú)法指定metaSPAdes的覆蓋率截止值。請(qǐng)注意,metaSPAdes可能對(duì)數(shù)據(jù)中剩余的技術(shù)序列的存在非常敏感(最明顯的是適配器讀取),請(qǐng)運(yùn)行質(zhì)量控制并相應(yīng)地預(yù)處理數(shù)據(jù)。

--plasmid (相同plasmidspades.py
當(dāng)僅匯編來(lái)自WGS數(shù)據(jù)集的質(zhì)粒時(shí)需要此標(biāo)記(運(yùn)行plasmidSPAdes,參見(jiàn)論文了解算法詳情)。注意,plasmidSPAdes與metaSPAdes單細(xì)胞模式不兼容。此外,我們不建議在多個(gè)庫(kù)上運(yùn)行plasmidSPAdes。有關(guān)plasmidSPAdes輸出詳細(xì)信息,請(qǐng)參見(jiàn)第3.6節(jié)

--rna (相同rnaspades.py
組裝RNA-Seq數(shù)據(jù)集時(shí)應(yīng)使用此標(biāo)志(運(yùn)行rnaSPAdes)。要了解更多信息,請(qǐng)參閱rnaSPAdes手冊(cè)。

--iontorrent
組裝IonTorrent數(shù)據(jù)時(shí)需要此標(biāo)志。允許BAM文件作為輸入。使用此選項(xiàng)之前,請(qǐng)仔細(xì)閱讀第3.3節(jié)。

--test
在玩具數(shù)據(jù)集上運(yùn)行SPAdes; 見(jiàn)2.4節(jié)。

-h(或--help
打印幫助。

-v(或--version
打印SPAdes版本。

管道選項(xiàng)

--only-error-correction
僅執(zhí)行讀取錯(cuò)誤糾正。

--only-assembler
僅運(yùn)行裝配模塊。

--careful
試圖減少不匹配和短期插入的數(shù)量。還運(yùn)行MismatchCorrector - 一個(gè)后處理工具,它使用BWA工具(隨SPAdes一起提供)。建議僅將此選項(xiàng)用于小基因組的裝配。我們強(qiáng)烈建議不要將它用于大中型真核基因組。請(qǐng)注意,metaSPAdes和rnaSPAdes不支持此選項(xiàng)。

--continue
從最后一個(gè)可用檢查點(diǎn)開(kāi)始,從指定的輸出文件夾繼續(xù)運(yùn)行SPAdes。檢查點(diǎn)是在以下情況下完成的:

  • 糾錯(cuò)模塊完成
  • 完成裝配模塊的每個(gè)指定K值的迭代
  • 對(duì)重疊群或支架完成錯(cuò)配校正

例如,如果指定的K值為21,33和55且SPAdes在裝配階段停止或崩潰且K = 55,則可以使用--continue指定相同輸出目錄的選項(xiàng)運(yùn)行SPAdes 。SPAdes將從裝配階段開(kāi)始繼續(xù)運(yùn)行,K = 55.錯(cuò)誤校正模塊和K等于21和33的迭代將不再運(yùn)行。如果--continue設(shè)置,則唯一允許的選項(xiàng)是-o <output_dir>。

--restart-from <check_point>
從指定的檢查點(diǎn)開(kāi)始,從指定的輸出文件夾重新啟動(dòng)SPAdes。檢查點(diǎn)是:

  • ec - 從錯(cuò)誤糾正開(kāi)始
  • as - 從第一次迭代重啟裝配模塊
  • k<int> - 從具有指定k值的迭代重新啟動(dòng),例如k55(在RNA-Seq模式下不可用)
  • mc - 重新啟動(dòng)不匹配校正
  • last- 從最后一個(gè)可用的檢查點(diǎn)重啟(類(lèi)似于--continue

與該--continue選項(xiàng)相反,您可以在使用時(shí)更改某些選項(xiàng)--restart-from。您可以更改任何選項(xiàng),除了:所有基本選項(xiàng),用于指定輸入數(shù)據(jù)(包括--dataset)的所有選項(xiàng),--only-error-correction選項(xiàng)和--only-assembler選項(xiàng)。例如,如果運(yùn)行的k值為21,33,55且沒(méi)有不匹配校正的匯編程序,則可以添加一次k = 77的迭代,并通過(guò)運(yùn)行帶有以下選項(xiàng)的SPAdes運(yùn)行不匹配校正步驟:
--restart-from k55 -k 21,33,55,77 --mismatch-correction -o <previous_output_dir>。
由于所有文件都將被覆蓋,因此如果需要,請(qǐng)不要忘記從上一次運(yùn)行中復(fù)制程序集。

--disable-gzip-output
強(qiáng)制讀錯(cuò)誤糾正模塊不壓縮糾正的讀數(shù)。如果未設(shè)置此選項(xiàng),則更正的讀取將采用*.fastq.gz格式。

輸入數(shù)據(jù)

*** 指定單個(gè)庫(kù)(配對(duì)端或單讀)***

--12 <file_name>
具有隔行正向和反向雙端讀取的文件。

-1 <file_name>
帶正向讀取的文件。

-2 <file_name>
帶反向讀取的文件。

--merged <file_name>
包含合并配對(duì)讀取的文件。
如果庫(kù)的屬性允許,則可以使用特殊軟件合并重疊的雙端讀取。
必須為同一個(gè)庫(kù)提供具有(剩余)未合并左/右讀取(單獨(dú)或隔行掃描)的非空文件,以便正確檢測(cè)原始讀取長(zhǎng)度。

-s <file_name>
帶有不成對(duì)讀取的文件。

*** 指定多個(gè)庫(kù)***

  • ** 單讀庫(kù)**

--s**<#>** <file_name>
單讀庫(kù)編號(hào)的文件**<#>****<#>**= 1,2,..,9)。例如,對(duì)于第一個(gè)配對(duì)端庫(kù),選項(xiàng)為: --s1 <file_name>
不要-s對(duì)單讀取庫(kù)使用選項(xiàng),因?yàn)樗鼮榈谝粋€(gè)配對(duì)端庫(kù)指定了未配對(duì)的讀取。

  • ** 配對(duì)端庫(kù)**

--pe**<#>**-12 <file_name>
帶有隔行讀取的文件,用于配對(duì)端庫(kù)號(hào)**<#>****<#>**= 1,2,..,9)。例如,對(duì)于第一個(gè)單讀庫(kù),選項(xiàng)是: --pe1-12 <file_name>

--pe**<#>**-1 <file_name>
左側(cè)的文件讀取配對(duì)末級(jí)庫(kù)號(hào)**<#>****<#>**= 1,2,..,9)。

--pe**<#>**-2 <file_name>
具有正確讀取的配對(duì)末端庫(kù)號(hào)**<#>****<#>**= 1,2,..,9)的文件。

--pe**<#>**-m <file_name>
具有合并結(jié)束庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)的合并讀取的文件
如果庫(kù)的屬性允許,則可以使用特殊軟件合并成對(duì)讀取。必須為同一個(gè)庫(kù)提供具有(剩余)未合并左/右讀?。▎为?dú)或隔行掃描)的非空文件,以便正確檢測(cè)原始讀取長(zhǎng)度。

--pe**<#>**-s <file_name>
來(lái)自配對(duì)端庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)的
未配對(duì)讀取的文件例如,在錯(cuò)誤更正過(guò)程中,配對(duì)讀取可能會(huì)變?yōu)椴慌鋵?duì)。

--pe**<#>**-**<or>**
配對(duì)末端庫(kù)號(hào)的讀取對(duì)的相對(duì)方向**<#>****<#>**= 1,2,...,9; **<or>**=“fr”,“rf”,“ff”)。
配對(duì)端庫(kù)的默認(rèn)方向是forward-reverse(--> <--)。例如,要為第二個(gè)配對(duì)末端庫(kù)指定反向前向,您應(yīng)該使用標(biāo)志: --pe2-rf
不應(yīng)與RNA-Seq數(shù)據(jù)的FR和RF鏈特異性混淆(參見(jiàn)rnaSPAdes手冊(cè))。

  • ** 配對(duì)庫(kù)**

--mp**<#>**-12 <file_name>
具有隔行讀取的文件,用于配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--mp**<#>**-1 <file_name>
左邊的文件讀取配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--mp**<#>**-2 <file_name>
具有正確讀取的配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--mp**<#>**-**<or>**
配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9; **<or>**=“fr”,“rf”,“ff”)的讀取方向。
配對(duì)庫(kù)的默認(rèn)方向是reverse-forward(<-- -->)。例如,要為第一個(gè)配對(duì)庫(kù)指定前向 - 前向,您應(yīng)該使用該標(biāo)志: --mp1-ff

  • ** 高質(zhì)量的配對(duì)庫(kù)**(可用于配對(duì)僅裝配)

--hqmp**<#>**-12 <file_name>
具有隔行讀取的文件,用于高質(zhì)量的配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--hqmp**<#>**-1 <file_name>
左側(cè)的文件讀取高質(zhì)量的配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--hqmp**<#>**-2 <file_name>
具有正確讀取的文件用于高質(zhì)量的配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--hqmp**<#>**-s <file_name>
具有未配對(duì)讀取的文件,來(lái)自高質(zhì)量的配對(duì)庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)

--hqmp**<#>**-**<or>**
高質(zhì)量配偶庫(kù)編號(hào)**<#>****<#>**= 1,2,...,9; **<or>**=“fr”,“rf”,“ff”)的讀取方向。
高質(zhì)量配對(duì)庫(kù)的默認(rèn)方向是forward-reverse(--> <--)。例如,要為第一個(gè)高質(zhì)量配對(duì)庫(kù)指定反向前向,您應(yīng)該使用以下標(biāo)志: --hqmp1-rf

  • ** LucigenNxSeq?長(zhǎng)配對(duì)庫(kù)**(詳見(jiàn)3.1節(jié)

--nxmate**<#>**-1 <file_name>
左邊的文件讀取LucigenNxSeq?LongMate Pair庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

--nxmate**<#>**-2 <file_name>
文件右側(cè)讀取LucigenNxSeq?LongMate Pair庫(kù)編號(hào)**<#>****<#>**= 1,2,..,9)。

*** 指定混合裝配的數(shù)據(jù)***

--pacbio <file_name>
使用PacBio CLR讀取文件。對(duì)于PacBio CCS讀取使用-s選項(xiàng)。有關(guān)PacBio讀取的更多信息,請(qǐng)參見(jiàn)第3.1節(jié)。

--nanopore <file_name>
使用Oxford Nanopore的文件讀取。

--sanger <file_name>
Sanger的文件讀取

--trusted-contigs <file_name>
相同基因組的可靠重疊群,可能沒(méi)有錯(cuò)誤組裝和其他錯(cuò)誤率很低(例如錯(cuò)配和插入錯(cuò)誤)。此選項(xiàng)不適用于相關(guān)物種的重疊群。

--untrusted-contigs <file_name>
相同基因組的重疊群,其質(zhì)量是平均的或未知的??梢允褂觅|(zhì)量差的重疊群但可能在裝配中引入錯(cuò)誤。該選項(xiàng)也不適用于相關(guān)物種的重疊群。

*** 使用YAML數(shù)據(jù)集文件指定輸入數(shù)據(jù)(高級(jí))***

為SPAdes指定輸入數(shù)據(jù)集的另一種方法是創(chuàng)建YAML數(shù)據(jù)集文件。通過(guò)使用YAML文件,您可以提供無(wú)限數(shù)量的配對(duì)端,配對(duì)和非配對(duì)庫(kù)。基本上,YAML數(shù)據(jù)集文件是一個(gè)文本文件,其中輸入庫(kù)以方括號(hào)中的逗號(hào)分隔列表形式提供。每個(gè)庫(kù)都以大括號(hào)的形式提供,以逗號(hào)分隔的屬性列表??梢允褂靡韵聦傩裕?/p>

  • 方向(“fr”,“rf”,“ff”)
  • type(“paired-end”,“mate-pairs”,“hq-mate-pairs”,“single”,“pacbio”,“nanopore”,“sanger”,“trusted-contigs”,“untrusted-contigs”)
  • 隔行讀?。ㄒ愿粜袙呙枳x取的逗號(hào)分隔文件列表)
  • left read(以逗號(hào)分隔的左側(cè)讀取文件列表)
  • right read(以逗號(hào)分隔的正確讀取文件列表)
  • 單個(gè)讀?。ㄒ远禾?hào)分隔的文件列表,包含單個(gè)讀取或配對(duì)庫(kù)中的未配對(duì)讀?。?/li>
  • 合并讀取(以逗號(hào)分隔的文件列表,包含合并讀取

要正確指定庫(kù),您應(yīng)該提供其類(lèi)型和至少一個(gè)帶有讀取的文件。對(duì)于ONT,PacBio,Sanger和重疊群庫(kù),您只能提供單次讀取。Orientation是一個(gè)可選屬性。對(duì)于配對(duì)端庫(kù),其默認(rèn)值為“fr”(正向反向),對(duì)于配對(duì)庫(kù),其默認(rèn)值為“rf”(反向前向)。

每個(gè)屬性的值在冒號(hào)后給出。逗號(hào)分隔的文件列表應(yīng)在方括號(hào)中給出。對(duì)于每個(gè)文件,您應(yīng)該使用雙引號(hào)提供其完整路徑。確保具有正確讀取的文件的順序與左讀取的相應(yīng)文件的順序相同。

例如,如果您將一個(gè)配對(duì)端庫(kù)拆分為兩對(duì)文件:


    lib_pe1_left_1.fastq
    lib_pe1_right_1.fastq
    lib_pe1_left_2.fastq
    lib_pe1_right_2.fastq

一個(gè)配偶庫(kù):


    lib_mp1_left.fastq
    lib_mp1_right.fastq

和PacBio CCS和CLR讀?。?/p>


    pacbio_ccs.fastq
    pacbio_clr.fastq

YAML文件應(yīng)如下所示:


    [
      {
        orientation: "fr",
        type: "paired-end",
        right reads: [
          "/FULL_PATH_TO_DATASET/lib_pe1_right_1.fastq",
          "/FULL_PATH_TO_DATASET/lib_pe1_right_2.fastq" 
        ],
        left reads: [
          "/FULL_PATH_TO_DATASET/lib_pe1_left_1.fastq",
          "/FULL_PATH_TO_DATASET/lib_pe1_left_2.fastq" 
        ]
      },
      {
        orientation: "rf",
        type: "mate-pairs",
        right reads: [
          "/FULL_PATH_TO_DATASET/lib_mp1_right.fastq" 
        ],
        left reads: [
          "/FULL_PATH_TO_DATASET/lib_mp1_left.fastq"
        ]
      },
      {
        type: "single",
        single reads: [
          "/FULL_PATH_TO_DATASET/pacbio_ccs.fastq" 
        ]
      },
      {
        type: "pacbio",
        single reads: [
          "/FULL_PATH_TO_DATASET/pacbio_clr.fastq" 
        ]
      }
    ]

創(chuàng)建YAML文件后,使用.yaml擴(kuò)展名保存(例如as my_data_set.yaml)并使用以下--dataset選項(xiàng)運(yùn)行SPAdes :
--dataset <your YAML file>

注意:

  • --dataset選項(xiàng)不能與指定輸入數(shù)據(jù)的任何其他選項(xiàng)一起使用。
  • 我們建議在單個(gè)庫(kù)塊中嵌套具有相同數(shù)據(jù)類(lèi)型的長(zhǎng)讀取的所有文件。

高級(jí)選項(xiàng)

-t <int>(或--threads <int>
線程數(shù)。默認(rèn)值為16。

-m <int>(或--memory <int>
以Gb為單位設(shè)置內(nèi)存限制。SPAdes如果達(dá)到此限制則終止。默認(rèn)值為250 Gb。實(shí)際消耗的RAM量將低于此限制。確保給定機(jī)器的該值正確。SPAdes使用限制值自動(dòng)確定各種緩沖區(qū)的大小等。

--tmp-dir <dir_name>
從讀取錯(cuò)誤糾正中設(shè)置臨時(shí)文件的目錄。默認(rèn)值為<output_dir>/corrected/tmp

-k <int,int,...>
要使用的以逗號(hào)分隔的k-mer大小列表(所有值必須為奇數(shù),小于128并按升序列出)。如果--sc設(shè)置,則默認(rèn)值為21,33,55。對(duì)于多細(xì)胞數(shù)據(jù)集,使用最大讀取長(zhǎng)度自動(dòng)選擇K值(有關(guān)詳細(xì)信息,請(qǐng)參閱組裝長(zhǎng)Illumina配對(duì)讀數(shù)的注釋)。要正確選擇IonTorrent數(shù)據(jù)的K值,請(qǐng)閱讀3.3節(jié)。

--cov-cutoff <float>
讀取覆蓋率截止值。必須是正浮點(diǎn)值,或“自動(dòng)”或“關(guān)閉”。默認(rèn)值為“關(guān)閉”。設(shè)置為“auto”時(shí),SPAdes會(huì)使用保守策略自動(dòng)計(jì)算覆蓋率閾值。請(qǐng)注意,metaSPAdes不支持此選項(xiàng)。

--phred-offset <33 or 64>
輸入讀數(shù)的PHRED質(zhì)量偏移可以是33或64.如果未指定,將自動(dòng)檢測(cè)。

例子

要測(cè)試玩具數(shù)據(jù)集,您還可以從SPAdes bin目錄運(yùn)行以下命令:


    spades.py --pe1-1 ../share/spades/test_dataset/ecoli_1K_1.fq.gz \
    --pe1-2 ../share/spades/test_dataset/ecoli_1K_2.fq.gz -o spades_test

如果您將庫(kù)分成幾對(duì)文件,例如:


    lib1_forward_1.fastq
    lib1_reverse_1.fastq
    lib1_forward_2.fastq
    lib1_reverse_2.fastq

確保以相同的順序給出相應(yīng)的文件:


    spades.py --pe1-1 lib1_forward_1.fastq --pe1-2 lib1_reverse_1.fastq \
    --pe1-1 lib1_forward_2.fastq --pe1-2 lib1_reverse_2.fastq \
    -o spades_output

具有隔行掃描配對(duì)結(jié)束讀取的文件或具有未配對(duì)讀取的文件可以按任何順序指定,每個(gè)選項(xiàng)只有一個(gè)文件,例如:


    spades.py --pe1-12 lib1_1.fastq --pe1-12 lib1_2.fastq \
    --pe1-s lib1_unpaired_1.fastq --pe1-s lib1_unpaired_2.fastq \
    -o spades_output    

如果您有多個(gè)配對(duì)和配對(duì)讀取,例如:

  • 配對(duì)庫(kù)1

    
        lib_pe1_left.fastq
        lib_pe1_right.fastq
    
    
    • 配對(duì)庫(kù)1
    
        lib_mp1_left.fastq
        lib_mp1_right.fastq
    
    ``` *   配對(duì)圖書(shū)館2
    
    
    lib_mp2_left.fastq
    lib_mp2_right.fastq
    
    
    確保將每個(gè)庫(kù)對(duì)應(yīng)的文件組合在一起:
    
    
    spades.py --pe1-1 lib_pe1_left.fastq --pe1-2 lib_pe1_right.fastq \
    --mp1-1 lib_mp1_left.fastq --mp1-2 lib_mp1_right.fastq \
    --mp2-1 lib_mp2_left.fastq --mp2-2 lib_mp2_right.fastq \
    -o spades_output
    
    
    如果您有IonTorrent未配對(duì)讀數(shù),PacBio CLR和其他可靠的重疊群:
    
    
    it_reads.fastq
    pacbio_clr.fastq
    contigs.fasta
    
    
    使用以下命令運(yùn)行SPAdes:
    
    
    spades.py --iontorrent -s it_reads.fastq \
    --pacbio pacbio_clr.fastq --trusted-contigs contigs.fastq \
    -o spades_output
    
    
    如果將單讀取庫(kù)拆分為多個(gè)文件:
    
    
    unpaired1_1.fastq
    unpaired1_2.fastq
    unpaired1_3.fasta
    
    
    將它們指定為一個(gè)庫(kù):
    
    
    spades.py --s1 unpaired1_1.fastq \
    --s1 unpaired1_2.fastq --s1 unpaired1_3.fastq \
    -o spades_output
    
    
    如果需要,可以混合用于指定輸入數(shù)據(jù)的所有選項(xiàng),但請(qǐng)確保將每個(gè)庫(kù)的文件分組,并且具有左右配對(duì)讀取的文件按相同順序列出。
    
    ### 3.3組裝IonTorrent讀數(shù)
    
     僅支持FASTQ或BAM文件作為輸入。 
    
    對(duì)于IonTorrent來(lái)說(shuō),選擇k-mer長(zhǎng)度并非易事。如果數(shù)據(jù)集或多或少是常規(guī)的(良好的覆蓋率,不是高GC等),那么使用我們的[推薦進(jìn)行長(zhǎng)讀取](http://cab.spbu.ru/files/release3.13.0/manual.html#sec3.4)(例如使用k-mer長(zhǎng)度組裝21,33,55,77,99,127)。然而,由于錯(cuò)誤率增加,可能需要k-mer長(zhǎng)度的一些變化(例如,選擇較短的k-mer長(zhǎng)度)。例如,如果您使用k-mer長(zhǎng)度21,33,55,77運(yùn)行SPAdes,然后決定使用更多迭代和更大的K值組合相同的數(shù)據(jù)集,則可以再次運(yùn)行SPAdes指定相同的輸出文件夾和以下選項(xiàng):`--restart-from k77 -k 21,33,55,77,99,127 --mismatch-correction -o <previous_output_dir>`。不要忘記復(fù)制前一次運(yùn)行中的重疊群和支架。我們計(jì)劃在下一版本中解決為IonTorrent讀取選擇k-mer長(zhǎng)度的問(wèn)題。
    
    您可能根本不需要對(duì)Hi-Q酶進(jìn)行錯(cuò)誤糾正。但是,我們建議您嘗試使用和不使用錯(cuò)誤更正來(lái)組合數(shù)據(jù),并選擇最佳變體。
    
    對(duì)于非平凡數(shù)據(jù)集(例如,具有高GC,低或不均勻覆蓋),我們建議啟用單細(xì)胞模式(設(shè)置`--sc`選項(xiàng))并使用k-mer長(zhǎng)度21,33,55。
    
    ### 3.4組裝長(zhǎng)Illumina配對(duì)讀數(shù)(2x150和2x250)
    
     DNA測(cè)序技術(shù)的最新進(jìn)展導(dǎo)致閱讀長(zhǎng)度的快速增加。如今,通常情況下具有由Illumina MiSeq或HiSeq2500產(chǎn)生的2x150或2x250雙末端讀數(shù)組成的數(shù)據(jù)集。但是,單獨(dú)使用較長(zhǎng)的讀數(shù)不會(huì)自動(dòng)提高裝配質(zhì)量。需要一個(gè)能夠正確利用它們的匯編程序。
    
    SPAdes使用迭代k-mer長(zhǎng)度可以從長(zhǎng)配對(duì)末端讀數(shù)的全部潛力中獲益。目前,必須手動(dòng)設(shè)置匯編程序選項(xiàng),但我們計(jì)劃盡快合并必要選項(xiàng)的自動(dòng)計(jì)算。
    
    請(qǐng)注意,除讀取長(zhǎng)度外,插入長(zhǎng)度也很重要。不建議用一對(duì)250bp的讀數(shù)對(duì)300bp片段進(jìn)行測(cè)序。我們建議使用350-500 bp片段,2x150讀數(shù)和550-700 bp片段,2x250讀數(shù)。
    
    #### 讀取長(zhǎng)度為2x150的多單元數(shù)據(jù)集
    
    不要關(guān)閉SPAdes錯(cuò)誤更正(BayesHammer模塊),它包含在SPAdes默認(rèn)管道中。
    
    如果你有足夠的覆蓋率(50x +),那么你可能想嘗試設(shè)置21,33,55,77的k-mer長(zhǎng)度(默認(rèn)選擇長(zhǎng)度為150bp的讀?。?。
    
    確保運(yùn)行匯編程序,并`--careful`選擇最小化最終重疊群中不匹配的數(shù)量。
    
    我們建議您在每次迭代結(jié)束時(shí)檢查SPAdes日志文件,以控制重疊群的平均覆蓋率。
    
    對(duì)于在運(yùn)行匯編程序之前更正的讀?。?
    
    spades.py -k 21,33,55,77 --careful --only-assembler <your reads> -o spades_output
    
    
    要更正和組裝讀數(shù):
    
    
    spades.py -k 21,33,55,77 --careful <your reads> -o spades_output
    
    
    #### 讀取長(zhǎng)度為2 x 250的多單元數(shù)據(jù)集
    
    不要關(guān)閉SPAdes錯(cuò)誤更正(BayesHammer模塊),它包含在SPAdes默認(rèn)管道中。
    
    默認(rèn)情況下,我們建議以22的增量增加k-mer長(zhǎng)度,直到k-mer長(zhǎng)度達(dá)到127\. k-mer的確切長(zhǎng)度取決于覆蓋范圍:k-mer長(zhǎng)度127對(duì)應(yīng)于50x k-mer覆蓋率和更高。對(duì)于讀取長(zhǎng)度250bp,SPAdes自動(dòng)選擇等于21,33,55,77,99,127的K值。
    
    確保使用`--careful`選項(xiàng)運(yùn)行匯編程序,以最大限度地減少最終重疊群中的不匹配數(shù)。
    
    我們建議您在每次迭代結(jié)束時(shí)檢查SPAdes日志文件,以控制重疊群的平均覆蓋率。
    
    對(duì)于在運(yùn)行匯編程序之前更正的讀?。?
    
    spades.py -k 21,33,55,77,99,127 --careful --only-assembler <your reads> -o spades_output
    
    
    要更正和組裝讀數(shù):
    
    
    spades.py -k 21,33,55,77,99,127 --careful <your reads> -o spades_output
    
    
    #### 讀取長(zhǎng)度為2 x 150或2 x 250的單節(jié)數(shù)據(jù)集
    
    建議使用默認(rèn)的k-mer長(zhǎng)度。對(duì)于單細(xì)胞數(shù)據(jù)集,SPAdes選擇k-mer大小21,33和55。 
    
    但是,充分利用長(zhǎng)讀取的優(yōu)勢(shì)可能會(huì)很棘手??紤]聯(lián)系我們獲取更多信息并討論裝配策略。 
    
    ### 3.5 SPAdes輸出
    
     SPAdes存儲(chǔ)所有輸出文件`<output_dir> `,由用戶(hù)設(shè)置。 
    *   `<output_dir>/corrected/`目錄包含由BayesHammer在`*.fastq.gz`文件中更正的讀數(shù); 如果禁用壓縮,則讀取將存儲(chǔ)在未壓縮的 `*.fastq`文件中*   `<output_dir>/scaffolds.fasta` 包含產(chǎn)生的支架(建議用作結(jié)果序列)*   `<output_dir>/contigs.fasta` 包含產(chǎn)生的重疊群
    *   `<output_dir>/assembly_graph.gfa`包含[GFA 1.0格式的](https://github.com/GFA-spec/GFA-spec/blob/master/GFA1.md)SPAdes裝配圖和支架路徑[](https://github.com/GFA-spec/GFA-spec/blob/master/GFA1.md)
    *   `<output_dir>/assembly_graph.fastg`包含[FASTG格式的](http://fastg.sourceforge.net/FASTG_Spec_v1.00.pdf) SPAdes匯編圖[](http://fastg.sourceforge.net/FASTG_Spec_v1.00.pdf)
    *   `<output_dir>/contigs.paths` 包含與contigs.fasta對(duì)應(yīng)的程序集圖中的路徑(請(qǐng)參閱下面的詳細(xì)信息)
    *   `<output_dir>/scaffolds.paths` 包含與scaffolds.fasta對(duì)應(yīng)的程序集圖中的路徑(請(qǐng)參閱下面的詳細(xì)信息)
    
    SPAdes輸出FASTA文件中的重疊群/支架名稱(chēng)具有以下格式:
    `>NODE_3_length_237403_cov_243.207`
    這`3`是重疊群/支架的數(shù)量,`237403`是核苷酸中的序列長(zhǎng)度,并且`243.207`是使用的最后(最大)k值的k聚體覆蓋。請(qǐng)注意,k-mer覆蓋率始終低于讀取(每個(gè)堿基)覆蓋率。
    
    通常,SPAdes使用兩種技術(shù)將重疊群連接到支架上。第一個(gè)依賴(lài)于讀取對(duì)并嘗試估計(jì)分離重疊群的間隙的大小。第二個(gè)依賴(lài)于裝配圖:例如,如果兩個(gè)重疊群由復(fù)雜的串聯(lián)重復(fù)分開(kāi),無(wú)法精確解析,則將重疊群連接到具有100bp的固定間隙大小的支架中。SPAdes生產(chǎn)的重疊群不含N個(gè)符號(hào)。
    
    要查看FASTG和GFA文件,我們建議使用[Bandage可視化工具](http://rrwick.github.io/Bandage/)。注意,存儲(chǔ)的序列`assembly_graph.fastg`在重復(fù)分辨之前對(duì)應(yīng)于重疊群(組裝圖的邊緣)。與重復(fù)分辨后的重疊群相對(duì)應(yīng)的路徑(腳手架)以Bandage接受的格式存儲(chǔ)在`contigs.paths`(`scaffolds.paths`)中(有關(guān)詳細(xì)信息,請(qǐng)參閱[Bandage wiki](https://github.com/rrwick/Bandage/wiki/Graph-paths))。下面給出了這個(gè)例子。
    
    讓具有名稱(chēng)的重疊群`NODE_5_length_100000_cov_215.651`由裝配圖的以下邊組成:
    
    <pre style="user-select: text !important;">    `>EDGE_**2**_length_33280_cov_199.702
        >EDGE_**5**_length_84_cov_321.414**'**
        >EDGE_**3**_length_111_cov_175.304
        >EDGE_**5**_length_84_cov_321.414**'**
        >EDGE_**4**_length_66661_cov_223.548` 
    </pre>
    
    然后,`contigs.paths`將包含以下記錄:
    
    <pre style="user-select: text !important;">    `NODE_5_length_100000_cov_215.651
        2+,5-,3+,5-,4+` 
    </pre>
    
    由于Bandage的當(dāng)前版本不接受具有間隙的路徑,因此在組裝圖中跳過(guò)間隙的相應(yīng)的contigs / scaffolds的路徑在間隙位置處由分號(hào)分開(kāi)。例如,以下記錄
    
    <pre style="user-select: text !important;">    `NODE_3_length_237403_cov_243.207
        21-,17-,15+,17-,16+;
        31+,23-,22+,23-,4-` 
    </pre>
    
    狀態(tài)`NODE_3_length_237403_cov_243.207`對(duì)應(yīng)于具有10條邊的路徑,但跳過(guò)邊`EDGE_16_length_21503_cov_482.709`和間隙之間的間隙`EDGE_31_length_140767_cov_220.239`。
    
    完整的`<output_dir>`內(nèi)容列表如下:
    
    <pre style="user-select: text !important;">    `scaffolds.fasta`- *得到的支架(推薦用作得到的序列)*
        `contigs.fasta` - *得到的毗連群*
        `assembly_graph.fastg` - *裝配圖表*
        `contigs.paths` - *重疊群在裝配圖上的路徑*
        `scaffolds.paths` - *支架路徑在裝配圖表*
        `before_rr.fasta` - *重疊群重復(fù)分辨率之前*
    
        `corrected/`- *文件從讀糾錯(cuò)*
            `configs/` - *配置文件讀取糾錯(cuò)*
            `corrected.yaml` - *內(nèi)部配置文件* 輸出具有更正讀數(shù)的文件
    
        `params.txt`- *有關(guān)此次運(yùn)行中SPAdes參數(shù)的信息*
        `spades.log` - *SPAdes日志*
        `dataset.info` - *內(nèi)部配置文件*
        `input_dataset.yaml` - *內(nèi)部YAML數(shù)據(jù)集文件*
        `K<##>/` - *包含運(yùn)行中K = <##>的中間文件的目錄。這些文件不應(yīng)用作匯編結(jié)果; 在上述文件中使用產(chǎn)生的重疊群/支架。*
    </pre>
    
    如果這些文件和目錄存在于指定的文件和目錄中,它們將覆蓋它們`<output_dir>`。
    
    ### 3.6 plasmidSPAdes輸出
    
    plasmidSPAdes僅輸出來(lái)自推定質(zhì)粒的DNA序列。輸出文件名和格式與SPAdes中的相同(參見(jiàn)[上一](http://cab.spbu.ru/files/release3.13.0/manual.html#sec3.5)節(jié)),但有以下區(qū)別。對(duì)于所有的重疊群的名字`contigs.fasta`,`scaffolds.fasta` 和 `assembly_graph.fastg` 我們追加后綴`_component_X`,這里`X`是假定的質(zhì)粒,該重疊群所屬的ID。注意,質(zhì)粒SPAdes可能無(wú)法分離相似的質(zhì)粒,因此它們的重疊群可能具有相同的id。
    
    ### 3.7裝配評(píng)估
    
    [QUAST](http://cab.spbu.ru/software/quast/)可用于生成單個(gè)組裝的匯總統(tǒng)計(jì)數(shù)據(jù)(N50,最大重疊群長(zhǎng)度,GC%,參考列表中的#個(gè)基因或內(nèi)置基因發(fā)現(xiàn)工具等)。它還可以用于比較同一數(shù)據(jù)集的多個(gè)程序集的統(tǒng)計(jì)數(shù)據(jù)(例如,使用不同參數(shù)運(yùn)行的SPAdes,或幾個(gè)不同的匯編程序)。 
    
    ## 4.在SPAdes包中發(fā)布的獨(dú)立二進(jìn)制文件
    
     ### 4.1 k-mer計(jì)數(shù)
    
    要向SPAdes k-mer計(jì)數(shù)工具提供輸入數(shù)據(jù),`spades-kmercounter`您可以只指定[SPAdes支持的格式的](http://cab.spbu.ru/files/release3.13.0/manual.html#sec3.1)文件,不帶任何標(biāo)記(在所有選項(xiàng)之后)或提供[YAML格式的](http://cab.spbu.ru/files/release3.13.0/manual.html#yaml)數(shù)據(jù)集描述文件。
    
    概要: `spades-kmercount [OPTION...] <input files>`
    
    選項(xiàng)是:
    
    `-d, --dataset file <file name>`
        數(shù)據(jù)集描述(采用YAML格式),忽略輸入文件
    
    `-k, --kmer <int>`
        k-mer長(zhǎng)度(默認(rèn)值:21)
    
    `-t, --threads <int>`
        要使用的線程數(shù)(默認(rèn)值:120)
    
    `-w, --workdir <dir name>`
        要使用的工作目錄(默認(rèn):當(dāng)前目錄)
    
    `-b, --bufsize <int>`
        按線程排序緩沖區(qū)大?。ㄒ宰止?jié)為單位)(默認(rèn)值536870912)
    
    `-h, --help`
        打印幫助信息
    
     ### 4.2圖形構(gòu)造 
    
    圖形構(gòu)造工具`spades-gbuilder`有兩個(gè)必需選項(xiàng):[YAML格式的](http://cab.spbu.ru/files/release3.13.0/manual.html#yaml)數(shù)據(jù)集描述文件和輸出文件名。
    
    概要: `spades-gbuilder <dataset description (in YAML)> <output filename> [-k <value>] [-t <value>] [-tmpdir <dir>] [-b <value>] [-unitigs|-fastg|-gfa|-spades]`
    
    其他選項(xiàng)包括:
    
    `-k <int>`
        用于施工的k-mer長(zhǎng)度(必須是奇數(shù))
    
    `-t <int>`
        線程數(shù)
    
    `-tmpdir <dir_name> `
        要使用的臨時(shí)目錄
    
    `-b <int>`
        排序緩沖區(qū)大?。總€(gè)線程,以字節(jié)為單位)
    
    `-unitigs`
        用于施工的k-mer長(zhǎng)度(必須是奇數(shù))
    
    `-fastg`
        FASTG格式的輸出圖
    
    `-gfa`
        GFA1格式的輸出圖
    
    `-spades`
        SPAdes內(nèi)部格式的輸出圖
    
     ### 4.3長(zhǎng)讀取圖形對(duì)準(zhǔn)器 
    
    用于將長(zhǎng)讀取與圖形對(duì)齊的工具`spades-gmapper`有三個(gè)必需選項(xiàng):[YAML格式的](http://cab.spbu.ru/files/release3.13.0/manual.html#yaml)數(shù)據(jù)集描述文件,GFA格式的圖形文件和輸出文件名。
    
    概要: `spades-gmapper <dataset description (in YAML)> <graph (in GFA)> <output filename> [-k <value>] [-t <value>] [-tmpdir <dir>]`
    
    其他選項(xiàng)包括:
    
    `-k <int>`
        用于圖形構(gòu)造的k-mer長(zhǎng)度
    
    `-t <int>`
        線程數(shù)
    
    `-tmpdir <dir_name> `
        要使用的臨時(shí)目錄
    
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容