幾個(gè)基因組組裝軟件

1.PacBio HiFi?長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)

長(zhǎng)讀長(zhǎng)測(cè)序能夠檢測(cè)長(zhǎng)度為1,000到20,000個(gè)堿基或更長(zhǎng)的DNA(或RNA)片段。這些片段通常來(lái)自于“原生”分子,這些分子是直接從生物樣本中提取出來(lái)進(jìn)行分析的。相比之下,大多數(shù)短讀長(zhǎng)測(cè)序技術(shù)只能檢測(cè)50-300個(gè)堿基長(zhǎng)度的片段。與大多數(shù)長(zhǎng)讀長(zhǎng)方法不同,短讀長(zhǎng)測(cè)序解決方案無(wú)法有效地對(duì)原生分子進(jìn)行測(cè)序,并且在分析之前需要對(duì)提取的DNA進(jìn)行擴(kuò)增。

“……雖然讀長(zhǎng)通常被認(rèn)為是主導(dǎo)因素之一……,但我們的結(jié)果表明,HiFi 技術(shù)更高的測(cè)序準(zhǔn)確性超過(guò)了讀長(zhǎng)所帶來(lái)的好處?!?/b>

2.ccs數(shù)據(jù)格式

CCS(Consensus Coding Sequence)數(shù)據(jù)是PacBio SMRT(Single Molecule, Real-Time)測(cè)序技術(shù)中的一種高質(zhì)量序列數(shù)據(jù)格式。CCS數(shù)據(jù)是通過(guò)將多個(gè)獨(dú)立的subreads(子讀取序列)對(duì)齊并合并成一個(gè)更準(zhǔn)確的共識(shí)序列來(lái)生成的。這種數(shù)據(jù)格式具有以下特點(diǎn):

高質(zhì)量:CCS序列是經(jīng)過(guò)質(zhì)量控制和錯(cuò)誤校正的,因此比原始的subreads具有更高的準(zhǔn)確性。

長(zhǎng)讀取:PacBio測(cè)序技術(shù)可以產(chǎn)生平均長(zhǎng)度在10,000到20,000堿基對(duì)的長(zhǎng)讀取序列。

數(shù)據(jù)結(jié)構(gòu):CCS數(shù)據(jù)通常包含以下信息:

序列標(biāo)識(shí)符(Sequence Identifier):唯一標(biāo)識(shí)序列的ID。

序列(Sequence):核苷酸序列。

質(zhì)量值(Quality Values):每個(gè)堿基的測(cè)序質(zhì)量評(píng)分,通常以Phred+33或Phred+64編碼。

文件格式:CCS數(shù)據(jù)可以存儲(chǔ)在多種文件格式中,包括:

HDF5:一種用于存儲(chǔ)和組織大量數(shù)據(jù)的文件格式,PacBio的SMRT Analysis軟件使用這種格式。

BAM:二進(jìn)制比對(duì)/映射格式,是一種用于存儲(chǔ)測(cè)序讀取與參考基因組比對(duì)結(jié)果的壓縮格式。

FASTA:一種簡(jiǎn)單的文本格式,用于存儲(chǔ)核苷酸序列或蛋白質(zhì)序列。

附加信息:CCS數(shù)據(jù)文件可能還會(huì)包含一些附加信息,如測(cè)序過(guò)程中的原始信號(hào)強(qiáng)度、分子條形碼、測(cè)序孔信息等。

分析工具:PacBio提供了一系列的軟件工具來(lái)處理CCS數(shù)據(jù),包括用于生成CCS的CCSGenerator,以及用于進(jìn)一步分析的SMRT Link。

應(yīng)用領(lǐng)域:CCS數(shù)據(jù)由于其高準(zhǔn)確度和長(zhǎng)讀取長(zhǎng)度,常用于基因組組裝、基因表達(dá)分析、甲基化分析和RNA結(jié)構(gòu)研究等領(lǐng)域。

查看壓縮的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10


@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG?

+?

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?


3.canu組裝

canu是專(zhuān)門(mén)設(shè)計(jì)給組裝PacBio或Oxford Nanopore長(zhǎng)序列的一款工具。輸入的序列可以是FASTA或FASTQ格式,未壓縮或使用gzip(.gz),bzip2(.bz2)或xz(.xz)壓縮的格式,暫時(shí)不支持zip文件(.zip)。

Canu支持?jǐn)帱c(diǎn)運(yùn)行,允許從系統(tǒng)中斷或其他它常終止中斷點(diǎn)運(yùn)行。每次重新啟動(dòng)Canu時(shí),它都會(huì)檢查程序集目錄中的文件,以決定下一步該做什么。例如,如果除了兩個(gè)組裝任務(wù)之外的所有任務(wù)都已完成,那么當(dāng)其重新啟動(dòng)之后,Canu僅會(huì)進(jìn)行運(yùn)行所缺失的兩個(gè)任務(wù)。為獲得最佳結(jié)果,請(qǐng)勿在重新啟動(dòng),中途時(shí)候更改Canu的參數(shù)。

Canu具有智能的檢測(cè)功能。Canu能根據(jù)當(dāng)前服務(wù)器所有可用的資源,自動(dòng)檢測(cè)計(jì)算資源并擴(kuò)展調(diào)整自身參數(shù)的配置。當(dāng)然你也可手動(dòng)去調(diào)整,可以使用參數(shù)maxMemory和maxThreads明確限制內(nèi)存和處理器的數(shù)目。

對(duì)數(shù)據(jù)的要求,對(duì)于真核基因組,理論上超過(guò)20倍的數(shù)據(jù)覆蓋率,足以勝過(guò)當(dāng)前的混合組裝的方法。但Canu建議是,最小的數(shù)據(jù)深度范圍為30倍至60倍。因?yàn)楦畹母采w度,將讓Canu使用更長(zhǎng)的讀取進(jìn)行裝配,這將導(dǎo)致更好的組裝結(jié)果。

Canu分三個(gè)階段進(jìn)行組裝運(yùn)作:

修正 (Corret):修正階段將會(huì)提高reads中堿基的準(zhǔn)確性。

修剪 (Trim):修剪階段將reads修剪到,看起來(lái)像高質(zhì)量序列,并刪除可疑的區(qū)域,例如剩余的SMRTbell的adpaters。

組裝 (Assemble):組裝階段將reads排序?yàn)閏ontigs,生成對(duì)應(yīng)的共有序列(consensus suquences) 并創(chuàng)建可能的共有序列互相相連的路徑。


HIFI組裝命令(canu 2.2)

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

??生成的組裝文件在asm.contigs.fasta,另外其他可能有用的文件asm.unassembled.fasta (沒(méi)有被組裝好的reads),asm.report? (包含了每一步的運(yùn)行信息)。

CLS組裝命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

? ? ? ?使用PacBio-HiFi數(shù)據(jù)的HiCanu一致序列通常遠(yuǎn)高于99.99%,官方文檔說(shuō)到不鼓勵(lì)對(duì)這些組件進(jìn)行任何后期處理/拋光,因?yàn)橹貜?fù)中的mis-mapping可能會(huì)導(dǎo)致錯(cuò)誤。

? ? ? ?對(duì)于PacBio數(shù)據(jù)集,Canu一致序列通常遠(yuǎn)高于99%的一致性。納米孔的準(zhǔn)確度因孔和基孔的不同而不同,但對(duì)于最新的數(shù)據(jù),準(zhǔn)確度通常在99%以上。精確性可以通過(guò)使用專(zhuān)門(mén)為該任務(wù)開(kāi)發(fā)的工具來(lái)提高。

? ? ? ?Canu推薦Arrow用于PacBio,Nanopolish或Medaka用于Oxford Nanpore數(shù)據(jù)。當(dāng)Illumina reads可用時(shí),F(xiàn)reeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

4.falcon組裝

? ? ? ?FALCON是PacBio公司開(kāi)發(fā)的一款用于三代基因組De novo組裝軟件。相比于HGAP4軟件,F(xiàn)ALCON軟件的基因組組裝原理基本一致。但FALCON使用命令行運(yùn)行,更適合于大基因組的組裝,且能分析雙倍體序列,并在基因組組裝結(jié)果中給出包含變異位點(diǎn)信息的等位基因序列(alternative contigs / a-contigs)和主要的基因組序列(primary contig / p-contig)。每一條a-contig都有其對(duì)應(yīng)的p-contig序列。因此,F(xiàn)ALCON軟件適合雙倍體物種的基因組組裝,能給出單倍的基因序列。其基因組組裝結(jié)果中的p-contigs序列總長(zhǎng)度要小于其它基因組組裝軟件(例如Canu和HGAP)的基因組序列。

? ? ? ?FALCON-Unzip則是真正的單倍型組裝軟件,它能在FALCON或HGAP4軟件的基因組組裝結(jié)果基礎(chǔ)上,利用較長(zhǎng)的PacBio reads進(jìn)行單倍型分析,對(duì)p-contigs序列向單倍型進(jìn)行轉(zhuǎn)換,同時(shí)輸出單倍型序列(haplotig)區(qū)塊。

原理

? ? ? ? 第一輪是選擇種子序列或者是數(shù)據(jù)集中最長(zhǎng)的序列(通過(guò)length_cufoff設(shè)置),比較短的序列比對(duì)到長(zhǎng)序列上用于產(chǎn)生高可信度的一致性序列。PacBio稱(chēng)其為預(yù)組裝(pre-asembled), 其實(shí)和糾錯(cuò)等價(jià)。這一步可能會(huì)將種子序列在低覆蓋度的區(qū)域進(jìn)行分割(split)或者修整(trim),由falcon_sense_options參數(shù)控制,最后得到preads(pre-assembled reads)。

? ? ? ?第二輪是將preads相互比對(duì),從而組裝成contigs(contig指的是連續(xù)的不間斷的基因組序列, contiguous sequence)



用conda-forge通道終于安裝上了

Falcon 是一個(gè) Python Web 框架,它不是一個(gè)獨(dú)立的命令行工具,而是一個(gè) Python 包。因此,你不能直接通過(guò) falcon 命令來(lái)運(yùn)行它。相反,你需要通過(guò) Python 來(lái)運(yùn)行 Falcon 應(yīng)用程序。

5.hifiasm組裝

1. Hifiasm組裝基因組的模式

HiFi-only assembly 模式(只有HiFi數(shù)據(jù))

Trio-binning模式(HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù))

Hi-C Integrated assembly 模式(HiFi數(shù)據(jù)+Hi-C數(shù)據(jù))

端對(duì)端組裝:HiFi+ONT模式(HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù))

2. HiFi-only assembly 模式(只有HiFi數(shù)據(jù))

2.1. 經(jīng)典模式

命令

nohup hifiasm -o sample_prefix -t 32 Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

HiFi reads可以是fq或fa格式(fq的質(zhì)量值會(huì)被忽略),可以是gz壓縮格式。

-o指定輸出文件前綴;-t指定線程。

用命令 2>&1 >hifiasm.log保存日志和報(bào)錯(cuò)內(nèi)容到hifiasm.log文件。

2.2. 兩種組裝方式

單倍體分型組裝(two partially phased assembly)

默認(rèn)是以此方式組裝。

單倍體分型組裝生成一對(duì)文件(asm.bp.hap1.p_ctg.gfa和asm.bp.hap2.p_ctg.gfa),代表二倍體的兩個(gè)單倍型。同時(shí)也會(huì)生成primary contigs文件asm.bp.p_ctg.gfa。

primary/alternate組裝

加一個(gè)參數(shù) --primary則指定primary/alternate組裝方式。

命令: nohup hifiasm -o sample_prefix -t 32 --primary Hifi.fq.gz 2>&1 > hifiasm.log &

分別生成primary contigs和alternate contigs文件asm.p_ctg.gfa和asm._ctg.gfa。

3. Trio-binning模式(HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù))

當(dāng)父母本的二代Illumina reads可用時(shí),也可以通過(guò)trio binning生成一對(duì)解析的單倍型的組裝。

Hifiasm中用到的trio binning 技術(shù)是指利用父本、母本和子代的遺傳信息對(duì)子代的單倍型劃分的方法。該方法的有效性隨著雜合度的增加而提高,極大地提升了等位基因組的組裝質(zhì)量。

命令

# trio-binning模式需要額外安裝yak,兩種安裝方式任選一種

# source code

git clone https://github.com/lh3/yak

cd yak && make

# bioncda

conda install -c bioconda yak

# 運(yùn)行組裝

yak count -b37 -t16 -o pat.yak <(cat paternal_1.fq.gz paternal_2.fq.gz) <(cat paternal_1.fq.gz paternal_2.fq.gz)

yak count -b37 -t16 -o mat.yak <(cat maternal_1.fq.gz maternal_2.fq.gz) <(cat maternal_1.fq.gz maternal_2.fq.gz)

hifiasm -o sample_prefix -t 32 -1 pat.yak -2 mat.yak Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)解釋

命令中Illumina雙端測(cè)序的父本paternal數(shù)據(jù)和母本maternal數(shù)據(jù)同時(shí)使用

4. Hi-C Integrated assembly 模式(HiFi數(shù)據(jù)+Hi-C數(shù)據(jù))

當(dāng)Hi-C數(shù)據(jù)可用時(shí),可以生成一對(duì)解析的單倍型的組裝。

李恒團(tuán)隊(duì)2022年在Nature biotechnology上發(fā)表論文Haplotype-resolved assembly of diploid genomes without parental data(https://www.nature.com/articles/s41587-022-01261-x),在Hifiasm中引入了Hi-C Integrated assembly 模式。

Hi-C Integrated assembly模式針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)。

該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing),從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果。為了進(jìn)一步提高組裝質(zhì)量,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略。

這個(gè)模式組裝后的基因組還未掛載在染色體上,仍然需要Juicer+3ddna+juicebox等軟件進(jìn)行染色體掛載。

這個(gè)模式的數(shù)據(jù)最易獲得,所以也很常用。

命令

nohup hifiasm -o sample_prefix -t 32 --h1 HiC_1.fq.gz --h2 ample_HiC_2.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

用--h1和--h2指定Hi-C數(shù)據(jù)。

5. 端對(duì)端組裝:HiFi+ONT模式(HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù))

當(dāng)ONT數(shù)據(jù)可用時(shí),可以集成超長(zhǎng)ONT數(shù)據(jù)生成端粒到端粒的組裝

命令

nohup hifiasm -o sample_prefix -t 32 --ul ONT.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

用--ul指定ONT數(shù)據(jù)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容