1.PacBio HiFi?長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)
長(zhǎng)讀長(zhǎng)測(cè)序能夠檢測(cè)長(zhǎng)度為1,000到20,000個(gè)堿基或更長(zhǎng)的DNA(或RNA)片段。這些片段通常來(lái)自于“原生”分子,這些分子是直接從生物樣本中提取出來(lái)進(jìn)行分析的。相比之下,大多數(shù)短讀長(zhǎng)測(cè)序技術(shù)只能檢測(cè)50-300個(gè)堿基長(zhǎng)度的片段。與大多數(shù)長(zhǎng)讀長(zhǎng)方法不同,短讀長(zhǎng)測(cè)序解決方案無(wú)法有效地對(duì)原生分子進(jìn)行測(cè)序,并且在分析之前需要對(duì)提取的DNA進(jìn)行擴(kuò)增。
“……雖然讀長(zhǎng)通常被認(rèn)為是主導(dǎo)因素之一……,但我們的結(jié)果表明,HiFi 技術(shù)更高的測(cè)序準(zhǔn)確性超過(guò)了讀長(zhǎng)所帶來(lái)的好處?!?/b>
2.ccs數(shù)據(jù)格式
CCS(Consensus Coding Sequence)數(shù)據(jù)是PacBio SMRT(Single Molecule, Real-Time)測(cè)序技術(shù)中的一種高質(zhì)量序列數(shù)據(jù)格式。CCS數(shù)據(jù)是通過(guò)將多個(gè)獨(dú)立的subreads(子讀取序列)對(duì)齊并合并成一個(gè)更準(zhǔn)確的共識(shí)序列來(lái)生成的。這種數(shù)據(jù)格式具有以下特點(diǎn):
高質(zhì)量:CCS序列是經(jīng)過(guò)質(zhì)量控制和錯(cuò)誤校正的,因此比原始的subreads具有更高的準(zhǔn)確性。
長(zhǎng)讀取:PacBio測(cè)序技術(shù)可以產(chǎn)生平均長(zhǎng)度在10,000到20,000堿基對(duì)的長(zhǎng)讀取序列。
數(shù)據(jù)結(jié)構(gòu):CCS數(shù)據(jù)通常包含以下信息:
序列標(biāo)識(shí)符(Sequence Identifier):唯一標(biāo)識(shí)序列的ID。
序列(Sequence):核苷酸序列。
質(zhì)量值(Quality Values):每個(gè)堿基的測(cè)序質(zhì)量評(píng)分,通常以Phred+33或Phred+64編碼。
文件格式:CCS數(shù)據(jù)可以存儲(chǔ)在多種文件格式中,包括:
HDF5:一種用于存儲(chǔ)和組織大量數(shù)據(jù)的文件格式,PacBio的SMRT Analysis軟件使用這種格式。
BAM:二進(jìn)制比對(duì)/映射格式,是一種用于存儲(chǔ)測(cè)序讀取與參考基因組比對(duì)結(jié)果的壓縮格式。
FASTA:一種簡(jiǎn)單的文本格式,用于存儲(chǔ)核苷酸序列或蛋白質(zhì)序列。
附加信息:CCS數(shù)據(jù)文件可能還會(huì)包含一些附加信息,如測(cè)序過(guò)程中的原始信號(hào)強(qiáng)度、分子條形碼、測(cè)序孔信息等。
分析工具:PacBio提供了一系列的軟件工具來(lái)處理CCS數(shù)據(jù),包括用于生成CCS的CCSGenerator,以及用于進(jìn)一步分析的SMRT Link。
應(yīng)用領(lǐng)域:CCS數(shù)據(jù)由于其高準(zhǔn)確度和長(zhǎng)讀取長(zhǎng)度,常用于基因組組裝、基因表達(dá)分析、甲基化分析和RNA結(jié)構(gòu)研究等領(lǐng)域。
查看壓縮的ccs文件
zcat G00101.ccs.fastq.gz | head -n 10
@m64270e_220111_004519/31/ccs
TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG?
+?
~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?
3.canu組裝
canu是專(zhuān)門(mén)設(shè)計(jì)給組裝PacBio或Oxford Nanopore長(zhǎng)序列的一款工具。輸入的序列可以是FASTA或FASTQ格式,未壓縮或使用gzip(.gz),bzip2(.bz2)或xz(.xz)壓縮的格式,暫時(shí)不支持zip文件(.zip)。
Canu支持?jǐn)帱c(diǎn)運(yùn)行,允許從系統(tǒng)中斷或其他它常終止中斷點(diǎn)運(yùn)行。每次重新啟動(dòng)Canu時(shí),它都會(huì)檢查程序集目錄中的文件,以決定下一步該做什么。例如,如果除了兩個(gè)組裝任務(wù)之外的所有任務(wù)都已完成,那么當(dāng)其重新啟動(dòng)之后,Canu僅會(huì)進(jìn)行運(yùn)行所缺失的兩個(gè)任務(wù)。為獲得最佳結(jié)果,請(qǐng)勿在重新啟動(dòng),中途時(shí)候更改Canu的參數(shù)。
Canu具有智能的檢測(cè)功能。Canu能根據(jù)當(dāng)前服務(wù)器所有可用的資源,自動(dòng)檢測(cè)計(jì)算資源并擴(kuò)展調(diào)整自身參數(shù)的配置。當(dāng)然你也可手動(dòng)去調(diào)整,可以使用參數(shù)maxMemory和maxThreads明確限制內(nèi)存和處理器的數(shù)目。
對(duì)數(shù)據(jù)的要求,對(duì)于真核基因組,理論上超過(guò)20倍的數(shù)據(jù)覆蓋率,足以勝過(guò)當(dāng)前的混合組裝的方法。但Canu建議是,最小的數(shù)據(jù)深度范圍為30倍至60倍。因?yàn)楦畹母采w度,將讓Canu使用更長(zhǎng)的讀取進(jìn)行裝配,這將導(dǎo)致更好的組裝結(jié)果。
Canu分三個(gè)階段進(jìn)行組裝運(yùn)作:
修正 (Corret):修正階段將會(huì)提高reads中堿基的準(zhǔn)確性。
修剪 (Trim):修剪階段將reads修剪到,看起來(lái)像高質(zhì)量序列,并刪除可疑的區(qū)域,例如剩余的SMRTbell的adpaters。
組裝 (Assemble):組裝階段將reads排序?yàn)閏ontigs,生成對(duì)應(yīng)的共有序列(consensus suquences) 并創(chuàng)建可能的共有序列互相相連的路徑。
HIFI組裝命令(canu 2.2)
canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

CLS組裝命令
canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq
Nanopore
canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta
————————————————————————————————————
? ? ? ?使用PacBio-HiFi數(shù)據(jù)的HiCanu一致序列通常遠(yuǎn)高于99.99%,官方文檔說(shuō)到不鼓勵(lì)對(duì)這些組件進(jìn)行任何后期處理/拋光,因?yàn)橹貜?fù)中的mis-mapping可能會(huì)導(dǎo)致錯(cuò)誤。
? ? ? ?對(duì)于PacBio數(shù)據(jù)集,Canu一致序列通常遠(yuǎn)高于99%的一致性。納米孔的準(zhǔn)確度因孔和基孔的不同而不同,但對(duì)于最新的數(shù)據(jù),準(zhǔn)確度通常在99%以上。精確性可以通過(guò)使用專(zhuān)門(mén)為該任務(wù)開(kāi)發(fā)的工具來(lái)提高。
? ? ? ?Canu推薦Arrow用于PacBio,Nanopolish或Medaka用于Oxford Nanpore數(shù)據(jù)。當(dāng)Illumina reads可用時(shí),F(xiàn)reeBayes可用于polish either PacBio or Oxford Nanopore assemblies.
4.falcon組裝
? ? ? ?FALCON是PacBio公司開(kāi)發(fā)的一款用于三代基因組De novo組裝軟件。相比于HGAP4軟件,F(xiàn)ALCON軟件的基因組組裝原理基本一致。但FALCON使用命令行運(yùn)行,更適合于大基因組的組裝,且能分析雙倍體序列,并在基因組組裝結(jié)果中給出包含變異位點(diǎn)信息的等位基因序列(alternative contigs / a-contigs)和主要的基因組序列(primary contig / p-contig)。每一條a-contig都有其對(duì)應(yīng)的p-contig序列。因此,F(xiàn)ALCON軟件適合雙倍體物種的基因組組裝,能給出單倍的基因序列。其基因組組裝結(jié)果中的p-contigs序列總長(zhǎng)度要小于其它基因組組裝軟件(例如Canu和HGAP)的基因組序列。
? ? ? ?FALCON-Unzip則是真正的單倍型組裝軟件,它能在FALCON或HGAP4軟件的基因組組裝結(jié)果基礎(chǔ)上,利用較長(zhǎng)的PacBio reads進(jìn)行單倍型分析,對(duì)p-contigs序列向單倍型進(jìn)行轉(zhuǎn)換,同時(shí)輸出單倍型序列(haplotig)區(qū)塊。
原理
? ? ? ? 第一輪是選擇種子序列或者是數(shù)據(jù)集中最長(zhǎng)的序列(通過(guò)length_cufoff設(shè)置),比較短的序列比對(duì)到長(zhǎng)序列上用于產(chǎn)生高可信度的一致性序列。PacBio稱(chēng)其為預(yù)組裝(pre-asembled), 其實(shí)和糾錯(cuò)等價(jià)。這一步可能會(huì)將種子序列在低覆蓋度的區(qū)域進(jìn)行分割(split)或者修整(trim),由falcon_sense_options參數(shù)控制,最后得到preads(pre-assembled reads)。
? ? ? ?第二輪是將preads相互比對(duì),從而組裝成contigs(contig指的是連續(xù)的不間斷的基因組序列, contiguous sequence)


Falcon 是一個(gè) Python Web 框架,它不是一個(gè)獨(dú)立的命令行工具,而是一個(gè) Python 包。因此,你不能直接通過(guò) falcon 命令來(lái)運(yùn)行它。相反,你需要通過(guò) Python 來(lái)運(yùn)行 Falcon 應(yīng)用程序。
5.hifiasm組裝
1. Hifiasm組裝基因組的模式
HiFi-only assembly 模式(只有HiFi數(shù)據(jù))
Trio-binning模式(HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù))
Hi-C Integrated assembly 模式(HiFi數(shù)據(jù)+Hi-C數(shù)據(jù))
端對(duì)端組裝:HiFi+ONT模式(HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù))
2. HiFi-only assembly 模式(只有HiFi數(shù)據(jù))
2.1. 經(jīng)典模式
命令
nohup hifiasm -o sample_prefix -t 32 Hifi.fq.gz 2>&1 > hifiasm.log &
參數(shù)
HiFi reads可以是fq或fa格式(fq的質(zhì)量值會(huì)被忽略),可以是gz壓縮格式。
-o指定輸出文件前綴;-t指定線程。
用命令 2>&1 >hifiasm.log保存日志和報(bào)錯(cuò)內(nèi)容到hifiasm.log文件。
2.2. 兩種組裝方式
單倍體分型組裝(two partially phased assembly)
默認(rèn)是以此方式組裝。
單倍體分型組裝生成一對(duì)文件(asm.bp.hap1.p_ctg.gfa和asm.bp.hap2.p_ctg.gfa),代表二倍體的兩個(gè)單倍型。同時(shí)也會(huì)生成primary contigs文件asm.bp.p_ctg.gfa。
primary/alternate組裝
加一個(gè)參數(shù) --primary則指定primary/alternate組裝方式。
命令: nohup hifiasm -o sample_prefix -t 32 --primary Hifi.fq.gz 2>&1 > hifiasm.log &
分別生成primary contigs和alternate contigs文件asm.p_ctg.gfa和asm._ctg.gfa。
3. Trio-binning模式(HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù))
當(dāng)父母本的二代Illumina reads可用時(shí),也可以通過(guò)trio binning生成一對(duì)解析的單倍型的組裝。
Hifiasm中用到的trio binning 技術(shù)是指利用父本、母本和子代的遺傳信息對(duì)子代的單倍型劃分的方法。該方法的有效性隨著雜合度的增加而提高,極大地提升了等位基因組的組裝質(zhì)量。
命令
# trio-binning模式需要額外安裝yak,兩種安裝方式任選一種
# source code
git clone https://github.com/lh3/yak
cd yak && make
# bioncda
conda install -c bioconda yak
# 運(yùn)行組裝
yak count -b37 -t16 -o pat.yak <(cat paternal_1.fq.gz paternal_2.fq.gz) <(cat paternal_1.fq.gz paternal_2.fq.gz)
yak count -b37 -t16 -o mat.yak <(cat maternal_1.fq.gz maternal_2.fq.gz) <(cat maternal_1.fq.gz maternal_2.fq.gz)
hifiasm -o sample_prefix -t 32 -1 pat.yak -2 mat.yak Hifi.fq.gz 2>&1 > hifiasm.log &
參數(shù)解釋
命令中Illumina雙端測(cè)序的父本paternal數(shù)據(jù)和母本maternal數(shù)據(jù)同時(shí)使用
4. Hi-C Integrated assembly 模式(HiFi數(shù)據(jù)+Hi-C數(shù)據(jù))
當(dāng)Hi-C數(shù)據(jù)可用時(shí),可以生成一對(duì)解析的單倍型的組裝。
李恒團(tuán)隊(duì)2022年在Nature biotechnology上發(fā)表論文Haplotype-resolved assembly of diploid genomes without parental data(https://www.nature.com/articles/s41587-022-01261-x),在Hifiasm中引入了Hi-C Integrated assembly 模式。
Hi-C Integrated assembly模式針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)。
該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing),從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果。為了進(jìn)一步提高組裝質(zhì)量,作者充分利用了組裝圖中的結(jié)構(gòu)信息,以及其前期研究中的Graph-binning等策略。
這個(gè)模式組裝后的基因組還未掛載在染色體上,仍然需要Juicer+3ddna+juicebox等軟件進(jìn)行染色體掛載。
這個(gè)模式的數(shù)據(jù)最易獲得,所以也很常用。
命令
nohup hifiasm -o sample_prefix -t 32 --h1 HiC_1.fq.gz --h2 ample_HiC_2.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &
參數(shù)
用--h1和--h2指定Hi-C數(shù)據(jù)。
5. 端對(duì)端組裝:HiFi+ONT模式(HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù))
當(dāng)ONT數(shù)據(jù)可用時(shí),可以集成超長(zhǎng)ONT數(shù)據(jù)生成端粒到端粒的組裝
命令
nohup hifiasm -o sample_prefix -t 32 --ul ONT.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &
參數(shù)
用--ul指定ONT數(shù)據(jù)。