1.PacBio HiFi?長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)

長(zhǎng)讀長(zhǎng)測(cè)序能夠檢測(cè)長(zhǎng)度為1,000到20,000個(gè)堿基或更長(zhǎng)的DNA（或RNA）片段。這些片段通常來(lái)自于“原生”分子，這些分子是直接從生物樣本中提取出來(lái)進(jìn)行分析的。相比之下，大多數(shù)短讀長(zhǎng)測(cè)序技術(shù)只能檢測(cè)50-300個(gè)堿基長(zhǎng)度的片段。與大多數(shù)長(zhǎng)讀長(zhǎng)方法不同，短讀長(zhǎng)測(cè)序解決方案無(wú)法有效地對(duì)原生分子進(jìn)行測(cè)序，并且在分析之前需要對(duì)提取的DNA進(jìn)行擴(kuò)增。

“……雖然讀長(zhǎng)通常被認(rèn)為是主導(dǎo)因素之一……，但我們的結(jié)果表明，HiFi 技術(shù)更高的測(cè)序準(zhǔn)確性超過(guò)了讀長(zhǎng)所帶來(lái)的好處?！?/b>

2.ccs數(shù)據(jù)格式

CCS（Consensus Coding Sequence）數(shù)據(jù)是PacBio SMRT（Single Molecule, Real-Time）測(cè)序技術(shù)中的一種高質(zhì)量序列數(shù)據(jù)格式。CCS數(shù)據(jù)是通過(guò)將多個(gè)獨(dú)立的subreads（子讀取序列）對(duì)齊并合并成一個(gè)更準(zhǔn)確的共識(shí)序列來(lái)生成的。這種數(shù)據(jù)格式具有以下特點(diǎn)：

高質(zhì)量：CCS序列是經(jīng)過(guò)質(zhì)量控制和錯(cuò)誤校正的，因此比原始的subreads具有更高的準(zhǔn)確性。

長(zhǎng)讀取：PacBio測(cè)序技術(shù)可以產(chǎn)生平均長(zhǎng)度在10,000到20,000堿基對(duì)的長(zhǎng)讀取序列。

數(shù)據(jù)結(jié)構(gòu)：CCS數(shù)據(jù)通常包含以下信息：

序列標(biāo)識(shí)符（Sequence Identifier）：唯一標(biāo)識(shí)序列的ID。

序列（Sequence）：核苷酸序列。

質(zhì)量值（Quality Values）：每個(gè)堿基的測(cè)序質(zhì)量評(píng)分，通常以Phred+33或Phred+64編碼。

文件格式：CCS數(shù)據(jù)可以存儲(chǔ)在多種文件格式中，包括：

HDF5：一種用于存儲(chǔ)和組織大量數(shù)據(jù)的文件格式，PacBio的SMRT Analysis軟件使用這種格式。

BAM：二進(jìn)制比對(duì)/映射格式，是一種用于存儲(chǔ)測(cè)序讀取與參考基因組比對(duì)結(jié)果的壓縮格式。

FASTA：一種簡(jiǎn)單的文本格式，用于存儲(chǔ)核苷酸序列或蛋白質(zhì)序列。

附加信息：CCS數(shù)據(jù)文件可能還會(huì)包含一些附加信息，如測(cè)序過(guò)程中的原始信號(hào)強(qiáng)度、分子條形碼、測(cè)序孔信息等。

分析工具：PacBio提供了一系列的軟件工具來(lái)處理CCS數(shù)據(jù)，包括用于生成CCS的CCSGenerator，以及用于進(jìn)一步分析的SMRT Link。

應(yīng)用領(lǐng)域：CCS數(shù)據(jù)由于其高準(zhǔn)確度和長(zhǎng)讀取長(zhǎng)度，常用于基因組組裝、基因表達(dá)分析、甲基化分析和RNA結(jié)構(gòu)研究等領(lǐng)域。

查看壓縮的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10

@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG?

+?

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?

3.canu組裝

canu是專(zhuān)門(mén)設(shè)計(jì)給組裝PacBio或Oxford Nanopore長(zhǎng)序列的一款工具。輸入的序列可以是FASTA或FASTQ格式，未壓縮或使用gzip（.gz），bzip2（.bz2）或xz（.xz）壓縮的格式，暫時(shí)不支持zip文件（.zip）。

Canu支持?jǐn)帱c(diǎn)運(yùn)行，允許從系統(tǒng)中斷或其他它常終止中斷點(diǎn)運(yùn)行。每次重新啟動(dòng)Canu時(shí)，它都會(huì)檢查程序集目錄中的文件，以決定下一步該做什么。例如，如果除了兩個(gè)組裝任務(wù)之外的所有任務(wù)都已完成，那么當(dāng)其重新啟動(dòng)之后，Canu僅會(huì)進(jìn)行運(yùn)行所缺失的兩個(gè)任務(wù)。為獲得最佳結(jié)果，請(qǐng)勿在重新啟動(dòng)，中途時(shí)候更改Canu的參數(shù)。

Canu具有智能的檢測(cè)功能。Canu能根據(jù)當(dāng)前服務(wù)器所有可用的資源，自動(dòng)檢測(cè)計(jì)算資源并擴(kuò)展調(diào)整自身參數(shù)的配置。當(dāng)然你也可手動(dòng)去調(diào)整，可以使用參數(shù)maxMemory和maxThreads明確限制內(nèi)存和處理器的數(shù)目。

對(duì)數(shù)據(jù)的要求，對(duì)于真核基因組，理論上超過(guò)20倍的數(shù)據(jù)覆蓋率，足以勝過(guò)當(dāng)前的混合組裝的方法。但Canu建議是，最小的數(shù)據(jù)深度范圍為30倍至60倍。因?yàn)楦畹母采w度，將讓Canu使用更長(zhǎng)的讀取進(jìn)行裝配，這將導(dǎo)致更好的組裝結(jié)果。

Canu分三個(gè)階段進(jìn)行組裝運(yùn)作：

修正 (Corret)：修正階段將會(huì)提高reads中堿基的準(zhǔn)確性。

修剪 (Trim)：修剪階段將reads修剪到，看起來(lái)像高質(zhì)量序列，并刪除可疑的區(qū)域，例如剩余的SMRTbell的adpaters。

組裝 (Assemble)：組裝階段將reads排序?yàn)閏ontigs，生成對(duì)應(yīng)的共有序列(consensus suquences) 并創(chuàng)建可能的共有序列互相相連的路徑。

HIFI組裝命令（canu 2.2）

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

??生成的組裝文件在asm.contigs.fasta，另外其他可能有用的文件asm.unassembled.fasta （沒(méi)有被組裝好的reads），asm.report? （包含了每一步的運(yùn)行信息）。

CLS組裝命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

? ? ? ?使用PacBio-HiFi數(shù)據(jù)的HiCanu一致序列通常遠(yuǎn)高于99.99%，官方文檔說(shuō)到不鼓勵(lì)對(duì)這些組件進(jìn)行任何后期處理/拋光，因?yàn)橹貜?fù)中的mis-mapping可能會(huì)導(dǎo)致錯(cuò)誤。

? ? ? ?對(duì)于PacBio數(shù)據(jù)集，Canu一致序列通常遠(yuǎn)高于99%的一致性。納米孔的準(zhǔn)確度因孔和基孔的不同而不同，但對(duì)于最新的數(shù)據(jù)，準(zhǔn)確度通常在99%以上。精確性可以通過(guò)使用專(zhuān)門(mén)為該任務(wù)開(kāi)發(fā)的工具來(lái)提高。

? ? ? ?Canu推薦Arrow用于PacBio，Nanopolish或Medaka用于Oxford Nanpore數(shù)據(jù)。當(dāng)Illumina reads可用時(shí)，F(xiàn)reeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

4.falcon組裝

? ? ? ?FALCON是PacBio公司開(kāi)發(fā)的一款用于三代基因組De novo組裝軟件。相比于HGAP4軟件，F(xiàn)ALCON軟件的基因組組裝原理基本一致。但FALCON使用命令行運(yùn)行，更適合于大基因組的組裝，且能分析雙倍體序列，并在基因組組裝結(jié)果中給出包含變異位點(diǎn)信息的等位基因序列（alternative contigs / a-contigs）和主要的基因組序列（primary contig / p-contig）。每一條a-contig都有其對(duì)應(yīng)的p-contig序列。因此，F(xiàn)ALCON軟件適合雙倍體物種的基因組組裝，能給出單倍的基因序列。其基因組組裝結(jié)果中的p-contigs序列總長(zhǎng)度要小于其它基因組組裝軟件（例如Canu和HGAP）的基因組序列。

? ? ? ?FALCON-Unzip則是真正的單倍型組裝軟件，它能在FALCON或HGAP4軟件的基因組組裝結(jié)果基礎(chǔ)上，利用較長(zhǎng)的PacBio reads進(jìn)行單倍型分析，對(duì)p-contigs序列向單倍型進(jìn)行轉(zhuǎn)換，同時(shí)輸出單倍型序列（haplotig）區(qū)塊。

原理

? ? ? ? 第一輪是選擇種子序列或者是數(shù)據(jù)集中最長(zhǎng)的序列(通過(guò)length_cufoff設(shè)置)，比較短的序列比對(duì)到長(zhǎng)序列上用于產(chǎn)生高可信度的一致性序列。PacBio稱(chēng)其為預(yù)組裝(pre-asembled), 其實(shí)和糾錯(cuò)等價(jià)。這一步可能會(huì)將種子序列在低覆蓋度的區(qū)域進(jìn)行分割(split)或者修整(trim)，由falcon_sense_options參數(shù)控制，最后得到preads(pre-assembled reads)。

? ? ? ?第二輪是將preads相互比對(duì)，從而組裝成contigs(contig指的是連續(xù)的不間斷的基因組序列, contiguous sequence)

用conda-forge通道終于安裝上了

Falcon 是一個(gè) Python Web 框架，它不是一個(gè)獨(dú)立的命令行工具，而是一個(gè) Python 包。因此，你不能直接通過(guò) falcon 命令來(lái)運(yùn)行它。相反，你需要通過(guò) Python 來(lái)運(yùn)行 Falcon 應(yīng)用程序。

5.hifiasm組裝

1. Hifiasm組裝基因組的模式

HiFi-only assembly 模式（只有HiFi數(shù)據(jù)）

Trio-binning模式（HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù)）

Hi-C Integrated assembly 模式（HiFi數(shù)據(jù)+Hi-C數(shù)據(jù)）

端對(duì)端組裝：HiFi+ONT模式（HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù)）

2. HiFi-only assembly 模式（只有HiFi數(shù)據(jù)）

2.1. 經(jīng)典模式

命令

nohup hifiasm -o sample_prefix -t 32 Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

HiFi reads可以是fq或fa格式（fq的質(zhì)量值會(huì)被忽略），可以是gz壓縮格式。

-o指定輸出文件前綴；-t指定線程。

用命令 2>&1 >hifiasm.log保存日志和報(bào)錯(cuò)內(nèi)容到hifiasm.log文件。

2.2. 兩種組裝方式

單倍體分型組裝（two partially phased assembly）

默認(rèn)是以此方式組裝。

單倍體分型組裝生成一對(duì)文件（asm.bp.hap1.p_ctg.gfa和asm.bp.hap2.p_ctg.gfa），代表二倍體的兩個(gè)單倍型。同時(shí)也會(huì)生成primary contigs文件asm.bp.p_ctg.gfa。

primary/alternate組裝

加一個(gè)參數(shù) --primary則指定primary/alternate組裝方式。

命令： nohup hifiasm -o sample_prefix -t 32 --primary Hifi.fq.gz 2>&1 > hifiasm.log &

分別生成primary contigs和alternate contigs文件asm.p_ctg.gfa和asm._ctg.gfa。

3. Trio-binning模式（HiFi數(shù)據(jù)+父母本二代Illumina測(cè)序數(shù)據(jù)）

當(dāng)父母本的二代Illumina reads可用時(shí)，也可以通過(guò)trio binning生成一對(duì)解析的單倍型的組裝。

Hifiasm中用到的trio binning 技術(shù)是指利用父本、母本和子代的遺傳信息對(duì)子代的單倍型劃分的方法。該方法的有效性隨著雜合度的增加而提高，極大地提升了等位基因組的組裝質(zhì)量。

命令

# trio-binning模式需要額外安裝yak，兩種安裝方式任選一種

# source code

git clone https://github.com/lh3/yak

cd yak && make

# bioncda

conda install -c bioconda yak

# 運(yùn)行組裝

yak count -b37 -t16 -o pat.yak <(cat paternal_1.fq.gz paternal_2.fq.gz) <(cat paternal_1.fq.gz paternal_2.fq.gz)

yak count -b37 -t16 -o mat.yak <(cat maternal_1.fq.gz maternal_2.fq.gz) <(cat maternal_1.fq.gz maternal_2.fq.gz)

hifiasm -o sample_prefix -t 32 -1 pat.yak -2 mat.yak Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)解釋

命令中Illumina雙端測(cè)序的父本paternal數(shù)據(jù)和母本maternal數(shù)據(jù)同時(shí)使用

4. Hi-C Integrated assembly 模式（HiFi數(shù)據(jù)+Hi-C數(shù)據(jù)）

當(dāng)Hi-C數(shù)據(jù)可用時(shí)，可以生成一對(duì)解析的單倍型的組裝。

李恒團(tuán)隊(duì)2022年在Nature biotechnology上發(fā)表論文Haplotype-resolved assembly of diploid genomes without parental data（https://www.nature.com/articles/s41587-022-01261-x），在Hifiasm中引入了Hi-C Integrated assembly 模式。

Hi-C Integrated assembly模式針對(duì)PacBio HiFi (High-Fidelity) 長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)和Hi-C (High-Throughput Chromatin Confirmation Capture) 測(cè)序技術(shù)進(jìn)行了全新的設(shè)計(jì)。

該算法結(jié)合了HiFi數(shù)據(jù)中精確的局部單倍型信息和Hi-C數(shù)據(jù)中的長(zhǎng)距離互作用信息以達(dá)到全局定相 (phasing)，從而獲得不依賴(lài)親本信息的染色體級(jí)別的單倍型組裝結(jié)果。為了進(jìn)一步提高組裝質(zhì)量，作者充分利用了組裝圖中的結(jié)構(gòu)信息，以及其前期研究中的Graph-binning等策略。

這個(gè)模式組裝后的基因組還未掛載在染色體上，仍然需要Juicer+3ddna+juicebox等軟件進(jìn)行染色體掛載。

這個(gè)模式的數(shù)據(jù)最易獲得，所以也很常用。

命令

nohup hifiasm -o sample_prefix -t 32 --h1 HiC_1.fq.gz --h2 ample_HiC_2.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

用--h1和--h2指定Hi-C數(shù)據(jù)。

5. 端對(duì)端組裝：HiFi+ONT模式（HiFi數(shù)據(jù)+ONT超長(zhǎng)reads數(shù)據(jù)）

當(dāng)ONT數(shù)據(jù)可用時(shí)，可以集成超長(zhǎng)ONT數(shù)據(jù)生成端粒到端粒的組裝

命令

nohup hifiasm -o sample_prefix -t 32 --ul ONT.fq.gz Hifi.fq.gz 2>&1 > hifiasm.log &

參數(shù)

用--ul指定ONT數(shù)據(jù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

幾個(gè)基因組組裝軟件

幾個(gè)基因組組裝軟件

1.PacBio HiFi?長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)