利用Minia軟件對(duì)基因組測(cè)序二代數(shù)據(jù)的初步組裝

一.Minia簡介

基因組組裝一般分為三個(gè)水平,contig, scaffold和chromosomes。contig表示從大規(guī)模測(cè)序得到的短讀(reads)中找到的一致性序列,組裝的第一步就是從短片段(pair-end)文庫中組裝出contig。進(jìn)一步基于不同長度的大片段(mate-pair)文庫,將原本孤立的contig按序前后連接,其中會(huì)調(diào)整contig方向以及contig可能會(huì)存在開口(gap,用N表示),這一步會(huì)得到scaffolds, 就相當(dāng)于super-contigs和meta-contigs。最后基于遺傳圖譜或光學(xué)圖譜或者Hi-C技術(shù),將scaffold合并調(diào)整,形成染色體級(jí)別的組裝(chromosome).

目前二代測(cè)序組裝基因組的工具的核心基礎(chǔ),是基于De Bruijn graphs法,包擴(kuò)velvet, Soapdenovo, ABYSS及Minia等。Minia是內(nèi)存資源最省的工具,其精確度和連續(xù)性與其他基因de Bruijn圖的組裝工具(如Velvet)相似,輸出是一組contigs。在臺(tái)式電腦上組裝人類基因組contig居然只要5.7G的RAM,運(yùn)行23小時(shí),簡直難以相信。

Minia軟件是基于de Bruijn圖原理的短序列組裝工具,優(yōu)于以前的ABySS和SOAPdenovo,關(guān)鍵是速度非常快,十幾分鐘就OK了,不消耗計(jì)算機(jī)資源,所以這里就選擇它啦。

二.Mina下載安裝及運(yùn)行

下載及安裝

下載地址:https://github.com/GATB/minia

下載后tar-zxvf *.tar.gz解壓后,通過cmake進(jìn)行編譯后就能使用。

腳本:

參數(shù)解釋:

用到了兩個(gè)部分的參數(shù)設(shè)置:

-in? data.list 記錄了數(shù)據(jù)存放的位置及數(shù)據(jù)名稱

--nb-cores: number of cores? [default '0']

結(jié)果:

圈紅的文件為我們要的初步組裝的基因組序列文件, 共有44905595條序列。

Unitigs:

Minia will also output unitigs, in the FASTA format. They correspond to non-branching paths in the de Bruijn graph prior to any graph simplication. File:[prefix].unitigs.fa.

也就是在構(gòu)建de Bruijn圖時(shí),圖的非分支路徑表示的字符串,也稱為unitigs。


三.使用prinseq組裝序列評(píng)估

下載地址https://sourceforge.net/projects/prinseq/
tar?-zxvf?prinseq-lite-0.20.4.tar.gz
mv?prinseq-lite-0.20.4?prinseq
perl?prinseq-lite.pl?-verbose??-fasta?/public/home/lvqiang/hae_long/denovo/survey/contig_minia/minia_k35.contigs.fa?-stats_all

四.結(jié)果:

五.報(bào)錯(cuò)信息:

一開始我在-in 時(shí) 直接指定了測(cè)序的R1/R2端fq.gz文件,結(jié)果總是報(bào)錯(cuò),錯(cuò)誤信息如下:

Minia 3, git commit b55a246

ERROR: Unknown parameter '

后來發(fā)現(xiàn),對(duì)minia而言,雙端序列文件屬于多個(gè)文件了,需要寫一個(gè)txt文件記錄多個(gè)文件的信息,路徑和文件名。

我們看一下minia的manaul手冊(cè)上的描述:

https://github.com/GATB/minia/raw/master/doc/manual.pdf

FASTA/FASTQ

Minia assembles any type of Illumina reads, given in the FASTA or FASTQ format. Giving paired or mate-pairs reads as input is OK, but keep in mind that Minia won't use pairing information.

Multipe Files

Minia can assemble multiple input _les. Just create a text _le containing the list of read _les, one _le name per line, and pass this list as the _rst parameter of Minia (instead of a FASTA/FASTQ _le). Therefore the parameter input_file can be either (i) the read _le itself (FASTA/FASTQ/compressed),or (ii) a _le containing a list of _le names.

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容