背景介紹
在得到初步的組裝結(jié)果之后,如果手上有10x genomics的基因組測(cè)序數(shù)據(jù)的話,除了可以用supernova基于10x數(shù)據(jù)獨(dú)立組裝出一個(gè)新版本的基因組外(詳見(jiàn)我的往期推送10x基因組數(shù)據(jù)的組裝),還可以借助10x的數(shù)據(jù)把contig序列給連成更長(zhǎng)的片段,做一個(gè)初步的scaffolding。
scaff10x的開(kāi)發(fā)者來(lái)自于大名鼎鼎的桑格研究所的高性能算法團(tuán)隊(duì)(High Performance Algorithms Group),下面是它的github地址:
https://github.com/wtsi-hpag/Scaff10X
軟件原理
scaff10x的工作原理是:
- 把barcoded從10x的原始數(shù)據(jù)中提取出來(lái),放到序列的id行里以備后續(xù)使用;
- 把10x的序列比對(duì)到基因組上,這里可以選擇用
bwa或者SMALT; - 把barcode根據(jù)contig和比對(duì)坐標(biāo)(
mapping coordinates)給排個(gè)序; - 建立一個(gè)關(guān)系矩陣(
relation matrix)用以記錄潛在的可相互連接的contig之間的共享barcodes信息; - 在找到最接近的contigs后把他們根據(jù)順序和方向連接起來(lái)。
軟件安裝
git clone https://github.com/wtsi-hpag/Scaff10X.git
cd Scaff10X
./install.sh
打開(kāi)這個(gè)install.sh會(huì)發(fā)現(xiàn)它做的工作是去自動(dòng)下載bwa、smalt和pigz這幾個(gè)依賴軟件,可以直接用conda安裝。我這里為了方便還是讓他默認(rèn)安裝吧。
一個(gè)小bug是由于pigz從2.6版本更新到了2.7,因此需要手動(dòng)修改一下install.sh里的pigz的版本,從2.6修改到2.7,否則會(huì)報(bào)錯(cuò)的哦。
安裝好后記得把軟件加入到環(huán)境變量中,當(dāng)然也可以寫(xiě)絕對(duì)路徑調(diào)用。
軟件運(yùn)行
scaff10x \
-nodes 120 \ # 設(shè)置運(yùn)行的線程數(shù)
-size 2.0 \ # 基因組的大致大小,單位是Gb,可以寫(xiě)0.5, 1.0, 2.0 (Gb)
-longread 1 \ # 基因組是用什么組裝的?1代表三代數(shù)據(jù),0代表二代數(shù)據(jù)。
-gap 100 \ # 設(shè)置gap的大小,默認(rèn)是100
-matrix 5000 \ # 設(shè)置relation matrix的大小,默認(rèn)是2000
-reads 10 \ # 上面原理中第一步和第二步的最小共享barcode的reads數(shù)目,默認(rèn)是10
-link 8 \ # 上面原理中第一步和第二步的最小的被共享的barcode的數(shù)目,默認(rèn)是8
-score 20 \ # 最小的平均比對(duì)質(zhì)量,默認(rèn)是20
-edge 50000 \ # scaffolding時(shí)邊界的長(zhǎng)度,默認(rèn)是50000
-block 10000 \ # 決定最接近的相鄰者的長(zhǎng)度。默認(rèn)是50000
-plot hap2_length.png \ # 打印出barcode的長(zhǎng)度分布。
/path/to/test.hic.hap2.p_ctg.fasta \ # 用于scaffold的contig,即前期組裝結(jié)果
/path/to/test_L001_R1_001.fastq.gz \ # 10x數(shù)據(jù)reads 1
/path/to/test_L001_R2_001.fastq.gz \ # 10x數(shù)據(jù)reads 2
test.hap2.scaff10x_block10000.fasta # 最終結(jié)果。
其實(shí)看起來(lái)設(shè)置了很多的數(shù)據(jù),其實(shí)大多數(shù)都是默認(rèn)值。只是修改了block的數(shù)值。
最終效果還不錯(cuò),我的數(shù)據(jù)從2155條contig減少到了1037條,N50也從3.5 Mb提升到了37 Mb。直接翻了十倍。當(dāng)然,我這里用的是hifiasm的單倍體的數(shù)據(jù),本身N50較短。
萌哥碎碎念
- 就我的觀察而言,10x scaffolding對(duì)于較長(zhǎng)的contig的貢獻(xiàn)比較一般,但是一些較短的contig確實(shí)有明顯的提高,這也非常符合預(yù)期。因?yàn)?0x的數(shù)據(jù)是基于illumina平臺(tái)的二代短序列,本身較短,即使有共享的barcode輔助延伸,對(duì)于長(zhǎng)片段的作用也非常有限。
- 最近不知道選什么圖片作為頭圖比較好,于是突發(fā)奇想就用自己拍的照片做頭圖好了~這樣也減少了使用有版權(quán)照片的法律/商業(yè)風(fēng)險(xiǎn)。昨天的頭圖是我養(yǎng)的小兔子圖圖,今天的圖是前段時(shí)間熱氣球節(jié)上拍的照片,希望你喜歡。