跟著Nature Genetics學(xué)二代測(cè)序數(shù)據(jù)分析:使用NOVOPlasty組裝生菜的葉綠體基因組

論文是
Whole-genome resequencing of 445 Lactuca accessions reveals the domestication history of cultivated lettuce

image.png

這篇論文的數(shù)據(jù)是公開的,代碼也公開了一部分,那我們就可以按照他的代碼來學(xué)二代測(cè)序的數(shù)據(jù)分析啦

今天我們來試著使用NOVOplasty這個(gè)軟件來組裝生菜的葉綠體基因組

論文的方法部分寫道

To reveal the plastid phylogeny of the tested Lactuca species, plastid assembly was generated for each species with 50?million reads by NOVOPlasty (version 3.7.2)62, using the rbcL coding sequence (NCBI accession number YP_398337) as the seed sequence.

NOVOPlasty 軟件的配置文件是 lettuce2020/NOVOplasty.config.txt at master · popgenome/lettuce2020 (github.com)

image.png

這個(gè)配置文件我們自己的數(shù)據(jù)通常需要設(shè)置的地方包括

  • k-mer (這個(gè)參數(shù)通常直接用默認(rèn)的設(shè)置就好)

  • 種子序列(葉綠體基因組中的某個(gè)基因)

  • 參考序列 (這個(gè)是可選的)

  • 最后就是原始測(cè)序數(shù)據(jù)

首先從NCBI來下載原始測(cè)序數(shù)據(jù)

因?yàn)轫?xiàng)目名稱他寫的是s331,那我就下載NCBI上也是331編號(hào)的那個(gè)樣本吧

image.png

使用SRAtools里的prefetch命令來下載

prefetch --max-size 6000000000 SRR13694341 -O ./

因?yàn)檫@個(gè)數(shù)據(jù)超過20個(gè)G了,所以需要制定 --max-size參數(shù) ,后面數(shù)字的單位可能是 bp

image.png

數(shù)據(jù)量很大,時(shí)間會(huì)有些長

下載好以后使用fasterq-dump命令將sra格式數(shù)據(jù)轉(zhuǎn)換成fastq格式

fasterq-dump --split-files SRR13694341.sra -p

-p 參數(shù)可以顯示出轉(zhuǎn)換的進(jìn)度

image.png

論文中寫道只需要用 50 million個(gè)reads,fastq文件中4行是一個(gè)reads,那么我們直接用head命令取前200 million行就可以了

 head -n 200000000 SRR13694341.sra_1.fastq > reads_R1.fastq
head -n 200000000 SRR13694341.sra_2.fastq > reads_R2.fastq
下載種子序列和葉綠體參考基因組
  • NC_007578
  • YP_398337
下載NONOPlasty

論文中寫的是用到的是3.7.2,但是現(xiàn)在已經(jīng)更新到4.3.1了,我們直接下載最新版本

https://github.com/ndierckx/NOVOPlasty

編輯配置文件
image.png
運(yùn)行NOVOPlasty軟件
perl ~/Biotools/NOVOPlasty-master/NOVOPlasty4.3.1.pl -c config.txt
image.png
image.png

這個(gè)地方遇到了報(bào)錯(cuò)

image.png

是因?yàn)橄螺d種子序列的時(shí)候我下載的是蛋白質(zhì)序列,應(yīng)該用的是核苷酸序列

重新下載運(yùn)行(一不小心就浪費(fèi)了好長時(shí)間)


這個(gè)數(shù)據(jù)量有點(diǎn)大,運(yùn)行起來還挺慢的,這里就不等結(jié)果了

歡迎大家關(guān)注我的公眾號(hào)

小明的數(shù)據(jù)分析筆記本

小明的數(shù)據(jù)分析筆記本 公眾號(hào) 主要分享:1、R語言和python做數(shù)據(jù)分析和數(shù)據(jù)可視化的簡單小例子;2、園藝植物相關(guān)轉(zhuǎn)錄組學(xué)、基因組學(xué)、群體遺傳學(xué)文獻(xiàn)閱讀筆記;3、生物信息學(xué)入門學(xué)習(xí)資料及自己的學(xué)習(xí)筆記!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容