論文是
Whole-genome resequencing of 445 Lactuca accessions reveals the domestication history of cultivated lettuce

這篇論文的數(shù)據(jù)是公開的,代碼也公開了一部分,那我們就可以按照他的代碼來學(xué)二代測(cè)序的數(shù)據(jù)分析啦
今天我們來試著使用NOVOplasty這個(gè)軟件來組裝生菜的葉綠體基因組
論文的方法部分寫道
To reveal the plastid phylogeny of the tested Lactuca species, plastid assembly was generated for each species with 50?million reads by NOVOPlasty (version 3.7.2)62, using the rbcL coding sequence (NCBI accession number YP_398337) as the seed sequence.
NOVOPlasty 軟件的配置文件是 lettuce2020/NOVOplasty.config.txt at master · popgenome/lettuce2020 (github.com)

這個(gè)配置文件我們自己的數(shù)據(jù)通常需要設(shè)置的地方包括
k-mer (這個(gè)參數(shù)通常直接用默認(rèn)的設(shè)置就好)
種子序列(葉綠體基因組中的某個(gè)基因)
參考序列 (這個(gè)是可選的)
最后就是原始測(cè)序數(shù)據(jù)
首先從NCBI來下載原始測(cè)序數(shù)據(jù)
因?yàn)轫?xiàng)目名稱他寫的是s331,那我就下載NCBI上也是331編號(hào)的那個(gè)樣本吧

使用SRAtools里的prefetch命令來下載
prefetch --max-size 6000000000 SRR13694341 -O ./
因?yàn)檫@個(gè)數(shù)據(jù)超過20個(gè)G了,所以需要制定 --max-size參數(shù) ,后面數(shù)字的單位可能是 bp

數(shù)據(jù)量很大,時(shí)間會(huì)有些長
下載好以后使用fasterq-dump命令將sra格式數(shù)據(jù)轉(zhuǎn)換成fastq格式
fasterq-dump --split-files SRR13694341.sra -p
-p 參數(shù)可以顯示出轉(zhuǎn)換的進(jìn)度

論文中寫道只需要用 50 million個(gè)reads,fastq文件中4行是一個(gè)reads,那么我們直接用head命令取前200 million行就可以了
head -n 200000000 SRR13694341.sra_1.fastq > reads_R1.fastq
head -n 200000000 SRR13694341.sra_2.fastq > reads_R2.fastq
下載種子序列和葉綠體參考基因組
- NC_007578
- YP_398337
下載NONOPlasty
論文中寫的是用到的是3.7.2,但是現(xiàn)在已經(jīng)更新到4.3.1了,我們直接下載最新版本
https://github.com/ndierckx/NOVOPlasty
編輯配置文件

運(yùn)行NOVOPlasty軟件
perl ~/Biotools/NOVOPlasty-master/NOVOPlasty4.3.1.pl -c config.txt


這個(gè)地方遇到了報(bào)錯(cuò)

是因?yàn)橄螺d種子序列的時(shí)候我下載的是蛋白質(zhì)序列,應(yīng)該用的是核苷酸序列
重新下載運(yùn)行(一不小心就浪費(fèi)了好長時(shí)間)

這個(gè)數(shù)據(jù)量有點(diǎn)大,運(yùn)行起來還挺慢的,這里就不等結(jié)果了
歡迎大家關(guān)注我的公眾號(hào)
小明的數(shù)據(jù)分析筆記本
小明的數(shù)據(jù)分析筆記本 公眾號(hào) 主要分享:1、R語言和python做數(shù)據(jù)分析和數(shù)據(jù)可視化的簡單小例子;2、園藝植物相關(guān)轉(zhuǎn)錄組學(xué)、基因組學(xué)、群體遺傳學(xué)文獻(xiàn)閱讀筆記;3、生物信息學(xué)入門學(xué)習(xí)資料及自己的學(xué)習(xí)筆記!