關(guān)鍵詞:零基礎(chǔ);葉綠體基因組;神器;國(guó)人佳作;一鍵成環(huán)。
軟件官網(wǎng):https://github.com/Kinggerm/GetOrganelle
這款軟件是建軍和郁文彬老師開發(fā)的。個(gè)人有幸在去年年底見過兩位,也了解到 GetOrganelle 軟件,但一直沒有實(shí)際應(yīng)用場(chǎng)景。
以前對(duì)某個(gè)物種的群體重測(cè)序數(shù)據(jù)做過一些類似的葉綠體基因組組裝工作,大體策略是使用近源物種葉綠體基因組為參考,進(jìn)行有參考組裝。絕大部分情況下,組裝效果還是很不錯(cuò)的。今次項(xiàng)目重要,也有成熟軟件可以選擇,故決定學(xué)習(xí)一下 GetOrganelle 軟件,爭(zhēng)取高質(zhì)量完成這一項(xiàng)目。
安裝軟件
使用 conda 安裝,先創(chuàng)建一個(gè)環(huán)境
conda create -n getorganelle
激活環(huán)境,并安裝軟件,注意到,之前我已經(jīng)配置好bioconda軟件源
conda activate getorganelle
conda install getorganelle
參考軟件官方說明,安裝完成后,需要下載參考序列庫(kù)
get_organelle_config.py --add embplant_pt,embplant_mt

發(fā)現(xiàn)依賴Bowtie2沒有解決
conda install bowtie2
重新下載參考序列庫(kù)
get_organelle_config.py --add embplant_pt,embplant_mt
似乎還是一樣的報(bào)錯(cuò)
ERROR: Bowtie2 is not available!
查看程序源碼
which get_organelle_config.py
vim ~/anaconda3/envs/getorganelle/bin/get_organelle_config.py
按照代碼,應(yīng)該是可以拿到的

往下走,似乎是獲取版本號(hào)的問題,難道的bowtie2版本不對(duì)?

查了下官網(wǎng)說明,似乎沒有要求bowtie2的版本(?conda安裝時(shí),不會(huì)自動(dòng)檢測(cè) bowtie2 依賴并解決?)
查看是如何檢測(cè)版本

好,找到了

具體看到腳本
vim /home/chengjie_chen/anaconda3/envs/getorganelle/lib/python3.6/site-packages/GetOrganelleLib/pipe_control_func.py
檢查了一圈,應(yīng)該不存在環(huán)境問題

bowtie2調(diào)用的庫(kù)文件需要調(diào)整,嘗試軟連接庫(kù),但似乎 12 不能應(yīng)付 2 。更新一下試試
# 發(fā)現(xiàn)安裝的似乎2.3.5,升級(jí)一下試試
conda update bowtie2

沒問題了
重新下載參考序列庫(kù)
get_organelle_config.py --add embplant_pt,embplant_mt
正常開始下載了,不過不知道要下載多久??紤]直接本地下載后上傳,
# 注意到,其實(shí)可以本地 github 加速,20Mb+ 一下就下載完了
wget https://github.com/Kinggerm/GetOrganelleDB/releases/download/0.0.1/v0.0.1.tar.gz
tar -zxvf v0.0.1.tar.gz
get_organelle_config.py -a embplant_pt,embplant_mt --use-local ./0.0.1
運(yùn)行Demo
參考官網(wǎng)說明,下載測(cè)試數(shù)據(jù),正反向各8Mb
wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.1.fq.gz
wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.2.fq.gz
按照官網(wǎng)說明,60秒可以組裝好擬南芥這套數(shù)據(jù)
get_organelle_from_reads.py -1 Arabidopsis_simulated.1.fq.gz -2 Arabidopsis_simulated.2.fq.gz -t 1 -o Arabidopsis_simulated.plastome -F embplant_pt -R 10

主要輸出結(jié)果,
結(jié)果文件看起來有點(diǎn)復(fù)雜,沒時(shí)間折騰,截圖Manual。

查看 log 文件,看到有兩個(gè)完整組裝,即成環(huán)

上述圖片中,我們也可以看到有兩個(gè).fasta文件,對(duì)應(yīng)的,可以看看


看了下manual,了解了下質(zhì)體組裝的內(nèi)容,可以認(rèn)為兩者都是正確組裝。使用時(shí)選擇一個(gè)常用的即可。只是常用的是哪一個(gè)?這是一個(gè)問題。對(duì)于研究較多的物種,應(yīng)是可以參考;研究較少的,或許考慮做個(gè)多序列比對(duì),mauve,mummer等,投票決定。

一個(gè)材料(注意就是一個(gè)植物或者一個(gè)葉片)中會(huì)同時(shí)存在兩種組裝,見文獻(xiàn)
Palmer, J. Chloroplast DNA exists in two orientations. Nature 301, 92–93 (1983). https://doi.org/10.1038/301092a0
運(yùn)行實(shí)際測(cè)試數(shù)據(jù)
開 20 個(gè)線程試試
get_organelle_from_reads.py -1 108.r1.fq.gz -2 108.r2.fq.gz -o plastome_output -R 15 -k 21,45,65,85,105 -t 20 -F embplant_pt
一共耗時(shí) 1415.10 s。速度不錯(cuò),測(cè)序數(shù)據(jù)大體是 6G??戳讼萝浖f明,似乎是會(huì)sample一下。
組裝出來大量結(jié)果,

另外即 repeat_pattern 的問題,基于官網(wǎng)的文檔,選在 IR 最長(zhǎng)的后續(xù)使用
plastome_arch_info.py *.fasta -o plastome_arch.list
largest_size=`cat plastome_arch.list | sed -e 1d |awk 'NR==1{max=$6;next}{max=max>$6?max:$6}END{print max}'`
cat plastome_arch.list|awk '($6==size){print $1}' size=$largest_size
結(jié)果如下(默認(rèn) pattern1 就是 IR 最長(zhǎng)?)
embplant_pt.K105.complete.graph1.1.repeat_pattern1.path_sequence.fasta
embplant_pt.K105.complete.graph1.2.repeat_pattern1.path_sequence.fasta
OK,應(yīng)該沒問題了。組裝起來也很快,我已經(jīng)跑上100+份材料的葉綠體組裝了。后續(xù)看看結(jié)果再說。
寫在最后
整體順暢,我估計(jì)最多累計(jì)花了不到兩個(gè)小時(shí),就全部事情搞完,中間出門辦了點(diǎn)事情。從GetOrganelle的了解,下載,安裝,解決使用問題,輸出結(jié)果,再到輸出結(jié)果的了解,補(bǔ)充了一些葉綠體基因組的背景知識(shí)(其實(shí)就是看了兩個(gè)letter文稿)。
怎么說呢,建軍和郁老師開發(fā)的這款軟件,應(yīng)該算是神器了?;叵胄r(shí)候做葉綠體基因組,還是麻煩。而 GetOrganelle 幾乎是一鍵成環(huán),完美~
準(zhǔn)備推文中間,忽然想到,看來,只是跑跑流程,確實(shí)已經(jīng)沒啥好出路,畢竟分分鐘就跑起來....。比如我兩個(gè)小時(shí)搞完,或許一些朋友要兩周.....