目的
將公司測(cè)序并篩選得到的葉綠體基因組上傳至NCBI
方法
使用getorganelle,blastn,cpgavvs2,mpi,mega等一系列軟件完成有關(guān)文件的準(zhǔn)備。
步驟
使用getorganelle將下放的兩條序列進(jìn)行拼接得到fasta文件將fasta文件用NCBI的blastn功能進(jìn)行比對(duì)得到近緣物種的gb文件
將fasta文件與近緣物種gb文件在CPGAVS2網(wǎng)站上注釋得到gbf和fasta文件
在MPI網(wǎng)站上將gbf文件轉(zhuǎn)化為T(mén)BL文件
確認(rèn)CDS與fasta堿基數(shù)是否一致并改名
上傳至NCBI
葉綠體基因組拼接
1.安裝getorganelle(依賴(lài)的庫(kù)較多如bowtie2,blast等)
cd /home/monkeyflower/biosoft
#我們實(shí)驗(yàn)室的生信軟件都安裝在這個(gè)文件夾中
conda create -n getorganelle python=3.6.8
#創(chuàng)建getoganelle的運(yùn)行環(huán)境,可通過(guò)python3 -V查看當(dāng)前的python版本,使用系統(tǒng)中存在的python版本
conda install -n getorganelle -c bioconda getorganelle
#安裝getorganelle
2.安裝blast
由于網(wǎng)速的原因,可先將blast的壓縮包(ncbi-blast-2.13.0+-x64-linux.tar.gz)下載到Windows上,再上傳到服務(wù)器的/home/monkeyflower/biosoft目錄
cd /home/monkeyflower/biosoft
#轉(zhuǎn)到將要安裝的目錄
tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz
#將提前放置在這個(gè)目錄下的blast 解壓
export "PATH=/home/monkeyflower/biosoft/ncbi-blast-2.13.0+/bin:$PATH"
#將blast添加到環(huán)境變量
3.安裝葉綠體基因組等數(shù)據(jù)庫(kù)
conda activate getorganelle
#激活getorganelle(若要使用getorganelle,必須先激活環(huán)境)
get_organelle_config.py --add embplant_pt
#植物葉綠體基因組:embplant_pt,植物線(xiàn)粒體基因組:embplant_mt,植物核核糖體DNA片段:embplant_nr
4.運(yùn)行g(shù)etorganelle
先將需要拼接的序列文件傳輸?shù)?home/monkeyflower/bioworkplace目錄
cd /home/monkeyflower/bioworkplace
#轉(zhuǎn)到工作目錄
5.拼接代碼
conda activate getorganelle
#激活getorganelle
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 35,85,115
#-1和-2 正向和反向測(cè)序原始數(shù)據(jù)文件(如果是單向測(cè)序,-u且文件中不得有任何空格)
#-F 設(shè)定要組裝的基因組類(lèi)型
#-o 結(jié)果輸出保存的目錄(文件夾)名稱(chēng)
#-R 提取葉綠體基因 reads 的輪次(輪次越多,耗時(shí)越長(zhǎng))
#-t 并行使用 CPU 的數(shù)量(多核可提速),默認(rèn)值是1
#-k 調(diào)用SPAdes進(jìn)行 denovo組裝的k-mer,數(shù)值必須是奇數(shù),最大值是127
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68
#也可用上行代碼縮短運(yùn)行時(shí)間
6.檢查序列
在GeseqMPI-MP CHLOROBOX - GeSeq (mpg.de)
檢查序列中各分區(qū)位置是否正確,正確順序應(yīng)該為L(zhǎng)SC(起始位點(diǎn)為1),IRb,SSC,IRa.Geseq參數(shù)設(shè)置如下。

NCBI上獲取近緣物種作為參照文件
利用基因拼接得到的fasta文件在NCBI上比對(duì)尋找近緣物種以作為注釋的參考文件。
進(jìn)入NCBI官網(wǎng)并點(diǎn)擊blast功能。如圖一紅圈所示;

選擇Nucleotide BLAST

點(diǎn)擊選擇文件上傳需要比對(duì)的fasta文件然后再另一個(gè)窗口顯示結(jié)果


在比對(duì)結(jié)果中選擇第一個(gè)作為參考物種。點(diǎn)擊登錄號(hào)(accession)進(jìn)入詳細(xì)界面,點(diǎn)擊sent to,具體設(shè)置如圖六,將參考物種保存為gb格式文件


通過(guò)CPGAVS2網(wǎng)站注釋得到gbf文件
CPGAVS2網(wǎng)站:CPGAVAS2
進(jìn)入網(wǎng)站后,具體設(shè)置如圖七,第一個(gè)圈中是我們需要注釋物種的fasta文件(來(lái)源于第一步葉綠體基因組拼裝的結(jié)果),第二個(gè)圈是設(shè)置文件格式,一般都要選3,第三個(gè)圈中是我們從NCBI上blast后得到的gb格式文件。然后點(diǎn)submit。


submit后會(huì)產(chǎn)生一個(gè)ID號(hào),如圖九圈一所示,復(fù)制并記下這個(gè)ID號(hào),過(guò)一段時(shí)間后(經(jīng)驗(yàn)為2min左右),在圈二的submit粘貼ID號(hào),查詢(xún)結(jié)果。

結(jié)果界面一直滑到最底部有Download選項(xiàng),點(diǎn)擊result,下載壓縮包。

通過(guò)GB2sequin網(wǎng)站轉(zhuǎn)化gbf文件得到tbl文件
GB2sequin網(wǎng)站:MPI-MP CHLOROBOX - GB2sequin (mpg.de)
打開(kāi)上一步的壓縮文件,在解壓的文件中找到結(jié)尾為.gbf,.fasta,.CDS.fasta,的文件(注意是那種數(shù)字后直接接文件格式的文件,如166091769884412.CDS.fasta)。
將gbf文件上傳至網(wǎng)站,具體參數(shù)設(shè)置如圖十一,設(shè)置好后點(diǎn)start conversation,得到結(jié)果后點(diǎn)擊圖十二圈出的按鈕,再點(diǎn)擊圖十三中的Download,即下載tbl文件



并確認(rèn)壓縮包中堿基數(shù)和原先f(wàn)asta文件中的堿基數(shù)是否一致,改掉fasta和tbl文件中的物種名。
在NCBI上上傳葉綠體基因組
見(jiàn)鏈接:https://zhuanlan.zhihu.com/p/422628637