將葉綠體基因組上傳至NCBI

目的

將公司測(cè)序并篩選得到的葉綠體基因組上傳至NCBI

方法

使用getorganelle,blastn,cpgavvs2,mpi,mega等一系列軟件完成有關(guān)文件的準(zhǔn)備。

步驟

使用getorganelle將下放的兩條序列進(jìn)行拼接得到fasta文件\rightarrow將fasta文件用NCBI的blastn功能進(jìn)行比對(duì)得到近緣物種的gb文件\rightarrow將fasta文件與近緣物種gb文件在CPGAVS2網(wǎng)站上注釋得到gbf和fasta文件\rightarrow在MPI網(wǎng)站上將gbf文件轉(zhuǎn)化為T(mén)BL文件\rightarrow確認(rèn)CDS與fasta堿基數(shù)是否一致并改名\rightarrow上傳至NCBI

葉綠體基因組拼接

1.安裝getorganelle(依賴(lài)的庫(kù)較多如bowtie2,blast等)

cd /home/monkeyflower/biosoft
#我們實(shí)驗(yàn)室的生信軟件都安裝在這個(gè)文件夾中
conda create -n getorganelle python=3.6.8
#創(chuàng)建getoganelle的運(yùn)行環(huán)境,可通過(guò)python3 -V查看當(dāng)前的python版本,使用系統(tǒng)中存在的python版本
conda install -n getorganelle -c bioconda getorganelle
#安裝getorganelle

2.安裝blast

由于網(wǎng)速的原因,可先將blast的壓縮包(ncbi-blast-2.13.0+-x64-linux.tar.gz)下載到Windows上,再上傳到服務(wù)器的/home/monkeyflower/biosoft目錄
cd /home/monkeyflower/biosoft
#轉(zhuǎn)到將要安裝的目錄
tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz
#將提前放置在這個(gè)目錄下的blast 解壓
export "PATH=/home/monkeyflower/biosoft/ncbi-blast-2.13.0+/bin:$PATH"
#將blast添加到環(huán)境變量

3.安裝葉綠體基因組等數(shù)據(jù)庫(kù)

conda activate getorganelle
#激活getorganelle(若要使用getorganelle,必須先激活環(huán)境)
get_organelle_config.py --add embplant_pt
#植物葉綠體基因組:embplant_pt,植物線(xiàn)粒體基因組:embplant_mt,植物核核糖體DNA片段:embplant_nr

4.運(yùn)行g(shù)etorganelle

先將需要拼接的序列文件傳輸?shù)?home/monkeyflower/bioworkplace目錄
cd /home/monkeyflower/bioworkplace
#轉(zhuǎn)到工作目錄

5.拼接代碼

conda activate getorganelle
#激活getorganelle
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 35,85,115 
#-1和-2     正向和反向測(cè)序原始數(shù)據(jù)文件(如果是單向測(cè)序,-u且文件中不得有任何空格)
#-F         設(shè)定要組裝的基因組類(lèi)型
#-o         結(jié)果輸出保存的目錄(文件夾)名稱(chēng)
#-R         提取葉綠體基因 reads 的輪次(輪次越多,耗時(shí)越長(zhǎng))
#-t         并行使用 CPU 的數(shù)量(多核可提速),默認(rèn)值是1
#-k         調(diào)用SPAdes進(jìn)行 denovo組裝的k-mer,數(shù)值必須是奇數(shù),最大值是127
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68 
#也可用上行代碼縮短運(yùn)行時(shí)間

6.檢查序列
在GeseqMPI-MP CHLOROBOX - GeSeq (mpg.de)
檢查序列中各分區(qū)位置是否正確,正確順序應(yīng)該為L(zhǎng)SC(起始位點(diǎn)為1),IRb,SSC,IRa.Geseq參數(shù)設(shè)置如下。

圖1

NCBI上獲取近緣物種作為參照文件

利用基因拼接得到的fasta文件在NCBI上比對(duì)尋找近緣物種以作為注釋的參考文件。
進(jìn)入NCBI官網(wǎng)并點(diǎn)擊blast功能。如圖一紅圈所示;

圖2

選擇Nucleotide BLAST
圖3

點(diǎn)擊選擇文件上傳需要比對(duì)的fasta文件然后再另一個(gè)窗口顯示結(jié)果
圖4

圖5

在比對(duì)結(jié)果中選擇第一個(gè)作為參考物種。點(diǎn)擊登錄號(hào)(accession)進(jìn)入詳細(xì)界面,點(diǎn)擊sent to,具體設(shè)置如圖六,將參考物種保存為gb格式文件
圖6

圖7

通過(guò)CPGAVS2網(wǎng)站注釋得到gbf文件

CPGAVS2網(wǎng)站:CPGAVAS2
進(jìn)入網(wǎng)站后,具體設(shè)置如圖七,第一個(gè)圈中是我們需要注釋物種的fasta文件(來(lái)源于第一步葉綠體基因組拼裝的結(jié)果),第二個(gè)圈是設(shè)置文件格式,一般都要選3,第三個(gè)圈中是我們從NCBI上blast后得到的gb格式文件。然后點(diǎn)submit。

圖8

圖9

submit后會(huì)產(chǎn)生一個(gè)ID號(hào),如圖九圈一所示,復(fù)制并記下這個(gè)ID號(hào),過(guò)一段時(shí)間后(經(jīng)驗(yàn)為2min左右),在圈二的submit粘貼ID號(hào),查詢(xún)結(jié)果。
圖10

結(jié)果界面一直滑到最底部有Download選項(xiàng),點(diǎn)擊result,下載壓縮包。
圖11

通過(guò)GB2sequin網(wǎng)站轉(zhuǎn)化gbf文件得到tbl文件

GB2sequin網(wǎng)站:MPI-MP CHLOROBOX - GB2sequin (mpg.de)
打開(kāi)上一步的壓縮文件,在解壓的文件中找到結(jié)尾為.gbf,.fasta,.CDS.fasta,的文件(注意是那種數(shù)字后直接接文件格式的文件,如166091769884412.CDS.fasta)。
將gbf文件上傳至網(wǎng)站,具體參數(shù)設(shè)置如圖十一,設(shè)置好后點(diǎn)start conversation,得到結(jié)果后點(diǎn)擊圖十二圈出的按鈕,再點(diǎn)擊圖十三中的Download,即下載tbl文件

圖12

圖13

圖14

并確認(rèn)壓縮包中堿基數(shù)和原先f(wàn)asta文件中的堿基數(shù)是否一致,改掉fasta和tbl文件中的物種名。

在NCBI上上傳葉綠體基因組

見(jiàn)鏈接:https://zhuanlan.zhihu.com/p/422628637

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容