nr數(shù)據(jù)庫分庫

我們下載的nr數(shù)據(jù)庫非常大,2017年9月更新后所有nr的fasta文件已達(dá)72G,因而在進(jìn)行nr比對時(shí),如果不對nr庫以類別進(jìn)行區(qū)分,會非常耗我們的計(jì)算資源和時(shí)間,因而最好對下載的nr數(shù)據(jù)庫進(jìn)行分庫,可以更準(zhǔn)確快速的完成nr數(shù)據(jù)庫比對。

nr數(shù)據(jù)庫分庫操作步驟:

首先明確我們需要分庫的類別:細(xì)菌,真菌,真核生物,脊椎動(dòng)物,植物

目前以脊椎動(dòng)物為例,介紹如何進(jìn)行nr數(shù)據(jù)庫分庫。

首先我們要得到脊椎動(dòng)物的分類學(xué)ID,即NCBI數(shù)據(jù)庫Taxonomy數(shù)據(jù)庫的ID,如果我們不知道,可以通過已知脊椎動(dòng)物的拉丁名在Taxonomy數(shù)據(jù)庫中查找可得到以下界面


nr1.png

點(diǎn)擊protein選項(xiàng)可得到如下界面

nr2.png

在linage中可看到紅圈中的脊椎動(dòng)物的分類,單擊Vertebrata連接,可進(jìn)入到脊椎動(dòng)物的介紹頁面,再單擊Vertebrata可得到脊椎動(dòng)物的分類學(xué)ID 7742

再次進(jìn)入到Taxonomy頁面,在搜索框中粘貼如7742這個(gè)ID??傻玫揭韵碌捻撁?/p>

nr3.png

單擊右上角send to ,如圖

nr4.png

點(diǎn)擊creat file 將gi_list 存入到本地,基因ID較多需要花費(fèi)較長時(shí)間。

得到GI list后,使用blast+的工具進(jìn)行分庫

blastdb_aliastool -gilist Vertebrata.gi -db /lustre/guest/bjjszx/nr/nr_database/nr -out Vertebrata_nr -title Vertebrata_nr

運(yùn)行上述命令,即可得到兩個(gè)文件

Vertebrata_nr.pal

Vertebrata_nr.p.gil

即可完成對于nr數(shù)據(jù)庫的分庫操作。

進(jìn)行blast比對時(shí),數(shù)據(jù)庫填寫成/path/to/Vertebrata_nr即可完成對于脊椎動(dòng)物庫的比對。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容