我們下載的nr數(shù)據(jù)庫非常大,2017年9月更新后所有nr的fasta文件已達(dá)72G,因而在進(jìn)行nr比對時(shí),如果不對nr庫以類別進(jìn)行區(qū)分,會非常耗我們的計(jì)算資源和時(shí)間,因而最好對下載的nr數(shù)據(jù)庫進(jìn)行分庫,可以更準(zhǔn)確快速的完成nr數(shù)據(jù)庫比對。
nr數(shù)據(jù)庫分庫操作步驟:
首先明確我們需要分庫的類別:細(xì)菌,真菌,真核生物,脊椎動(dòng)物,植物
目前以脊椎動(dòng)物為例,介紹如何進(jìn)行nr數(shù)據(jù)庫分庫。
首先我們要得到脊椎動(dòng)物的分類學(xué)ID,即NCBI數(shù)據(jù)庫Taxonomy數(shù)據(jù)庫的ID,如果我們不知道,可以通過已知脊椎動(dòng)物的拉丁名在Taxonomy數(shù)據(jù)庫中查找可得到以下界面

點(diǎn)擊protein選項(xiàng)可得到如下界面

在linage中可看到紅圈中的脊椎動(dòng)物的分類,單擊Vertebrata連接,可進(jìn)入到脊椎動(dòng)物的介紹頁面,再單擊Vertebrata可得到脊椎動(dòng)物的分類學(xué)ID 7742
再次進(jìn)入到Taxonomy頁面,在搜索框中粘貼如7742這個(gè)ID??傻玫揭韵碌捻撁?/p>

單擊右上角send to ,如圖

點(diǎn)擊creat file 將gi_list 存入到本地,基因ID較多需要花費(fèi)較長時(shí)間。
得到GI list后,使用blast+的工具進(jìn)行分庫
blastdb_aliastool -gilist Vertebrata.gi -db /lustre/guest/bjjszx/nr/nr_database/nr -out Vertebrata_nr -title Vertebrata_nr
運(yùn)行上述命令,即可得到兩個(gè)文件
Vertebrata_nr.pal
Vertebrata_nr.p.gil
即可完成對于nr數(shù)據(jù)庫的分庫操作。
進(jìn)行blast比對時(shí),數(shù)據(jù)庫填寫成/path/to/Vertebrata_nr即可完成對于脊椎動(dòng)物庫的比對。