從NCBI上快速下載目標物種基因組序列、獲取SRA數(shù)據(jù)信息

  1. 在genome 數(shù)據(jù)庫中輸入目標物種Genome List - Genome - NCBI (nih.gov) 輸入目標物種

fliters 過濾,選擇基因組裝水平,宿主等

download 下載genome 數(shù)據(jù)結(jié)果——可獲得基因組序列文件下載地址和對應的BioSample ID

  1. 提取 BioSample,另存在文本文件中
  1. 使用NCBI Batch Entrez在BioSample數(shù)據(jù)庫中下載相關(guān)信息得到SRA

Batch Entrez (nih.gov)

  1. 在左邊進行信息過濾,如過濾出能獲取SRA文件的信息

send to 下載result,便可獲得SRA信息

  1. 寫程序提取BioSample ,SRA ,Organism信息
import os
import pandas as pd
biosample=[]
organism=[]
sra=[]
filepath=r'E:\bacteria\Actinobacteria\biosample_result.txt'
with open ( filepath,'r') as file:
    lines = file.readlines()
for line in lines:
    if 'SRA:' in line:
        sra.append(line.strip('\n').split('SRA:')[1].strip())
        continue
    if 'Organism:' in line:
        organism.append(line.strip('\n').split('\t')[1])
        continue
    if 'Accession:' in line:
        biosample.append(line.strip('\n').split('Accession:')[1].split('\t')[0].strip())
        continue
outpath = r'E:\bacteria\Actinobacteria\Actinobacteria.xlsx'
df=pd.DataFrame({'BioSample':biosample,'Phylum':'Actinobacteria','Organism':organism,'SRA':sra})
df.to_excel(outpath,index=False,header=False)
  1. 將organism信息去重復后另存為文本文件
  1. 使用NCBI Batch Entrez在Taxonomy數(shù)據(jù)庫中獲取lineage

原文鏈接:https://blog.csdn.net/m0_55059521/article/details/124570073

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容