- 在genome 數(shù)據(jù)庫中輸入目標物種Genome List - Genome - NCBI (nih.gov) 輸入目標物種

fliters 過濾,選擇基因組裝水平,宿主等

download 下載genome 數(shù)據(jù)結(jié)果——可獲得基因組序列文件下載地址和對應的BioSample ID

- 提取 BioSample,另存在文本文件中

- 使用NCBI Batch Entrez在BioSample數(shù)據(jù)庫中下載相關(guān)信息得到SRA
Batch Entrez (nih.gov)

- 在左邊進行信息過濾,如過濾出能獲取SRA文件的信息

send to 下載result,便可獲得SRA信息

- 寫程序提取BioSample ,SRA ,Organism信息
import os
import pandas as pd
biosample=[]
organism=[]
sra=[]
filepath=r'E:\bacteria\Actinobacteria\biosample_result.txt'
with open ( filepath,'r') as file:
lines = file.readlines()
for line in lines:
if 'SRA:' in line:
sra.append(line.strip('\n').split('SRA:')[1].strip())
continue
if 'Organism:' in line:
organism.append(line.strip('\n').split('\t')[1])
continue
if 'Accession:' in line:
biosample.append(line.strip('\n').split('Accession:')[1].split('\t')[0].strip())
continue
outpath = r'E:\bacteria\Actinobacteria\Actinobacteria.xlsx'
df=pd.DataFrame({'BioSample':biosample,'Phylum':'Actinobacteria','Organism':organism,'SRA':sra})
df.to_excel(outpath,index=False,header=False)
- 將organism信息去重復后另存為文本文件

- 使用NCBI Batch Entrez在Taxonomy數(shù)據(jù)庫中獲取lineage

原文鏈接:https://blog.csdn.net/m0_55059521/article/details/124570073