腳本 | Python | 操作OrthoFinder結(jié)果Orthogroups.tsv

file="Orthogroups/Orthogroups.tsv"
ogs={}

with open(file) as f:
    l = 0
    for line in f:
        l+=1
        line=[line.strip() for line in line.split('\t')]
        if l == 1:
            species = line[1:]
            continue
        z = [z.split(', ') for z in line[1:]]
        ogs[line[0]] = dict(zip(species,z))
>>> len(ogs)
20667
>>> a = ogs["OG0020664"]
>>> a
{'Averrhoa_carambola': [''], 'Carica_papaya': [''], 'Coffea_canephora': [''], 'Prunus_avium': [''], 'Prunus_persica': [''], 'Ricinus_communis': [''], 'Theobroma_cacao': [''], 'Vitis_vinifera': ['GSVIVG01006304001', 'GSVIVG01006461001']}
>>> a['Vitis_vinifera']
['GSVIVG01006304001', 'GSVIVG01006461001']

持續(xù)更新......

針對(duì)OrthoFinder的結(jié)果Results_*/Orthogroups/Orthogroups.tsv進(jìn)行處理。
Python學(xué)的太差了,給自己定幾個(gè)題目,進(jìn)行學(xué)習(xí):

  1. 任意提取某個(gè)OG下某個(gè)物種的所有基因
  2. 統(tǒng)計(jì)各個(gè)物種特有OG下的基因
  3. 統(tǒng)計(jì)單拷貝OG
  4. 統(tǒng)計(jì)各個(gè)OG單拷貝率
    ...

隨著代碼的掌握,進(jìn)行優(yōu)化。

singleogs=[]

a=[]

for og,spgenes in ogs.items(): # 每個(gè)OG進(jìn)行一次循環(huán)
    i=0
    for sp,genes in spgenes.items(): # 每個(gè)OG的每個(gè)物種進(jìn)行一次循環(huán)
        genes = [ i for i in genes if i != '']
        if len(genes) == 1:
            i+=1 # 如果物種的基因數(shù)目等于1,i加1
    if i == len(ogs[og]): # 最終i的數(shù)目等于 len(ogs[og])
        singleogs.append(og)
>>> len(singleogs)
4298
>>> ogs[singleogs[1]]
{'Averrhoa_carambola': ['geneYangtao2006611'], 'Carica_papaya': ['110807233'], 'Coffea_canephora': ['Cc02_g35740'], 'Prunus_avium': ['gene-LOC110759850'], 'Prunus_persica': ['18784265'], 'Ricinus_communis': ['J2O13_05G011667'], 'Theobroma_cacao': ['Thecc1EG019630'], 'Vitis_vinifera': ['GSVIVG01036485001']}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容