提取gene_id FPKM python腳本

代碼如下

import sys
import re
FPKM_dict = {}
outfile = open('333.txt', 'w')
fr1 = open('filename', 'r')
lines1 = fr1.readlines()
list1 = ['geneID']
for line1 in lines1:
    list1.append(line1.strip().split('_')[0])
outfile.write('\t'.join(list1) + '\n')
#以上寫完表頭第一列
fr2 = open('V1-1_FRAS192030797-1a.gtf', 'r')
lines2 = fr2.readlines()
for line2 in lines2:
    list2 = line2.strip().split('\t')
    if list2[2] == 'transcript' and 'FPKM' in str(list2[8]) and 'gene_id' in list2[8].split(';')[0] and 'Br' in list2[8].split(';')[0]:
        gene_id = list2[8].split(';')[0].split()[1][1: -1]
        FPKM_dict[gene_id] = []
for line1 in lines1:
    mid_fr1 = open(line1.strip(), 'r')
    mid_lines1 = mid_fr1.readlines()
    for mid_line1 in mid_lines1:
        list3 = mid_line1.strip().split('\t')
        #print(list3[2])
        if list3[2] == 'transcript' and 'FPKM' in list3[8] and 'gene_id' in list3[8].split(';')[0] and 'Br' in  list3[8].split(';')[0]:
            gene_id = re.search('gene_id\s\S+;', mid_line1).group().split()[1][1: -2]
            FPKM_value = re.search('FPKM\s+"\d+.\d+"', mid_line1).group().split()[1][1: -1]
            FPKM_dict[gene_id].append(FPKM_value)
    mid_fr1.close()
for key1, value1 in FPKM_dict.items():
        outfile.write(key1 + '\t' + '\t'.join(value1) + '\n')
outfile.close()
fr1.close()
fr2.close()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容