2020-06-19

問題:之前一直處理fasta文件,最近用了一個(gè)現(xiàn)成的數(shù)據(jù)集(data來自PDB),發(fā)現(xiàn):一個(gè)pdb文件中的序列既有protein序列、又有DNA序列;并且序列中每個(gè)殘基不是由一個(gè)字母表示,而是一個(gè)氨基酸殘基由三個(gè)字母表示、一個(gè)核苷酸殘基由兩個(gè)字母表示。下述例子是一個(gè)pdb文件(ID:10mh)的截圖,有三個(gè)鏈A,B,C,鏈A是protein序列,鏈B和C是DNA序列。

概況來說,即:

PDB文件中SEQRES (sequence residues)中protein序列和DNA序列。

1. 一個(gè)PDB文件中既有protein序列,又有DNA序列。

2. 序列中氨基酸殘基、核苷酸殘基的表示方式。

解決:

(1)如果是蛋白質(zhì)復(fù)合體的話,它的pdb文件里會(huì)包括protein序列和DNA序列的信息。

? ? ? ?? 蛋白質(zhì)復(fù)合體(蛋白質(zhì)復(fù)合物)是有兩個(gè)以上功能相關(guān)的多肽鏈通過二硫鍵或者其他蛋白質(zhì)相互左右所形成的復(fù)合物。如蛋白質(zhì)與DNA的特定序列結(jié)合形成復(fù)合物。?

(2)pdb文件里序列的表示,每個(gè)氨基酸殘基由三個(gè)字母縮寫表示,每個(gè)核苷酸殘基由兩個(gè)字母縮寫表示。不同于fasta文件,每個(gè)氨基酸殘基、每個(gè)核苷酸殘基均由一個(gè)字母簡(jiǎn)寫表示。

二十種氨基酸:第一列是三個(gè)字母的縮寫表示,第二列是單字母表示。(參考:https://baike.baidu.com/item/氨基酸/303574?fr=aladdin)

但是,經(jīng)觀察發(fā)現(xiàn),除了上述二十種氨基酸之前,還有一些其他的非常見的氨基酸殘基,但是幾乎檢索不到它們的縮寫及簡(jiǎn)寫!

例如,PDB_ID:173d的序列中氨基酸序列大部分由非常見氨基酸殘基組成。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容