問題:之前一直處理fasta文件,最近用了一個(gè)現(xiàn)成的數(shù)據(jù)集(data來自PDB),發(fā)現(xiàn):一個(gè)pdb文件中的序列既有protein序列、又有DNA序列;并且序列中每個(gè)殘基不是由一個(gè)字母表示,而是一個(gè)氨基酸殘基由三個(gè)字母表示、一個(gè)核苷酸殘基由兩個(gè)字母表示。下述例子是一個(gè)pdb文件(ID:10mh)的截圖,有三個(gè)鏈A,B,C,鏈A是protein序列,鏈B和C是DNA序列。

概況來說,即:
PDB文件中SEQRES (sequence residues)中protein序列和DNA序列。
1. 一個(gè)PDB文件中既有protein序列,又有DNA序列。
2. 序列中氨基酸殘基、核苷酸殘基的表示方式。
解決:
(1)如果是蛋白質(zhì)復(fù)合體的話,它的pdb文件里會(huì)包括protein序列和DNA序列的信息。
? ? ? ?? 蛋白質(zhì)復(fù)合體(蛋白質(zhì)復(fù)合物)是有兩個(gè)以上功能相關(guān)的多肽鏈通過二硫鍵或者其他蛋白質(zhì)相互左右所形成的復(fù)合物。如蛋白質(zhì)與DNA的特定序列結(jié)合形成復(fù)合物。?
(2)pdb文件里序列的表示,每個(gè)氨基酸殘基由三個(gè)字母縮寫表示,每個(gè)核苷酸殘基由兩個(gè)字母縮寫表示。不同于fasta文件,每個(gè)氨基酸殘基、每個(gè)核苷酸殘基均由一個(gè)字母簡(jiǎn)寫表示。

但是,經(jīng)觀察發(fā)現(xiàn),除了上述二十種氨基酸之前,還有一些其他的非常見的氨基酸殘基,但是幾乎檢索不到它們的縮寫及簡(jiǎn)寫!
例如,PDB_ID:173d的序列中氨基酸序列大部分由非常見氨基酸殘基組成。
