本文主要工作內(nèi)容:
(1)使用HMM和NCBI-CDD對基因家族進(jìn)行鑒定
(2)使用幾個網(wǎng)站對基因家族表達(dá)蛋白質(zhì)的簡單性質(zhì)進(jìn)行分析
2.基因家族鑒定與基本特征探究
2.1 基因家族鑒定
2.1.1 軟件下載
鑒定基因家族需要使用到hmmer這款軟件,我們可以直接使用conda進(jìn)行安裝,若使用源碼安裝,提供網(wǎng)址如下:http://www.hmmer.org/

2.1.2 利用HMM鑒定
在鑒定過程中需要用到兩個文件,一個是我們之前下載的基因家族HMM模型文件,另外一個是處理后的蛋白質(zhì)序列文件。我們用軟鏈接在新的目錄下操作。
當(dāng)鑒定完成后??梢钥吹皆凇猟omtblout參數(shù)的輸出文件中,第一列即為我們需要的基因序列id。但是可以看到存在有重復(fù)id的情況,這是因為可能一個蛋白序列上存在有多個相似的結(jié)構(gòu)域,因此我們需要在提取id時去重復(fù)。此外根據(jù)一般文獻(xiàn)要求,我們還得保證提取出來的基因this sequence中E-value小于1e-5,根據(jù)我的理解這表示比對的可信度更高。最后提取出序列id后我們再到蛋白質(zhì)序列文件中提取蛋白質(zhì)序列。這里使用的是seqtk這款軟件,我們也直接用conda安裝就好。


2.1.3利用NCBI-CDD驗證
本質(zhì)上來說,鑒定基因家族其實依據(jù)的就是它的保守結(jié)構(gòu)域。NCBI-CDD(Conserved Domain)保存了大量的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)。我們使用HMM模型鑒定出候選基因家族成員后,不妨再使用NCBI-CDD數(shù)據(jù)庫對鑒定到的成員進(jìn)行驗證,看看是否存在假陽性的情況。這里提供NCBI-CDD的網(wǎng)址:https://www.ncbi.nlm.nih.gov/cdd

在這里我們選擇CD-Search,進(jìn)入到鑒定界面

顯然這個操作界面比較容易理解。我們把提取到的蛋白質(zhì)序列文件的內(nèi)容全都復(fù)制下來,然后在左邊對話框中粘貼。然后在右邊的Expect Value threshold中改為0.00001,使其與我們的e-value標(biāo)準(zhǔn)一致。最后我們點擊submit,讓它自己運行。

鑒定成功后,我們點擊Download下載結(jié)果文件,并將它上傳(復(fù)制)到服務(wù)器上。我們這里認(rèn)定SBT蛋白質(zhì)家族都含有Peptidases_S8這一保守結(jié)構(gòu)域,因此我們依據(jù)結(jié)果文件對每條序列中是否含有保守結(jié)構(gòu)域進(jìn)行篩選,發(fā)現(xiàn)第十條序列中并不存在相應(yīng)的保守序列,因此我們結(jié)合這一結(jié)果得到最后的蛋白質(zhì)序列。對其中的序列數(shù)進(jìn)行統(tǒng)計,發(fā)現(xiàn)共有54條序列,與文獻(xiàn)中鑒定數(shù)量保持一致。

2.2 基本特征探究
2.2.1 蛋白質(zhì)物理與化學(xué)特征
所謂的特征,也就是如等電點,分子質(zhì)量等簡單描述蛋白質(zhì)性質(zhì)的一些數(shù)據(jù)表征。這里僅提供網(wǎng)站鏈接,具體使用相對簡單,就不再贅述。https://www.expasy.org/
2.2.2 信號肽鑒定
信號肽的鑒定同樣可通過網(wǎng)站進(jìn)行。文獻(xiàn)當(dāng)中使用TargetP和SignalP用于此類鑒定。由于有現(xiàn)成的網(wǎng)站,這里僅提供鏈接地址:https://services.healthtech.dtu.dk/service.php?TargetP-2.0,https://services.healthtech.dtu.dk/service.php?SignalP-5.0