1)根據(jù)domain序列,直接打開pfam網(wǎng)站,首頁上面有一個sequence search 輸入序列后得到pfam號
2)之后在自己服務器上操作:找到目標物種的注釋文件(一般會帶有pfam號) 輸入命令 grep pf*** <注釋文件> |less 先查看,確定后直接輸出到新文件? grep pf*** <注釋文件>? |cut -f 1 > protain_transcript?
3)之后可使用軟件seqkit 下載后解壓后可以直接使用 需要有基因組protain的序列(fasta文件)
seqkit grep -f protain_transcript? <genome_protain.fasta>? ?> goal_protain_family.fa
得到該文件后使用windows版本的mega,可參考下面的比對步驟(6)
以下方法較麻煩,建議使用上述方法
前提有一個domain序列(需要做成fasta格式,直接用vim 編輯器進行編輯文檔即可 。第一行為>name,第二行為序列),基因組的蛋白序列(fasta文件)
1.需要通過blastp來得到相應的基因(轉錄本) 。以下稱呼 query fasta (已知的蛋白序列) 蛋白庫(基因組的蛋白序列通過blast中的makeblastdb建索引)
1)首先對基因組蛋白序列進行建庫????

2)接下來進行比對
blastp -query <比對的文件> -db <建立的蛋白庫索引> -evalue 1e-10? -out <輸出的文件名> -outfmt <有多個輸出格式,一般常用6,此處用6>? -num_alignments <用來顯示前n個比分質(zhì)量高的,此處選10>? -num_threads <使用的線程數(shù),看自己文件大小及服務器承載能力而定>
3)result(12列)

4)此處文件應該是這樣的
queryid? 基因組蛋白序列中對應的id? ? 100.000? ? 163? ? 0? ? 0? ? 1? ? 163? ?17? ? 179? ? 4.40e-123? ? 346
5)因為我得到的是對應的基因ID(轉錄本id)需要得到對應的fasta文件,此處用到軟件seqkit (谷歌該軟件,復制下載鏈接,直接在linux上使用 命令? ? ? ?wget? ?<加上復制的下載鏈接>? ?下載完成后使用? ?tar? -zxvf? <下載的文件名>? 解壓后即可使用,我此處用的是絕對路徑)
使用命令? ? ?~/biosoft/seqkit grep -f <將blast后的基因id該列拿出來> <基因組的fasta文件>? ? > prootain.fa
6)得到fa文件后,打開在自己電腦上下載好的mega軟件(windows版的)載入文件后點擊窗口左上方的aligment按鈕,提示未選中文件,是否選擇全部文件,點擊是后,選擇第一個 clustalW ,彈出窗口,點擊確定后進行比對