已知一個蛋白domain 找到對應的基因家族并做進化樹

1)根據(jù)domain序列,直接打開pfam網(wǎng)站,首頁上面有一個sequence search 輸入序列后得到pfam號

2)之后在自己服務器上操作:找到目標物種的注釋文件(一般會帶有pfam號) 輸入命令 grep pf*** <注釋文件> |less 先查看,確定后直接輸出到新文件? grep pf*** <注釋文件>? |cut -f 1 > protain_transcript?

3)之后可使用軟件seqkit 下載后解壓后可以直接使用 需要有基因組protain的序列(fasta文件)

seqkit grep -f protain_transcript? <genome_protain.fasta>? ?> goal_protain_family.fa

得到該文件后使用windows版本的mega,可參考下面的比對步驟(6)

以下方法較麻煩,建議使用上述方法


前提有一個domain序列(需要做成fasta格式,直接用vim 編輯器進行編輯文檔即可 。第一行為>name,第二行為序列),基因組的蛋白序列(fasta文件)

1.需要通過blastp來得到相應的基因(轉錄本) 。以下稱呼 query fasta (已知的蛋白序列) 蛋白庫(基因組的蛋白序列通過blast中的makeblastdb建索引)

1)首先對基因組蛋白序列進行建庫????

-in 用于輸入基因蛋白序列位置? ? -dbtype? ?建庫類別為蛋白則輸入prot? 后面兩個參數(shù)可以直接加上 -out 為輸出文件位置

2)接下來進行比對

blastp -query <比對的文件> -db <建立的蛋白庫索引> -evalue 1e-10? -out <輸出的文件名> -outfmt <有多個輸出格式,一般常用6,此處用6>? -num_alignments <用來顯示前n個比分質(zhì)量高的,此處選10>? -num_threads <使用的線程數(shù),看自己文件大小及服務器承載能力而定>

3)result(12列)


重點關注前幾個,此處我卡的是identity>70 ,query 長度為163,我卡的是length>105

4)此處文件應該是這樣的

queryid? 基因組蛋白序列中對應的id? ? 100.000? ? 163? ? 0? ? 0? ? 1? ? 163? ?17? ? 179? ? 4.40e-123? ? 346

5)因為我得到的是對應的基因ID(轉錄本id)需要得到對應的fasta文件,此處用到軟件seqkit (谷歌該軟件,復制下載鏈接,直接在linux上使用 命令? ? ? ?wget? ?<加上復制的下載鏈接>? ?下載完成后使用? ?tar? -zxvf? <下載的文件名>? 解壓后即可使用,我此處用的是絕對路徑)

使用命令? ? ?~/biosoft/seqkit grep -f <將blast后的基因id該列拿出來> <基因組的fasta文件>? ? > prootain.fa

6)得到fa文件后,打開在自己電腦上下載好的mega軟件(windows版的)載入文件后點擊窗口左上方的aligment按鈕,提示未選中文件,是否選擇全部文件,點擊是后,選擇第一個 clustalW ,彈出窗口,點擊確定后進行比對

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容