https://www.bilibili.com/video/av85069377?p=2

大致流程

一：準備文件

1. 擬南芥的基因組，CDS，蛋白，GFF以及HMM文件。

GCF_000001735.4_TAIR10.1_genomic.fna
GCF_000001735.4_TAIR10.1_genomic.gff
GCF_000001735.4_TAIR10.1_protein.faa
GCF_000001735.4_TAIR10.1_rna.fna
NB-ARC.hmm

2.利用HMM文件搜尋pep文件

#利用hmmsearch搜尋pep
$hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa
#過濾篩選得到E-value小于1*10-20,先拿到序列號
$grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d  " "|sort -u > NBS-ARC_qua_id.txt
#再根據(jù)篩選的序列號，從擬南芥pep文件中提取序列
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f NBS-ARC_qua_id.txt > NBS-ARC_qua.fa

hmmsearch結果文件

3.利用clustalw進行多序列比對，構建物種特定的NB-ARC基因家族hmm模型

流程如下：

clustalw -> 1 -> NB-ARC_qua.aln ->2 ->1--> NBS-ARC_qua.aln ->NB-ARC_qua.dnd ->X

最終生成NBS-ARC_qua.aln和NBS-ARC_qua.aln文件，其中NB.aln文件就是用于構建新的馬爾科夫模型文件。

$hmmbuild new-NB-ARC.hmm NBS-ARC_qua.aln

在利用新生成的擬南芥特異的馬爾科夫模型尋找pep文件中的NB-ARC基因家族序列。

$hmmsearch --cut_tc --domtblout NBS-ARC.second.out new-NB-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa

對結果文件篩選，E-value值小于0.01，ID取重復重復，最后將ID存為final_E02.NB_ids.list。

grep -v "#" NBS-ARC.second.out|awk '($7 + 0) < 1E-20' | cut -f1 -d " "|sort -u >final.NBS.list
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f final.NBS.list > final_NBS-ARC_qua.fa

這個序列就可以用于后續(xù)的進化樹，保守結構域，motif等分析。

二：通過blast鑒定基因家族成員（適用于沒有該基因家族HMM模型）

利用CDD，Pfam，interProscan確定基因家族成員保守結構域。
利用Plant CARE和PLACE預測成員順式作用原件。
利用別的物種的基因家族的蛋白序列，實例用玉米和水稻的NBS序列尋找擬南芥的NBS序列。

1.從NCBI下載NBS序列（盡可能下載多個其他物種的NBS序列）

取NCBI得protein條目下搜索NBS序列。

2.blastp比對并篩選目標物種中符合要求的序列。

用query=ref_nbs.plant.fa去擬南芥蛋白序列中搜索

$makeblastdb -in Arabidopsis_thaliana.TAIR10.pep.all.fa -dbtype prot -out TAIR
$blastp -num_threads 16 -db TAIR -query ref_nbs.plant.fa -evalue 1e-20 -outfmt 7 -seg yes > reftoTAIR_blastp.out
#刪除#開頭的行
$sed -i '/^#/d' reftoTAIR_blastp.out
$awk '{print$2}' reftoTAIR_blastp.out >NBS_second.ids
##最后利用sort和uniq函數(shù)對NBS_second.ids去重復，再將去重復的HMM和blast找到的id取交集。
$cat NBS_second.ids|sort|uniq >uniq_NBS_second.ids
$comm -12 uniq_NBS_second.ids final.NBS.list > common.list
#最后根據(jù)交集中的ID取擬南芥的pep文件中搜索可信的NB-ARC序列
$less Arabidopsis_thaliana.TAIR10.pep.all.fa | /home/spider/project/yuantao/soft/seqkit grep -f common.list > final_all_NBS-ARC_qua.fa

拿到這些蛋白序列之后，就需要到NCBI，Pfam等網(wǎng)站上搜索是否含有NBS保守的結構域。

3.取Pfam查找NBS結構域（max=500條序列）

Pfam網(wǎng)站

例子

等著吧，一般都要排隊。最后結果會發(fā)你郵箱。

結果

4.取NCBI的的CDD

不支持文件上傳，只能復制粘貼。

CDD

搜索

5.利用interPro搜索結構域

interpro

結果

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基因家族分析一(NBS基因家族鑒定)

基因家族分析一(NBS基因家族鑒定)

一：準備文件

1. 擬南芥的基因組，CDS，蛋白，GFF以及HMM文件。

2.利用HMM文件搜尋pep文件

3.利用clustalw進行多序列比對，構建物種特定的NB-ARC基因家族hmm模型

二：通過blast鑒定基因家族成員（適用于沒有該基因家族HMM模型）

1.從NCBI下載NBS序列（盡可能下載多個其他物種的NBS序列）

2.blastp比對并篩選目標物種中符合要求的序列。

3.取Pfam查找NBS結構域（max=500條序列）

4.取NCBI的的CDD

5.利用interPro搜索結構域

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基因家族分析一(NBS基因家族鑒定)

一：準備文件

1. 擬南芥的基因組，CDS，蛋白，GFF以及HMM文件。

2.利用HMM文件搜尋pep文件

3.利用clustalw進行多序列比對，構建物種特定的NB-ARC基因家族hmm模型

二：通過blast鑒定基因家族成員（適用于沒有該基因家族HMM模型）

1.從NCBI下載NBS序列（盡可能下載多個其他物種的NBS序列）

2.blastp比對并篩選目標物種中符合要求的序列。

3.取Pfam查找NBS結構域（max=500條序列）

4.取NCBI的的CDD

5.利用interPro搜索結構域

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1. 擬南芥的基因組，CDS，蛋白，GFF以及HMM文件。

3.利用clustalw進行多序列比對，構建物種特定的NB-ARC基因家族hmm模型