
1.找到你所感興趣的基因家族
番茄(Solanum lycopersicum),最喜愛的蔬菜水果之一。摘錄維基百科最基本的介紹,詳細了解番茄的起源,自行Google。小編還是喜歡Transporter gene family,就覺得特別有意思。植物對于各種營養(yǎng)元素的吸收,都需要其幫助,一旦缺少了,輕則營養(yǎng)不良,重則一命嗚呼。本次流程,我選擇了The natural resistance-associated macrophage protein (NRAMP)家族。
The tomato (see pronunciation) is the edible, often red, fruit of the plant Solanum lycopersicum, commonly known as a tomato plant. The plant belongs to the nightshade family, Solanaceae.
2.獲取基因家族pfam number
-
進入官網(wǎng)https://pfam.xfam.org/,主頁如下:
pfam主頁 -
選擇KEYWORD SEARCH,來直接搜索“NRAMP”。點Go,進入搜索結果頁面。
KEYWORD SEARCH灰色狀態(tài)
搜索結果 -
選擇第一個Accession number:PF01566,進入以下界面
NRAMP家族信息界面 -
左側欄選擇Curation&model,進入如下界面:
model界面 可以看到第二張表格,HMM information,點擊表格最下面的download鏈接,就可以下載Stockholm格式的HMM文件。
3. 利用hmmsearch進行基因家族初步篩選
- 最基本的語法:
hmmsearch Nramp.hmm protein.fa > out,一般我只用到這么簡單的語法。
Nramp.hmm 是上一步下載到的文件
protein.fa是番茄全基因組蛋白序列文件
out是重定向的輸出的文件
-
找到的成員信息,可以看出來,初步找到了共10個NRAMP成員。但是根據(jù)擬南芥和水稻的成員數(shù)目(各自是6個和7個),估計番茄不會有那么多的成員。此外,從score一欄發(fā)現(xiàn),其中只有5個成員的分數(shù)在200以上,可靠性相對比較高。但是不管怎么樣,還是先把所有成員的蛋白序列download下來,進行保守結構域分析。
Nramp.hmm文件
out輸出文件的內(nèi)容 批量獲取家族成員信息
大致思路:首先從out輸出文件的內(nèi)容中,將其中的geneID截取下來,然后再根據(jù)ID號將蛋白序列從protein.fa文件中獲取所有家族成員。
代碼如下:
# 截取id號
vim out
# 獲取id號所在的行號,然后再用sed命令截取行,再用grep命令將id號匹配并重定向。
在vim命令模式下,輸入“:set nu”
# sed命令截取,并用管道符直接輸入給grep,匹配重定向到id文件
sed -n '17,26p' out | grep -o "Sol.*\.1" > id
# 利用samtools工具來進行序列提取
# 首先建立索引文件
samtools faidx protein.fa
# 再將id好作為輸入,之后在重定向
# 參考鏈接:https://www.biostars.org/p/49820/
xargs samtools faidx protein.fa < id > nramp_protein
less nramp_protein
# 得到的序列文件是含有回車符的,我利用一個perl單行命令將fasta格式的多行序列變成單行的fasta格式序列,鏈接:http://www.biotrainee.com/thread-291-1-1.html
perl -pe '/^>/ ? print "\n" : chomp' in.fasta | tail -n +2 > out.fasta
# 最后在samrt網(wǎng)站確認是否是該家族成員,進行最后的鑒定。鏈接:http://smart.embl.de/smart/set_mode.cgi?NORMAL=1



4.寫在最后的感想
還是沒有及時的更新,雖然一直想寫,但作為實驗gou,我只能將大部分的時間用來實驗了,從而沒有過多的時間來寫。挺對不起一個讀者,我之前回答說的是上個禮拜更新的,可是最后還是拖了一個禮拜。
今天實驗室聚餐,各種情況都出現(xiàn)了,感覺大家都是不容易,外人看來都是很光鮮亮麗,很不錯的工作,但是這背后的背后,有多少的辛酸能被人所理解,有時候還真是需要訴說。發(fā)現(xiàn)現(xiàn)在自己出去,真的會混得非常的慘,真是不敢想象。
最近在做基礎序列的發(fā)掘分析,感覺主要就是對于各種文本文件的截取,需要用到很多shell命令,發(fā)現(xiàn)自己很欠缺這方面的,開始特別困難,之前從來沒有實戰(zhàn)過,只是看教程,對于真正的項目分析,還是非常欠缺。
到現(xiàn)在,還是學到了很多,在實踐中去補充自己的不足,一邊摸索一邊學習還是收到了很多的收獲。






