筆者有話:寫這篇日志的目的在于記錄原核基因組下游分析比較基礎(chǔ)的步驟,使用這些工具的時(shí)候很想吐槽的點(diǎn),以及一些些數(shù)據(jù)的解析防止之后自己忘得一干二凈的時(shí)候還能知道是怎么回事。希望這篇日志能給剛接觸生物信息學(xué),需要處理微生物數(shù)據(jù)的小伙伴提供參考和盡可能地最大限度和合理使用在線注釋工具提高一點(diǎn)效率。另外初接觸生物信息學(xué)分析工具時(shí),常對一些點(diǎn)有疑慮,例如為什么要用多個(gè)數(shù)據(jù)庫搜索,數(shù)據(jù)結(jié)果怎么選擇,小白可能還會存在一些思維誤區(qū),下面會一一闡述和回答(不一定對),有學(xué)術(shù)性錯誤請點(diǎn)出,互相學(xué)習(xí)。
?? 以下分析的數(shù)據(jù)都是基于原核生物的基因組,真核我不知道。
一些思維誤區(qū)及疑惑
注釋數(shù)據(jù) ≠ 實(shí)錘
有現(xiàn)象但沒找到序列 ≠ 不可信
實(shí)錘的證據(jù):規(guī)范操作沒有染菌,有生物學(xué)重復(fù)的化學(xué)/物理儀器/分子生物學(xué)的證據(jù)
分析時(shí)為什么要多個(gè)數(shù)據(jù)庫一起用:原因是為了交叉驗(yàn)證,每個(gè)數(shù)據(jù)庫包含的信息不一定是完整的,有些數(shù)據(jù)庫比較古早,現(xiàn)在2021年可能已經(jīng)不會再更新了(COG數(shù)據(jù)庫)就是一個(gè)很好的例子,有些數(shù)據(jù)庫上面信息是有錯誤的需要查找文獻(xiàn)或者多個(gè)數(shù)據(jù)庫驗(yàn)證,NCBI數(shù)據(jù)庫就不太準(zhǔn)確,僅供參考用。為了能夠獲得盡可能全面的信息,我們一般多個(gè)數(shù)據(jù)庫一起搜索,并選取他們的并集作為最終結(jié)果。
1、文件準(zhǔn)備(提供什么文件?)
0、測序公司會返回cleandata(fastq格式),拼接好的基因組(.fasta)需要用軟件Prokka進(jìn)行初步注釋;
1、一般輸入的原核數(shù)據(jù)是PROKKA預(yù)測后的蛋白質(zhì)序列文件后綴為 ".faa";
2、Genbank/gbff數(shù)據(jù);
3、Fasta/.fna,拼接好的基因組數(shù)據(jù);
上述.faa, Genbank/gbff均來自Prokka軟件注釋好的數(shù)據(jù)。
建議在prokka的時(shí)候先給每條預(yù)測出來的蛋白質(zhì)序列更改好名字,prokka可做到批量命名。
1.1 蛋白質(zhì)序列數(shù)據(jù)


PS :每個(gè)微生物的每條蛋白質(zhì)數(shù)據(jù)最好提前命名好,方便下游分子實(shí)驗(yàn)的設(shè)計(jì)(如引物設(shè)計(jì)的過程中需要根據(jù)蛋白質(zhì)的序列返回找基因組中的序列。
另附prokka代碼一行,可批量命名
prokka --prefix strain_name --addgenes --locustag strain_name --kingdom Bacteria --norrna strainname_scaffold.fasta
# 上面更改就是通過參數(shù) --locustag實(shí)現(xiàn)的
2、在線工具及常用數(shù)據(jù)庫
KEGG :http://kegg.jp/
- 原核選擇BlastKOALA(里面選擇是原核的選項(xiàng)即可,不需要糾結(jié)是到genus還是species,這兩者只有能查詢條數(shù)的區(qū)別



評論:KEGG數(shù)據(jù)庫對相似性閾值要求很高,能在這個(gè)數(shù)據(jù)庫注釋到基因組很大程度上也擁有對應(yīng)的功能基因,但因?yàn)殚撝蹈咚圆荒苷业叫碌牡鞍?。KEGG強(qiáng)大的點(diǎn)在于可以可視化代謝的通路,因此KEGG注釋是個(gè)必選項(xiàng)。
Eggnog(EGGNOG-Mapper): http://eggnog5.embl.de/基于Diamond算法



使用后的評測:EggNOG數(shù)據(jù)庫每個(gè)郵箱能夠同時(shí)上傳五個(gè)基因組的數(shù)據(jù),一天之內(nèi)有結(jié)果
3、基于HMM模型的數(shù)據(jù)庫(更快,更準(zhǔn),更強(qiáng))
HMM全稱Hidden markov model,中文:隱馬爾可夫模型,前面的,如果有學(xué)習(xí)人工智能可以知道前面是比較硬的算法(暴力破解),而HMM模型是基于神經(jīng)網(wǎng)絡(luò)預(yù)測的(魔法),因此有更高的靈敏度和準(zhǔn)確性,也比較符合生物學(xué)意義。
3.1 Kofam (更快):https://www.genome.jp/tools/kofamkoala/


評價(jià):速度非???,一天之內(nèi)可以上傳10個(gè)左右的基因組(如果人不累的話可以更多)
3.2 Pfam Hmmer :http://www.ebi.ac.uk/Tools/hmmer/



這個(gè)只接受單條蛋白結(jié)果,還算挺快的上傳數(shù)據(jù)一會兒就好了,最有驚喜(感覺自己課題有救)的數(shù)據(jù)庫。就是結(jié)果不太好展示,需要自己作圖統(tǒng)計(jì)
- PS:附批量(多條蛋白序列)搜索的頁面 pfam batch search
3.3 MEME (motif): http://meme-suite.org/doc/meme-format.html
一個(gè)預(yù)測蛋白質(zhì)結(jié)構(gòu)域(蛋白質(zhì)的真正行使功能的活性區(qū)域)的結(jié)構(gòu)域數(shù)據(jù)庫,和比對工具。
輸入文件 :核苷酸序列或者蛋白序列






- 評價(jià),一般MEME 數(shù)據(jù)庫在5~10分鐘之內(nèi)就能拿到數(shù)據(jù)了,但如果真的不太清楚知道結(jié)構(gòu)域是什么,這個(gè)結(jié)果也就僅供參考,不過圖很好看(組會上面放PPT非常炫酷!??)
3.4 antismash(次級代謝產(chǎn)物,抗生素之類的)

- Antismash的注釋結(jié)果

這個(gè)數(shù)據(jù)庫會告訴我們,微生物到底能合成哪些次級代謝產(chǎn)物,但這個(gè)數(shù)據(jù)庫比較小,得出的結(jié)果一般告訴我們,你的微生物似乎沒有啥有價(jià)值的代謝產(chǎn)物,或者空白。數(shù)據(jù)庫能同時(shí)運(yùn)行五個(gè)數(shù)據(jù),結(jié)果下載下來是一堆HTML的結(jié)果,所以想放在PPT上只能截圖或者自己再作一些圖。
3.5 Signal IP(找信號肽):http://www.cbs.dtu.dk/services/SignalP/



SignalIP對于搞大數(shù)據(jù)的人(大規(guī)模測基因組/宏基因組)來說沒有太大的參考意義可跳過,但是需要從基因組預(yù)測到下游分子的人需要預(yù)測一下。
其他
還有更多像Dbcan,Cazyme,等等跟上面數(shù)據(jù)庫的操作步驟大同小異,有興趣或需要上官網(wǎng)自行探索。
4、結(jié)果解析 (怎樣的序列才是可信的)
??選擇可信的文獻(xiàn)參數(shù)作為參考
Blast/diamond e-value : < 1e-5
Hmmer : < 1e-20
length :到NCBI蛋白質(zhì)數(shù)據(jù)庫或者Uniprot看同源序列的平均長度
Similarity怎么看
1.蛋白質(zhì)序列 ( ≥ 30% 以上,密碼子的簡并性)
2.核苷酸序列 DNA,≥ 70%以上的相似度
物種特異性序列與PCR:一個(gè)生信與生物學(xué)的完美結(jié)合的妙用(實(shí)驗(yàn)室前輩提供)
從網(wǎng)上下載NT/NR庫(盡可能地收集已知功能的序列)
用自己的基因組/蛋白序列與數(shù)據(jù)庫相比對
尋找比對不上數(shù)據(jù)庫的序列(說明是這個(gè)生物特有的)
給第三步的序列設(shè)計(jì)引物,作為確認(rèn)此物種的特異性序列
??記得有個(gè)漏洞的,因?yàn)閚t庫并不是有全的,自然界還有很多沒測基因組,所以物種特異pcr理論上是有可能會有漏洞的,選的時(shí)候盡量跨越混著編碼區(qū)和非編碼區(qū)去找目的片段,這樣的話實(shí)際碰到漏洞的機(jī)會會少很多(作者原話)
結(jié)尾
上面的一些內(nèi)容會在后一章自己構(gòu)建數(shù)據(jù)庫中談?wù)?,本文可能后續(xù)還會有補(bǔ)充和更新。
PS碼字不易,圖片賊心累為什么用markdown就不能把圖片上傳呢。
各位客官還請多多點(diǎn)贊轉(zhuǎn)發(fā)??