生物學(xué)信息學(xué)札記
教程地址:http://ibi.zju.edu.cn/bioinplant
第一章 生物信息學(xué)通論
第一節(jié) 生物信息與生物信息學(xué)
一、迅速膨脹的生物信息
初級(jí)數(shù)據(jù)庫(kù):由實(shí)驗(yàn)獲得的大量核酸序列和三維結(jié)構(gòu)數(shù)據(jù)
二級(jí)數(shù)據(jù)庫(kù):原始數(shù)據(jù)分析而來(lái)的諸如二級(jí)結(jié)構(gòu)、疏水位點(diǎn)和功能區(qū)數(shù)據(jù);些由核酸數(shù)據(jù)庫(kù)序列翻譯而來(lái)的蛋白質(zhì)序列。
二、生物信息學(xué)的概念
基因組信息學(xué)、蛋白質(zhì)空間結(jié)構(gòu)模擬以及藥物設(shè)計(jì)構(gòu)成了生物信息學(xué)的 3 個(gè)重要研究組成部分。
具體內(nèi)容上看,生物信息學(xué)應(yīng)包括這 3 個(gè)主要部分:
(1)新算法和統(tǒng)計(jì)學(xué)方法研究;
(2)各類數(shù)據(jù)的分析和解釋;
(3)研制有效利用和管理數(shù)據(jù)新工具。
生物信息學(xué)最初更多地是關(guān)注數(shù)據(jù)庫(kù),那些數(shù)據(jù)庫(kù)存儲(chǔ)著來(lái)自基因組測(cè)序計(jì)劃完成的序列數(shù)據(jù)。目前生物信息學(xué)已今非昔比,它所關(guān)注的是各類數(shù)據(jù),包括生物大分子的三維結(jié)構(gòu)、代謝途徑和基因表達(dá)等等。
生物信息學(xué)最使人們感興趣的是它利用計(jì)算方法分析生物數(shù)據(jù),如根據(jù)核酸序列預(yù)測(cè)蛋白質(zhì)序列、結(jié)構(gòu)、功能的算法等。雖然這些預(yù)測(cè)還不是非常精準(zhǔn),但是當(dāng)可靠的實(shí)驗(yàn)數(shù)據(jù)還無(wú)法得到的情況下,這這一預(yù)測(cè)可以作為一盞路燈,指示你應(yīng)如何開展實(shí)驗(yàn)。
另外的通假名字“計(jì)算生物學(xué)”,其實(shí)后者范圍更廣。
美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)網(wǎng)站數(shù)據(jù)分析工具網(wǎng)頁(yè)。圖中包括 BLAST、COG、ORF
finder、Electronic PCR 等工具軟件。
三、對(duì)生物信息學(xué)的不正確認(rèn)識(shí)
(1)“人人可以從事生物信息學(xué)研究”。
實(shí)際:高性能計(jì)算資源昂貴,先進(jìn)的軟件包付費(fèi)。
(2)“你最終還是需要具體的實(shí)驗(yàn)”。
實(shí)際:可以是純數(shù)據(jù)驗(yàn)證
(3)“生物信息學(xué)是門新技術(shù),但只是一門技術(shù)而已”。
實(shí)際:有許多算法,難題(生物、計(jì)算),內(nèi)涵很豐富。
第二節(jié) 生物信息學(xué)發(fā)展簡(jiǎn)史
-
萌芽期(60-70 年代)
以 Dayhoff 的替換矩陣和 Neelleman-Wunsch算法為代表,它們實(shí)際組成了生物信息學(xué)的一個(gè)最基本的內(nèi)容和思路:序列比較。
-
形成期(80 年代)
以分子數(shù)據(jù)庫(kù)和 BLAST等相似性搜索程序?yàn)榇怼?/p>
以 BLAST、FASTA 等為代表工具軟件和相應(yīng)的新算法大量被提出和研制,極大地改善了人類管理和利用分子數(shù)據(jù)的能力。
-
高速發(fā)展期(90 年代-至今)
以基因組測(cè)序與分析為代表?;蚪M計(jì)劃,特別是人類基因組計(jì)劃的實(shí)施,分子數(shù)據(jù)以億計(jì);
Phred-Phrap-Consed 系統(tǒng)軟件包自 1993 年出現(xiàn),1995 年已廣泛應(yīng)用于鳥槍法測(cè)序中序列的堿基識(shí)別、拼裝和編輯等
-
相關(guān)期刊
英國(guó)劍橋大學(xué)出版社出版《 Bioinformatics 》,發(fā)表計(jì)算分子生物學(xué)、生物數(shù)據(jù)庫(kù)和基因組生物
信息學(xué)方面的文章《Applied Bioinformatics》
《Briefings in Bioinformatics》
《Journal of bioinformatics and computationalbiology 》
《 Genomics, proteomics & bioinformatics 》
-
網(wǎng)上生物信息學(xué)雜志《BMC Bioinformatics》
第三節(jié) 基因組時(shí)代:生物信息學(xué)的應(yīng)用與展望
實(shí)驗(yàn)室的每一項(xiàng)技術(shù),從簡(jiǎn)單的克隆、PCR 到基因表達(dá)分析都需要在計(jì)算機(jī)上進(jìn)行
數(shù)據(jù)的處理,這些工作均需要理解 DNA 和蛋白質(zhì)分析工具的基本算法。
生物信息學(xué)研究者基本要求
- 沒有分子生物學(xué)背景將到處碰壁。
- 真正理解中心法則
- 熟悉幾個(gè)主要的分子生物學(xué)軟件包,如測(cè)序分析,分子模型
- 熟悉命令行操作
- 掌握編程語(yǔ)言,如c/c++,python等
生物信息學(xué)核心問題
數(shù)據(jù)庫(kù)的開發(fā):
如何整合和最有效地查詢來(lái)自諸如基因組 DNA 序列、mRNA 表達(dá)的空間和時(shí)間模式(spatial and temporal pattern)、蛋白質(zhì)結(jié)構(gòu)、免疫反應(yīng)、文獻(xiàn)記錄等數(shù)據(jù)。
從諸如組裝完成的核酸或蛋白質(zhì)序列中識(shí)別模式的算法、用于相似性比較或系統(tǒng)發(fā)育構(gòu)建的序列列線(alignment)、線性序列或高維結(jié)構(gòu)的模序(motif)識(shí)別和基因表達(dá)的共有模式等等。
未來(lái)展望
在后基因組時(shí)代(postgenomicera),人們期待在對(duì)生物發(fā)育機(jī)理、代謝過(guò)程和疾病認(rèn)識(shí)方面有所突破??梢钥隙ǖ仡A(yù)言,生物信息學(xué)研究將對(duì)我們的一些認(rèn)識(shí)產(chǎn)生根本性改變,如基因表達(dá)調(diào)控、蛋白
質(zhì)結(jié)構(gòu)預(yù)測(cè)、比較進(jìn)化學(xué)和藥物開發(fā)等領(lǐng)域。