第一次知道李霞老師是在2019年“數(shù)學、計算機與生命科學交叉科學青年學者論壇”上,詳見:2019||數(shù)學、計算機與生命科學交叉科學青年學者論壇。在論壇上她的演講是《數(shù)學在生物醫(yī)學中的作用》,生動有趣,主要是能夠恰如其分地overlap到數(shù)學和生物醫(yī)學的點。后來就開始在網上搜關于她的資料:

了解到李老師是數(shù)學出身轉到生物信息,也是國內早期從事和教授生物信息的老師之一。雖然到其門下讀書幾乎不可能了,但是總是在關注著生物信息第一梯隊的老師的動態(tài)。前幾天,在國內某知名生信大廠的二手群里,看到有前同事在出手一本生物信息教材——2010年出版的《生物信息學》。要知道那時候,該大廠也是本書出版后一年(2011)才成立的。10年來,該廠為我國培養(yǎng)了成百上千的高通量測序(生信,產品,運營,銷售)人才??吹竭@個時間,看到李老師的教材,我覺得自己責無旁貸要收下本書了,在之前屯過:

剛好,也借此機會,一窺十年前生物信息的狀態(tài)。在此,我們不禁要問,那時候學習生物信息的同學,現(xiàn)在都在哪呢?
如今(指2012年),李霞教授已是名符其實的桃李滿天下。從2001年招收第一屆研究生,到今天李霞教授已經招收了11屆學生,培養(yǎng)碩士生54人、博士生35人,已畢業(yè)的45名學生絕大多數(shù)分配到中國科學院、清華大學、香港科技大學、同濟大學等科研院所或重點高校工作。李霞教授一直堅持碩士研究生發(fā)表SCI收錄影響因子2.0、博士研究生發(fā)表SCI收錄影響因子5.0(或累計)的論文才能畢業(yè),就是在這近乎苛刻的培養(yǎng)要求下,哈醫(yī)大生物信息學院培養(yǎng)的學生個個功夫過硬,實力不凡。
目前國內越來越多的高校開始開設《生物信息》這門課了,坊間也有很多培訓機構在做培訓,據(jù)某大廠統(tǒng)計,2019年較2018年變化-30%。2020年新冠影響,又多了許多序列數(shù)據(jù)需要生物信息人員來分析。十年前,生物信息還只是一個科研院所的研究項目,十年后,生物信息已經是一個常見的工種:

所以能在一門學科的早期就開始教育和普及工作是很需要魄力的。
好了,讓我們回到課本上來。

緒論
生物信息學的興起
生物信息學在生命科學中的地位
這部分作者講述了人類基因組計劃的劃時代作用:改變生物科學的研究范式。同時:

全書的重點也落腳在生物信息在人類復雜疾病中的應用上。這又回到我們之前的追問:NGS數(shù)據(jù)那么多,什么時候才能改善人類健康?2020的新冠,讓我們看到了希望,NGS技術在早期的病毒序列解讀,后期的防控篩查都起到了舉足輕重的作用。
緒論是用來召喚夢想的。
生物信息學基礎
DNA、RNA和蛋白質序列信息資源
核酸序列
蛋白質序列數(shù)據(jù)庫
NCBI與EMBL-EBI
雙序列比對
替換計分矩陣
雙序列比對算法
數(shù)據(jù)庫搜索
比對的統(tǒng)計學顯著性
參數(shù)的選擇
多序列比對
相似性與距離、計分與罰分、替換矩陣
主要比對方法與軟件
局部比對、glocal比對、synthenic比對
全基因組比對
軟件,參數(shù),比對質量
序列特征分析
DNA序列特征分析
蛋白質序列特征分析
序列綜合分析
分子進化分析
系統(tǒng)發(fā)生分析與重建
核酸和蛋白質的適應進化
分子進化與生物信息
表達序列分析
EST數(shù)據(jù)分析
基因表達系列分析
基因芯片數(shù)據(jù)分析
常見的芯片平臺與數(shù)據(jù)庫
基因芯片數(shù)據(jù)的處理
差異表達分析
基因芯片數(shù)據(jù)的聚類分析
基因芯片數(shù)據(jù)的分類分析
基因芯片數(shù)據(jù)其他分析
常用表達譜分析軟件
第二部分的生物信息基礎,主要介紹了序列比對和表達數(shù)據(jù)分析模式。其實這個是永遠不會過時的知識點,在
讀后|| Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics
NGS通識第零講||NGS通識
文章中,我們都提到過,生物信息處理的數(shù)據(jù)類型就那么幾種:序列,矩陣,圖像,文本,空間。所以序列的基本處理這個還是要懂的,如何評價兩個序列的相似性?在算法上如何實現(xiàn)?這是生物信息的基本功,生物信息不是只會畫個圖,也不是只會安裝軟件,它不是。所以,關于生物信息我們還要學習很多數(shù)學和計算機的知識。

在看這一章的時候,恰巧也在極客時間上重溫《數(shù)據(jù)結構與算法之美》,深感自己的底子之薄,生信的坑子之深:

在這里我們不去講編輯距離,不去畫動態(tài)規(guī)劃的表,關于生信的算法我第一次接觸的是
用隱馬爾可夫模型做基因預測
功能基因組信息學
基因注釋與功能分類
基因注釋數(shù)據(jù)庫
基因集功能富集分析
基因功能預測
蛋白質分析與蛋白質組學
蛋白質分析方法
蛋白質組學數(shù)據(jù)的獲取與分析
蛋白質結構分析
蛋白質的高級結構
蛋白質結構數(shù)據(jù)庫
蛋白質結構預測
基于結構預測蛋白質功能
蛋白質結構異常與疾病
轉錄調控信息學
轉錄調控的高通量實現(xiàn)
轉錄因子結合位點的信息學預測方法
轉錄調控數(shù)據(jù)庫
生物分子網絡
生物分子網絡概述
生物分子網絡分析
生物分子網絡的重構和應用
基因表達網絡
基因調控網絡
蛋白質互作網絡
代謝網絡
計算表觀遺傳學
基因組的DNA甲基化
組蛋白修飾的表觀基因組
基因組印記
表觀遺傳學數(shù)據(jù)庫及軟件
如果不是看過本書的出版時間,你完全看不出這是十年前的教材。因為討論的主題就算放到今天依然是很新穎的,這就是聞道有先后吧。比如最近 比較火的冷凍電鏡(Cryoelectron Microscopy),在本書中也有提到。就方法論來說,我覺得這部分的生物分子網絡很有啟發(fā)意義,目前的生物信息一般是分析序列結構和基因表達,但是生物過程往往是比較復雜的,所以網絡的應用似乎是顯而易見。
目前生物分子網路正應用在生物系統(tǒng)的許多方面,也在和新的算法一起給我們帶來新的見解。

生物信息學與人類復雜疾病
人類復雜疾病與計算系統(tǒng)生物學
復雜疾病概述
復雜疾病數(shù)據(jù)庫
疾病網絡重構和計算系統(tǒng)生物學方法
單核苷酸多態(tài)與人類疾病
SNP分型技術與數(shù)據(jù)庫資源
基于SNP的復雜疾病遺傳定位
數(shù)量性狀研究與SNP的系統(tǒng)遺傳學分析
SNP相關的集成軟件工具
miRNA與復雜疾病
miRNA 與靶基因
miRNA多態(tài)和復雜疾病
miRNA 表達譜與復雜疾病
miRNA 調控分子網絡
這部分是本教材的落腳點,就像為之前的所有知識點找到了歸屬。所謂打鐵還需自身硬,要把生物信息(數(shù)學與計算機和生命科學的結合)應用到揭示解決人類的健康上去,我們還有一段路要走,目前我們至少可以確定,這條路的基本方向是對的。
十年前我們分析基因芯片表達數(shù)據(jù),十年后我們分析單細胞轉錄組表達譜;十年前我們分析SNP和MiRNA,十年后我們分析ecDNA;十年前我們摸索著前進,十年后我們滿懷憧憬。
十年間,我們看到生物信息在測序方法,數(shù)據(jù)庫建設,數(shù)據(jù)挖掘算法與軟件等方面都有新的發(fā)展。2010-2020這十年依然是后基因組時代,后功能基因組時代。如今,我們可以在單個細胞水平上來分析DNA(基因組),RNA(轉錄組),蛋白質(組)及其互作。如果說十九世紀末二十世紀初,以細胞病理學為基礎的醫(yī)學模式,開始向分子醫(yī)學轉變。那么,隨著單細胞技術的成熟,在生命科學的信息流中,分子醫(yī)學(DNA,RNA,蛋白)將被單細胞統(tǒng)一起來,走向組織,器官(圖譜),個體(精準醫(yī)療),群體(免疫)。
生物信息正在慢慢成為人類健康管理的技術基礎。
本文參考了以下鏈接:
生物信息學國內學者TOPs【歡迎交流】
走在時代前沿的女科學家 ——記我國著名生物信息學家李霞教授
生物信息學專業(yè)就業(yè)方向
http://snap.stanford.edu/deepnetbio-ismb/ipynb/Human+Disease+Network.html
http://www.biols.cas.cn/xwdt/gsdt/201904/t20190419_5277844.html