讀《組學(xué)數(shù)據(jù)生物信息學(xué)》|| 淺談面向數(shù)據(jù)庫的數(shù)據(jù)挖掘

單細(xì)胞技術(shù)把組學(xué)拉到了前所未有的分辨率之下,再一次讓我們看到了組學(xué)的希望,也帶來了新的挑戰(zhàn)。新形勢下,我們?nèi)绾螒?yīng)用生物信息學(xué)手段挖掘組學(xué)數(shù)據(jù)呢?這一思考無疑是有意義的,于是,按照慣例,我們需要找到引領(lǐng)我們思考的讀物——《組學(xué)數(shù)據(jù)生物信息學(xué)》。

看這目錄,肯定是值得一讀的了,標(biāo)準(zhǔn)的NGS教科書。買來一看,才知道,除了封面、目錄和前言剩下的都是英文的??简為喿x理解的時候到了。

談?wù)効偟母惺馨桑?/p>

NGS的最明顯的特點是數(shù)據(jù)通量大,產(chǎn)生的速度快。帶來的一個挑戰(zhàn)就是數(shù)據(jù)解釋速度跟不上,所以在NGS的數(shù)據(jù)分析中一個主要的工作就是:注釋(annotation)?;蛐枰⑨專鞍仔枰⑨?,OTU需要注釋;CellType需要注釋。。。注釋的工作是從數(shù)據(jù)到信息,也就是翻譯成人能讀懂的信息。數(shù)據(jù)還有幾個特點:

  • 數(shù)據(jù)庫化
  • 數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)
  • 數(shù)據(jù)管理
  • 分享數(shù)據(jù)

這些在傳統(tǒng)的科研范式下是很少同時面對的。

數(shù)據(jù)的通量高,相應(yīng)的信息也比較復(fù)雜,呈現(xiàn)出網(wǎng)絡(luò)結(jié)構(gòu)。信息又有:

  • 網(wǎng)絡(luò)化
  • 在線信息與本地信息
  • 相關(guān)性(關(guān)聯(lián))
  • 復(fù)雜
  • 共享

我們看到信息的結(jié)構(gòu)不是單一的、線性的,而是呈網(wǎng)狀。這也許是一件好事,但更多的是帶來困惑。在我們不知道的時候,我們渴望知道更多,當(dāng)我們知道一點,就會引發(fā)一連串的想象。

信息太多,我們需要組織起來,形成有規(guī)律的知識。當(dāng)然知識和信息并沒有明確的概念,對A來說是信息,對B來說可能是就知識。這里,知識,有點像我們說的生物學(xué)背景。一般是通路,(基因,蛋白等)調(diào)節(jié)信息,在NGS的分析中,往往對應(yīng)一個基因集(GeneList)。在數(shù)據(jù)挖掘的過程中,我們用各種手段找到基因集,接下來的主要任務(wù)是找到這個基因集的生物學(xué)意義。這些目前也大部分組織起來了,如GO,KEGG這樣的數(shù)據(jù)庫。

我們看到,在這里數(shù)據(jù)分析是DB2DB的,即,數(shù)據(jù)庫到數(shù)據(jù)庫的數(shù)據(jù)挖掘:從數(shù)據(jù)庫里面抓一些數(shù)據(jù),再從數(shù)據(jù)庫里面抓一些注釋,分析一波之后,再往數(shù)據(jù)庫里面上傳一些數(shù)據(jù),再豐富一下注釋數(shù)據(jù)庫。如,在單細(xì)胞數(shù)據(jù)分析中,我們有一下模式(不失一般地):

An era of single-cell genomics consortia

組學(xué)中另一個核心是:整合。整合不同模態(tài)的數(shù)據(jù),RNA,DNA,ATAC,膜蛋白,TF。在歷史上,整合有過和不同的名字:聯(lián)合分析、關(guān)聯(lián)分析,預(yù)測分析。。。

這當(dāng)然是個新的機(jī)會,使得我們可以更全面地觀察生物學(xué)現(xiàn)象,但是這也是一個新的挑戰(zhàn)。雖然我們已經(jīng)知道生命的基本化學(xué)過程:中心法則。然而,我們知道這距離顯示具體情況還很遙遠(yuǎn),一個基因組水平的代謝網(wǎng)絡(luò),目前我們也只能給出概念圖。

Integration of Genome Scale Metabolic Networks and Gene Regulation of Metabolic Enzymes With Physiologically Based Pharmacokinetics

閱讀本書的第三點感受是:知識就像珠穆朗峰,要抵達(dá)那里,不僅需要頑強(qiáng)的意志,也需要精良的裝備。這里說的當(dāng)然是算法了。隨著知識結(jié)構(gòu)的復(fù)雜,緊靠可視化來看是不夠的的,也是看不過來的。如何發(fā)現(xiàn)信息背后的知識?如何尋找新的靶標(biāo)?如何驗證?知識的發(fā)現(xiàn)之旅,何其迷人。有時候竟然有一種,前不見古人,后不見來者,念天地之悠悠的悲愴。也會有空山不見人但聞人語響的欣喜。

以顫抖之軀追趕,懷敬畏之心挑戰(zhàn)。
----《棋魂》


https://book.douban.com/subject/20423280/
https://www.nature.com/articles/s12276-020-0409-x
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5702902/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容