介紹
基因表達(dá)(gene expression)** 是指將來(lái)自基因的遺傳信息合成功能性基因產(chǎn)物的過(guò)程。
基因表達(dá)產(chǎn)物通常是蛋白質(zhì),但是非蛋白質(zhì)編碼基因如轉(zhuǎn)移RNA(tRNA)或小核RNA(snRNA)基因的表達(dá)產(chǎn)物是功能性RNA。
所有已知的生命,無(wú)論是真核生物(包括多細(xì)胞生物)、原核生物(細(xì)菌和古細(xì)菌)或病毒,都利用基因表達(dá)來(lái)合成生命的大分子。
基因編碼并可用于合成蛋白質(zhì),這個(gè)過(guò)程稱為基因表達(dá)。
在像人類這樣的高等生物中,根據(jù)細(xì)胞類型(神經(jīng)細(xì)胞或心臟細(xì)胞)、環(huán)境和疾病狀況等各種因素,數(shù)以千計(jì)的基因以不同的量一起表達(dá)。
例如,不同類型的癌癥在人類中引起不同的基因表達(dá)模式。可以使用微陣列( Microarray )技術(shù)研究不同條件下的這些不同基因的表達(dá)模式。
微陣列和基因表達(dá)譜
來(lái)自微陣列的數(shù)據(jù)可以想象為矩陣或網(wǎng)格,矩陣中的每個(gè)單元格對(duì)應(yīng)于特定條件下的基因表達(dá)值。
如下圖所示,矩陣的每一行對(duì)應(yīng)一個(gè)基因 gi ,每一列對(duì)應(yīng)一個(gè)條件/樣本 si
人類有大約 20,000 個(gè)表達(dá)基因,假設(shè)我們想知道它們的表達(dá)模式,即在不同類型的人類癌癥下哪些基因產(chǎn)生更高或更低水平的蛋白質(zhì)。
另外,假設(shè)已知有 20 種人類癌癥,那么微陣列基因表達(dá)矩陣的結(jié)果就有 20,000 行對(duì)應(yīng)基因,20 列對(duì)應(yīng)于 20 種癌癥。
基因表達(dá)聚類
分析基因表達(dá)數(shù)據(jù)的第一步是在經(jīng)典數(shù)據(jù)挖掘中對(duì)基因或樣本進(jìn)行聚類。
可以根據(jù)基因在所有條件下的表達(dá)模式對(duì)基因進(jìn)行聚類,并且可以使用所有基因的基因表達(dá)模式對(duì)樣本進(jìn)行聚類。
關(guān)于聚類問(wèn)題
對(duì)于基因聚類,數(shù)據(jù)點(diǎn)是基因,特征是所有樣本的表達(dá)值。
因此,在針對(duì)癌癥示例的基因聚類中,將聚類 20,000 個(gè)數(shù)據(jù)點(diǎn)( data-points ),每個(gè)點(diǎn)具有 20 個(gè)維度。
聚類基因表達(dá)數(shù)據(jù)提供了對(duì)基因共調(diào)控(co-regulation)和基因細(xì)胞功能的重要見(jiàn)解。
聚集在一起的基因在所有樣本中具有相似的表達(dá)模式,這可能表明這些基因的共同調(diào)控。
此外,來(lái)自同一簇的基因可能執(zhí)行類似的細(xì)胞功能,這有助于注釋新發(fā)現(xiàn)的基因。
相反,對(duì)于樣本聚類,樣本是使用跨所有基因的基因表達(dá)量作為特征進(jìn)行聚類的數(shù)據(jù)點(diǎn)。由此將聚類 20 個(gè)數(shù)據(jù)點(diǎn),每個(gè)點(diǎn)具有 20,000 個(gè)維度。
下面,我們將討論執(zhí)行聚類的不同方法
- Llyod's
- K-均值聚類 ( K-means clustering )
- 層次聚類 ( Hierarchical Clustering )
鄰近計(jì)算
鄰近計(jì)算(Proximity calculation)**
用于聚類的數(shù)據(jù)點(diǎn)之間的距離或接近度很重要,因?yàn)樗芯垲愃惴ǖ墓ぷ髟矶际菍⒔c(diǎn)聚集在一個(gè)聚類中。
使用 Pearson 相關(guān)系數(shù)中的特征計(jì)算數(shù)據(jù)點(diǎn) Oi 和 Oj 之間距離的有效措施之一:
Pearson(,
) =
K均值聚類
k均值聚類算法(k-means clustering algorithm)**
是一種迭代求解的聚類分析算法。屬于無(wú)監(jiān)督學(xué)習(xí)算法。
步驟:
預(yù)將數(shù)據(jù)分為K組,則隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心,然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。
聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本,聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過(guò)程將不斷重復(fù)直到滿足某個(gè)終止條件。
以下是一個(gè)二維數(shù)據(jù)。通過(guò)查看散點(diǎn)圖,數(shù)據(jù)似乎包含 3 個(gè)不同的聚類。
因此,我們將任意發(fā)起 3 個(gè)聚類質(zhì)心(cluster centroids)或聚類中心(cluster centers)。由于我們還沒(méi)有任何聚類,這些質(zhì)心(centroids)是空間中的任意點(diǎn)。
然后,我們計(jì)算所有點(diǎn)與 3 個(gè)質(zhì)心的距離,并將這些點(diǎn)分配到它們最近的聚類。然后,我們使用聚類中分配的點(diǎn)重新計(jì)算質(zhì)心。
聚類中心只是聚類中所有點(diǎn)的平均值。
重新計(jì)算點(diǎn)與 3 個(gè)新分配的質(zhì)心的距離,并將這些點(diǎn)重新分配到它們最近的聚類。
在點(diǎn)被重新分配到它們最近的聚類后,重新計(jì)算聚類中心。
重復(fù)上述步驟直到中心點(diǎn)收斂(convergence),基本上不在發(fā)生變化或滿足精度為止。
層次聚類
層次聚類(Hierarchical Clustering)**
是一種漸進(jìn)式聚類技術(shù),它從小簇開(kāi)始,逐漸將密切相關(guān)的小簇合并成更大的簇,直到只剩下一個(gè)大簇為止。
相對(duì)于 K-means 的最大優(yōu)勢(shì)之一是層次聚類不必預(yù)先定義聚類的數(shù)量。相反,可以在聚類過(guò)程完成后推斷最佳聚類數(shù)。
使用以下包含 25 個(gè)數(shù)據(jù)點(diǎn)的二維數(shù)據(jù)仔細(xì)研究層次聚類算法
將每個(gè)點(diǎn)分配給它自己的單個(gè)簇,即有 25 個(gè)簇,每個(gè)簇包含 1 個(gè)點(diǎn)。
然后,計(jì)算每個(gè)聚類中心點(diǎn)。
計(jì)算所有的質(zhì)心距離并將兩個(gè)簇連接到一個(gè)質(zhì)心最近的新簇中。重新計(jì)算新形成的簇的質(zhì)心。
迭代 1
再次計(jì)算所有的質(zhì)心距離,并檢測(cè)最近的兩個(gè)簇并將其連接到一個(gè)新簇中。重新計(jì)算新簇的質(zhì)心。
迭代 2
重復(fù)3個(gè)步驟,計(jì)算所有的質(zhì)心距離,合并2個(gè)最近的簇,重新計(jì)算新形成的簇的質(zhì)心,直到只得到一個(gè)包含所有25個(gè)數(shù)據(jù)點(diǎn)的大簇(收斂)。
動(dòng)圖展示
[圖片上傳失敗...(image-79b9d0-1638339563655)]
整個(gè)層次聚類過(guò)程可以使用如下所示的樹(shù)狀圖進(jìn)行可視化,其中分叉樹(shù)的葉節(jié)點(diǎn)是數(shù)據(jù)點(diǎn),內(nèi)部節(jié)點(diǎn)顯示執(zhí)行的每個(gè)合并步驟。
左側(cè)的高度比例顯示了聚類合并的距離
最低的內(nèi)部節(jié)點(diǎn)距離很小,表明最近的簇或點(diǎn)首先被合并。
最高的內(nèi)部節(jié)點(diǎn)距離很遠(yuǎn),表示相距很遠(yuǎn)的點(diǎn)或簇以最高距離連接到一個(gè)簇中。
實(shí)際的聚類解決方案是通過(guò)在指定距離截止點(diǎn)處跨聚類樹(shù)狀圖繪制一條水平線來(lái)獲得的。
簇?cái)?shù)等于水平切割線遇到的交點(diǎn)數(shù)。
例如,在距離截止值(distance cutoff)=60 處繪制的紅色水平線為 25 個(gè)數(shù)據(jù)點(diǎn)定義了 3 個(gè)clusters。
例子
一個(gè)例子顯示了通過(guò)基因表達(dá)數(shù)據(jù)的層次聚類識(shí)別的不同類型的彌漫型B大細(xì)胞淋巴瘤(diffuse large B-cell lymphoma)。
根據(jù)確定的不同類型,我們對(duì)癌癥預(yù)期如何發(fā)展的估計(jì)會(huì)有所不同,并且還可能導(dǎo)致處方治療的差異。