介紹

基因表達(dá)(gene expression)** 是指將來(lái)自基因的遺傳信息合成功能性基因產(chǎn)物的過(guò)程。

基因表達(dá)產(chǎn)物通常是蛋白質(zhì)，但是非蛋白質(zhì)編碼基因如轉(zhuǎn)移RNA（tRNA）或小核RNA（snRNA）基因的表達(dá)產(chǎn)物是功能性RNA。

所有已知的生命，無(wú)論是真核生物（包括多細(xì)胞生物）、原核生物（細(xì)菌和古細(xì)菌）或病毒，都利用基因表達(dá)來(lái)合成生命的大分子。

基因編碼并可用于合成蛋白質(zhì)，這個(gè)過(guò)程稱為基因表達(dá)。

在像人類這樣的高等生物中，根據(jù)細(xì)胞類型（神經(jīng)細(xì)胞或心臟細(xì)胞）、環(huán)境和疾病狀況等各種因素，數(shù)以千計(jì)的基因以不同的量一起表達(dá)。

例如，不同類型的癌癥在人類中引起不同的基因表達(dá)模式。可以使用微陣列( Microarray )技術(shù)研究不同條件下的這些不同基因的表達(dá)模式。

微陣列和基因表達(dá)譜

來(lái)自微陣列的數(shù)據(jù)可以想象為矩陣或網(wǎng)格，矩陣中的每個(gè)單元格對(duì)應(yīng)于特定條件下的基因表達(dá)值。

如下圖所示，矩陣的每一行對(duì)應(yīng)一個(gè)基因 g_i ，每一列對(duì)應(yīng)一個(gè)條件/樣本 s_i

在這里插入圖片描述

人類有大約 20,000 個(gè)表達(dá)基因，假設(shè)我們想知道它們的表達(dá)模式，即在不同類型的人類癌癥下哪些基因產(chǎn)生更高或更低水平的蛋白質(zhì)。

另外，假設(shè)已知有 20 種人類癌癥，那么微陣列基因表達(dá)矩陣的結(jié)果就有 20,000 行對(duì)應(yīng)基因，20 列對(duì)應(yīng)于 20 種癌癥。

基因表達(dá)聚類

分析基因表達(dá)數(shù)據(jù)的第一步是在經(jīng)典數(shù)據(jù)挖掘中對(duì)基因或樣本進(jìn)行聚類。
可以根據(jù)基因在所有條件下的表達(dá)模式對(duì)基因進(jìn)行聚類，并且可以使用所有基因的基因表達(dá)模式對(duì)樣本進(jìn)行聚類。

關(guān)于聚類問(wèn)題

對(duì)于基因聚類，數(shù)據(jù)點(diǎn)是基因，特征是所有樣本的表達(dá)值。
因此，在針對(duì)癌癥示例的基因聚類中，將聚類 20,000 個(gè)數(shù)據(jù)點(diǎn)( data-points )，每個(gè)點(diǎn)具有 20 個(gè)維度。

聚類基因表達(dá)數(shù)據(jù)提供了對(duì)基因共調(diào)控(co-regulation)和基因細(xì)胞功能的重要見(jiàn)解。
聚集在一起的基因在所有樣本中具有相似的表達(dá)模式，這可能表明這些基因的共同調(diào)控。
此外，來(lái)自同一簇的基因可能執(zhí)行類似的細(xì)胞功能，這有助于注釋新發(fā)現(xiàn)的基因。

相反，對(duì)于樣本聚類，樣本是使用跨所有基因的基因表達(dá)量作為特征進(jìn)行聚類的數(shù)據(jù)點(diǎn)。由此將聚類 20 個(gè)數(shù)據(jù)點(diǎn)，每個(gè)點(diǎn)具有 20,000 個(gè)維度。

下面，我們將討論執(zhí)行聚類的不同方法

Llyod's
K-均值聚類 ( K-means clustering )
層次聚類 ( Hierarchical Clustering )

鄰近計(jì)算

鄰近計(jì)算(Proximity calculation)**
用于聚類的數(shù)據(jù)點(diǎn)之間的距離或接近度很重要，因?yàn)樗芯垲愃惴ǖ墓ぷ髟矶际菍⒔c(diǎn)聚集在一個(gè)聚類中。

使用 Pearson 相關(guān)系數(shù)中的特征計(jì)算數(shù)據(jù)點(diǎn) O_i 和 O_j 之間距離的有效措施之一：

Pearson( $O_i$ , $O_j$ ) = $\frac {\sum_{d=1}^p(O_{id} - \mu_{oi} )(O_{jd} - \mu_{oj} )}{\sqrt {\sum_{d=1}^p(O_{id} - \mu_{oi})^2} \sqrt {\sum^p_{d=1}(O_{jd} - \mu_{oj}^2)} }$

K均值聚類

k均值聚類算法(k-means clustering algorithm)**
是一種迭代求解的聚類分析算法。屬于無(wú)監(jiān)督學(xué)習(xí)算法。

步驟:
預(yù)將數(shù)據(jù)分為K組，則隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心，然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離，把每個(gè)對(duì)象分配給距離它最近的聚類中心。

聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。每分配一個(gè)樣本，聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過(guò)程將不斷重復(fù)直到滿足某個(gè)終止條件。

以下是一個(gè)二維數(shù)據(jù)。通過(guò)查看散點(diǎn)圖，數(shù)據(jù)似乎包含 3 個(gè)不同的聚類。
因此，我們將任意發(fā)起 3 個(gè)聚類質(zhì)心(cluster centroids)或聚類中心(cluster centers)。由于我們還沒(méi)有任何聚類，這些質(zhì)心(centroids)是空間中的任意點(diǎn)。

在這里插入圖片描述

然后，我們計(jì)算所有點(diǎn)與 3 個(gè)質(zhì)心的距離，并將這些點(diǎn)分配到它們最近的聚類。然后，我們使用聚類中分配的點(diǎn)重新計(jì)算質(zhì)心。

聚類中心只是聚類中所有點(diǎn)的平均值。

在這里插入圖片描述

重新計(jì)算點(diǎn)與 3 個(gè)新分配的質(zhì)心的距離，并將這些點(diǎn)重新分配到它們最近的聚類。
在點(diǎn)被重新分配到它們最近的聚類后，重新計(jì)算聚類中心。

在這里插入圖片描述

重復(fù)上述步驟直到中心點(diǎn)收斂(convergence)，基本上不在發(fā)生變化或滿足精度為止。

在這里插入圖片描述

層次聚類

層次聚類(Hierarchical Clustering)**
是一種漸進(jìn)式聚類技術(shù)，它從小簇開(kāi)始，逐漸將密切相關(guān)的小簇合并成更大的簇，直到只剩下一個(gè)大簇為止。

相對(duì)于 K-means 的最大優(yōu)勢(shì)之一是層次聚類不必預(yù)先定義聚類的數(shù)量。相反，可以在聚類過(guò)程完成后推斷最佳聚類數(shù)。

使用以下包含 25 個(gè)數(shù)據(jù)點(diǎn)的二維數(shù)據(jù)仔細(xì)研究層次聚類算法

在這里插入圖片描述

將每個(gè)點(diǎn)分配給它自己的單個(gè)簇，即有 25 個(gè)簇，每個(gè)簇包含 1 個(gè)點(diǎn)。
然后，計(jì)算每個(gè)聚類中心點(diǎn)。
計(jì)算所有的質(zhì)心距離并將兩個(gè)簇連接到一個(gè)質(zhì)心最近的新簇中。重新計(jì)算新形成的簇的質(zhì)心。

在這里插入圖片描述

迭代 1

再次計(jì)算所有的質(zhì)心距離，并檢測(cè)最近的兩個(gè)簇并將其連接到一個(gè)新簇中。重新計(jì)算新簇的質(zhì)心。

在這里插入圖片描述

迭代 2

重復(fù)3個(gè)步驟，計(jì)算所有的質(zhì)心距離，合并2個(gè)最近的簇，重新計(jì)算新形成的簇的質(zhì)心，直到只得到一個(gè)包含所有25個(gè)數(shù)據(jù)點(diǎn)的大簇（收斂）。

在這里插入圖片描述

動(dòng)圖展示

[圖片上傳失敗...(image-79b9d0-1638339563655)]

整個(gè)層次聚類過(guò)程可以使用如下所示的樹(shù)狀圖進(jìn)行可視化，其中分叉樹(shù)的葉節(jié)點(diǎn)是數(shù)據(jù)點(diǎn)，內(nèi)部節(jié)點(diǎn)顯示執(zhí)行的每個(gè)合并步驟。

在這里插入圖片描述

左側(cè)的高度比例顯示了聚類合并的距離
最低的內(nèi)部節(jié)點(diǎn)距離很小，表明最近的簇或點(diǎn)首先被合并。
最高的內(nèi)部節(jié)點(diǎn)距離很遠(yuǎn)，表示相距很遠(yuǎn)的點(diǎn)或簇以最高距離連接到一個(gè)簇中。

實(shí)際的聚類解決方案是通過(guò)在指定距離截止點(diǎn)處跨聚類樹(shù)狀圖繪制一條水平線來(lái)獲得的。

簇?cái)?shù)等于水平切割線遇到的交點(diǎn)數(shù)。
例如，在距離截止值(distance cutoff)=60 處繪制的紅色水平線為 25 個(gè)數(shù)據(jù)點(diǎn)定義了 3 個(gè)clusters。

例子

一個(gè)例子顯示了通過(guò)基因表達(dá)數(shù)據(jù)的層次聚類識(shí)別的不同類型的彌漫型B大細(xì)胞淋巴瘤(diffuse large B-cell lymphoma)。

根據(jù)確定的不同類型，我們對(duì)癌癥預(yù)期如何發(fā)展的估計(jì)會(huì)有所不同，并且還可能導(dǎo)致處方治療的差異。

在這里插入圖片描述

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基因表達(dá)數(shù)據(jù)的聚類分析方法

基因表達(dá)數(shù)據(jù)的聚類分析方法

介紹

微陣列和基因表達(dá)譜

基因表達(dá)聚類

鄰近計(jì)算

K均值聚類

層次聚類

例子

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基因表達(dá)數(shù)據(jù)的聚類分析方法

介紹

微陣列和基因表達(dá)譜

基因表達(dá)聚類

鄰近計(jì)算

K均值聚類

層次聚類

例子

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av