森嚴(yán)森語(yǔ):
生活中很多時(shí)候我都習(xí)慣于不知所以而為之,其結(jié)果通常壞。原因在于經(jīng)常的盲目自信和偶爾不愿承認(rèn)自己的無(wú)知。
上篇推文介紹了利用Origin繪制熱圖的方法,推文一經(jīng)發(fā)出,我就察覺(jué)到這是極其草率的。原因在于我自己壓根兒還沒(méi)有搞清楚熱圖的來(lái)龍去脈,就拿一堆亂七八糟的數(shù)據(jù)亂搞一通。
我覺(jué)得草率,還有幾點(diǎn):
于是,這兩天就試圖寫(xiě)一篇關(guān)于熱圖細(xì)節(jié)性問(wèn)題的推文,以期擴(kuò)展對(duì)熱圖的認(rèn)知。
事先說(shuō)好,這篇推文可能還是不能說(shuō)的很清楚。因?yàn)橄旅娴挠行┯^(guān)點(diǎn)我沒(méi)有去找源頭。
【進(jìn)入正題】
先上一組數(shù)據(jù)。還是使用上篇推文中的數(shù)據(jù)。

先不著急可視化,先來(lái)想一個(gè)問(wèn)題,這個(gè)數(shù)據(jù)是什么呢?
因?yàn)槲艺襾?lái)的數(shù)據(jù),我肯定知道這是tpm值。先不管什么是tpm值。
再想一個(gè)問(wèn)題,tpm能不能直接拿來(lái)做熱圖?如果不能直接拿來(lái)用,要進(jìn)行怎樣的處理?
此時(shí)顯然還不能回答這樣的問(wèn)題。
【基本的認(rèn)知】
不管上面的數(shù)據(jù)到底是什么,都知道這些數(shù)據(jù)來(lái)自于RNA-Seq,那就先來(lái)想為什么要做RNA-Seq?
這個(gè)問(wèn)題比較好回答。
當(dāng)條銹菌侵染小麥后會(huì)出現(xiàn)表型的變化。這時(shí),我們會(huì)以常理推測(cè)表型出現(xiàn)變化,很大程度上是由于小麥被條銹菌侵染后,小麥的某些蛋白含量出現(xiàn)了變化,而影響蛋白含量變化的直接原因就是來(lái)自基因表達(dá)的變化。于是,我們就要想辦法測(cè)量小麥被條銹菌侵染后小麥全部基因表達(dá)變化的基因列表。
這就需要進(jìn)行RNA-Seq了。
【RNA-Seq】
RNA-Seq之后,通常會(huì)得到count和tpm值。較早些時(shí)候進(jìn)行RNA-Seq后,可能會(huì)得到除了count之外的FPKM值或RPKM值。
這里長(zhǎng)話(huà)短說(shuō)。
實(shí)際上RNA-Seq之后并不會(huì)直接得到FPKM值、RPKM值或tpm值。那為什么會(huì)有這些值出現(xiàn)呢?
思考一個(gè)問(wèn)題:
gene1有1000條測(cè)序reads,gene2有10000條測(cè)序reads,那么是不是可以說(shuō)gene2的表達(dá)量一定比gene1高?
顯然,沒(méi)那么簡(jiǎn)單。至少我們可以考慮到造成這種情況的一部分原因在于gene1和gene2的長(zhǎng)度不一樣,此時(shí),就需要對(duì)mapping到gene的reads count進(jìn)行矯正。
再思考一個(gè)問(wèn)題:
gene1有1000條測(cè)序reads,條銹菌侵染后gene1有2000條測(cè)序reads,那么是不是可以說(shuō)gene1的表達(dá)量在條銹菌侵染后發(fā)生了變化呢?
至少這個(gè)時(shí)候就需要考慮整體測(cè)序量的問(wèn)題,同樣需要矯正。
至此,就產(chǎn)生了FPKM值、RPKM值或tpm值。
【FPKM值、RPKM值或tpm值的概念】
RPKM:Reads Per Kilobase per Million
FPKM:Fragments Per Kilobase per Million
TPM:Transcripts Per Kilobase Million
這里具體的理解和推導(dǎo)就不重復(fù)了,感興趣的可以去下面鏈接仔細(xì)查看。
https://zhuanlan.zhihu.com/p/325902055
https://zhuanlan.zhihu.com/p/38536790
https://zhuanlan.zhihu.com/p/50811365
https://www.plob.org/article/16013.html
https://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/
http://www.itdecent.cn/p/cecc5bc62105
(部分內(nèi)容參考以上來(lái)源)
扯的有點(diǎn)遠(yuǎn)。
FPKM、RPKM和TPM都是對(duì)數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化之后的數(shù)值。目前來(lái)說(shuō),主流使用TPM值。具體的答案可在上面的鏈接中尋找。
【回歸主題】
迫不及待就像作圖,已經(jīng)知道,上述我展示的數(shù)據(jù)就是經(jīng)過(guò)標(biāo)準(zhǔn)化的tpm值了,這個(gè)值是可以直接拿來(lái)熱圖可視化的。話(huà)不多說(shuō),直接出圖。

這個(gè)結(jié)果其實(shí)還蠻不錯(cuò)。乍一看感覺(jué)挺像那么回事。但是仔細(xì)一看,還是存在一些問(wèn)題。這么看可能不是很明顯。我們換種效果再看。

可以很直觀(guān)的發(fā)現(xiàn),圖中紅色圈內(nèi)和綠色圈內(nèi)的tpm值命名相差很大,但是在顏色上很難區(qū)分,這就沒(méi)有達(dá)到我們要進(jìn)行比較的目的。
而且這種情況通常很難避免。這時(shí)候就需要在tpm的基礎(chǔ)上進(jìn)一步處理。之所以可以對(duì)tpm值進(jìn)行進(jìn)一步處理,是因?yàn)楦嗟臅r(shí)候我們并不關(guān)心基因表達(dá)量的高低,我們更關(guān)心的是類(lèi)似小麥gene1在pst侵染之后表達(dá)趨勢(shì)的問(wèn)題。
通常我們會(huì)對(duì)tpm值進(jìn)行取對(duì)數(shù)、正態(tài)標(biāo)準(zhǔn)化和0-1標(biāo)準(zhǔn)化。
【對(duì)數(shù)轉(zhuǎn)換】
取對(duì)數(shù)時(shí),我們經(jīng)常在論文中看到log2(tpm+1),實(shí)質(zhì)上這個(gè)底數(shù)我們可以取2,也可以取e或10.?
之所以不用log2(tpm)是因?yàn)楹芏鄷r(shí)候我們得到不少基因在某些sample中沒(méi)有表達(dá),即tpm值為0,而對(duì)數(shù)的真數(shù)不能為0,于是,一般的,我們會(huì)進(jìn)行l(wèi)og2(tpm+1)來(lái)處理。
這里我分別取底數(shù)為2和10來(lái)看看。

底數(shù)取2或10似乎沒(méi)什么變化,但是可以很明顯的看到剛才紅色圈和綠色圈內(nèi)的色差很容易區(qū)分了。

這樣就達(dá)到目的了。
需要思考一個(gè)問(wèn)題:
此時(shí),同一gene在不同sample間,或者同一sample中不同gene的表達(dá)量是否可以比較?
【正態(tài)標(biāo)準(zhǔn)化】
這里通常需要思考,要進(jìn)行行標(biāo)準(zhǔn)化還是列標(biāo)準(zhǔn)化?很顯然,行標(biāo)準(zhǔn)化與列標(biāo)準(zhǔn)化是不同的。
行標(biāo)準(zhǔn)化后,可以比較每個(gè)gene在不同sample中的表達(dá)情況。但,行與行之間絕對(duì)數(shù)值不能再進(jìn)行比較了。
列標(biāo)準(zhǔn)化后,可以比較每個(gè)sample中不同gene的表達(dá)情況。但,列與列之間絕對(duì)數(shù)值不能再進(jìn)行比較了。
不過(guò),不管進(jìn)行列標(biāo)準(zhǔn)化還是行標(biāo)準(zhǔn)化,表達(dá)趨勢(shì)是可以在跨行列進(jìn)行比較的。通過(guò)下圖來(lái)體會(huì)一下。

【0-1標(biāo)準(zhǔn)化】
0-1標(biāo)準(zhǔn)化和正態(tài)標(biāo)準(zhǔn)化類(lèi)似,同樣,通過(guò)下圖進(jìn)行體會(huì)。

能發(fā)現(xiàn)什么呢?
對(duì)行進(jìn)行0-1標(biāo)準(zhǔn)化后,使得每一行表達(dá)量最高值為1,最低值為0;
對(duì)列進(jìn)行0-1標(biāo)準(zhǔn)化后,使得每一列表達(dá)量最高值為1,最低值為0。
【聚類(lèi)】
對(duì)tpm值進(jìn)行以上三種方式的轉(zhuǎn)換之后,使得可視化效果極大地改善,但是,有時(shí)為了對(duì)表達(dá)模式進(jìn)一步分析,就需要聚類(lèi)分析,以便通過(guò)熱圖可視化挑選最優(yōu)的候選基因進(jìn)行后續(xù)研究。那就聚類(lèi)看看

可以看到,通過(guò)行聚類(lèi),將表達(dá)趨勢(shì)相似的行聚類(lèi)到一起,這樣看起來(lái)就更舒服了。
先寫(xiě)到這里,關(guān)于熱圖,以后應(yīng)該還會(huì)寫(xiě)。
-----------“但愿每次回憶,對(duì)生活都不感到負(fù)疚?!?----------