day50 轉(zhuǎn)錄組 差異基因可視化

接著day49

一、看看整體表達(dá)情況

原始矩陣為變量exprSet,是從txt文件讀入得到的數(shù)據(jù)框
歸一化后矩陣為變量exprSet_new,用DESeq2進(jìn)行歸一化后計(jì)算而來(lái),是數(shù)值型矩陣。從下面class()命令可以看出兩個(gè)變量屬性不同。

class(exprSet) 
[1] "data.frame"
 class(exprSet_new) 
[1] "matrix" "array" 
exprSet<-as.matrix(exprSet) #把data.frame格式轉(zhuǎn)唯matix格式
hist(exprSet)
hist(exprSet_new)

說(shuō)明
hist() 用來(lái)做直方圖(柱形圖),如果是一列數(shù)據(jù),就會(huì)畫成從小到大那樣的柱子。是一個(gè)矩陣,就把全部數(shù)據(jù)按照大小和頻率列成柱形圖??梢钥闯鰵w一化后的數(shù)據(jù)看著更均勻。

image.png

image.png

看一下這兩個(gè)矩陣的樣子:(這兩個(gè)矩陣都是把變量用write.csv給導(dǎo)出的。)
image.png
image.png

二、看看不同樣本之間表達(dá)情況:

par(cex = 0.7) #指定符號(hào)的大小
par(mar=c(10, 5, 5, 5))
n.sample=ncol(exprSet) #樣本數(shù)
if(n.sample>40) par(cex = 0.5)
n.sample=ncol(exprSet)#樣本數(shù)
cols <- rainbow(n.sample*1.2)
boxplot(exprSet, col = cols,main="expression value",las=2)
boxplot(exprSet_new, col = cols,main="expression value",las=2)

說(shuō)明
par函數(shù)cex參數(shù)是用來(lái)控制文字和點(diǎn)的大小。cex參數(shù)大了表明散點(diǎn)圖里的點(diǎn)和各種文字部分的字體都大,比如上面命令中設(shè)定為0.7,在樣本很多的時(shí)候要縮小些字體,所以有了>40,改為0.5這個(gè)命令行。
cex對(duì)所有的文字進(jìn)行統(tǒng)一設(shè)置外,針對(duì)不同的標(biāo)題,還有對(duì)應(yīng)的cex系列參數(shù)的用法很多,比如調(diào)節(jié)主標(biāo)題,副標(biāo)題字體大小,調(diào)節(jié)坐標(biāo)軸的字體大小等,可以看下面鏈接。
參考教程:https://www.bbsmax.com/A/A7zg1Erl54/
而par函數(shù)里的mar參數(shù)則是設(shè)定圖形四周的留空大小。
參考教程:https://www.yht7.com/news/136868

image.png

image.png

兩個(gè)圖都是箱型圖,可歸一化以后的更好看些,在有些測(cè)序結(jié)果里看到過(guò),主要是看各個(gè)樣本表達(dá)水平有沒有大的不同。如果某個(gè)樣本比別人差太多,那就是有問(wèn)題,還有可能是這個(gè)細(xì)胞有什么特殊處理。
原始數(shù)據(jù)那個(gè)圖太丑了。。

三、查看單一基因在組間差異

plotCounts(dds2, "CD38", intgroup = "group_list") #把前面dds2中的nomalization之后的某個(gè)特定基因表達(dá)水平展示出來(lái)。

說(shuō)明
plotCounts也是DESeq2包中的一個(gè)命令,dds是DESeqDataSet., gene是一個(gè)特殊基因名稱,intgroup:在colData(x)中,用于進(jìn)行分組的名稱。

image.png

如果有很多想看的基因,可以批量執(zhí)行。

sigGene= read.csv('treat_vs_con_sig.csv',row.names=1) #讀取文件
for(i in rownames(sigGene)){
genename=paste(i,sep="") #基因名
pdf(file=paste(i,'_counts.pdf',sep="")) #以pdf格式輸出
plotCounts(dds2, genename, intgroup = "group_list")
dev.off() #不在Rstudio里輸出,直接保存在當(dāng)前工作路徑下
}

很快就在工作目錄下生成了這么多文件。


image.png

挑一個(gè)打開看看。這個(gè)數(shù)值是歸一化后的counts值,找來(lái)表格里的數(shù)對(duì)照一下,還真沒錯(cuò)。如果樣本多一些,畫的散點(diǎn)圖應(yīng)該挺好看的。

image.png
image.png

上面這個(gè)表里的數(shù)是log2之后的,所以原來(lái)的數(shù)據(jù)要用2(x)來(lái)計(jì)算一下。比如那個(gè)9.479736的,轉(zhuǎn)成2(9.479736)=713.9781。

三、PCA聚類

tiff(filename = "PCA.tiff", width = 1500, height = 1500, units = "px", res = 150)
plotPCA(rld, intgroup="group_list")
dev.off() #不在Rstudio里輸出,直接保存在當(dāng)前工作路徑下這個(gè)PCA.tiff文件了
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容