接著day49
一、看看整體表達(dá)情況
原始矩陣為變量exprSet,是從txt文件讀入得到的數(shù)據(jù)框
歸一化后矩陣為變量exprSet_new,用DESeq2進(jìn)行歸一化后計(jì)算而來(lái),是數(shù)值型矩陣。從下面class()命令可以看出兩個(gè)變量屬性不同。
class(exprSet)
[1] "data.frame"
class(exprSet_new)
[1] "matrix" "array"
exprSet<-as.matrix(exprSet) #把data.frame格式轉(zhuǎn)唯matix格式
hist(exprSet)
hist(exprSet_new)
說(shuō)明
hist() 用來(lái)做直方圖(柱形圖),如果是一列數(shù)據(jù),就會(huì)畫成從小到大那樣的柱子。是一個(gè)矩陣,就把全部數(shù)據(jù)按照大小和頻率列成柱形圖??梢钥闯鰵w一化后的數(shù)據(jù)看著更均勻。


看一下這兩個(gè)矩陣的樣子:(這兩個(gè)矩陣都是把變量用write.csv給導(dǎo)出的。)


二、看看不同樣本之間表達(dá)情況:
par(cex = 0.7) #指定符號(hào)的大小
par(mar=c(10, 5, 5, 5))
n.sample=ncol(exprSet) #樣本數(shù)
if(n.sample>40) par(cex = 0.5)
n.sample=ncol(exprSet)#樣本數(shù)
cols <- rainbow(n.sample*1.2)
boxplot(exprSet, col = cols,main="expression value",las=2)
boxplot(exprSet_new, col = cols,main="expression value",las=2)
說(shuō)明
par函數(shù)cex參數(shù)是用來(lái)控制文字和點(diǎn)的大小。cex參數(shù)大了表明散點(diǎn)圖里的點(diǎn)和各種文字部分的字體都大,比如上面命令中設(shè)定為0.7,在樣本很多的時(shí)候要縮小些字體,所以有了>40,改為0.5這個(gè)命令行。
cex對(duì)所有的文字進(jìn)行統(tǒng)一設(shè)置外,針對(duì)不同的標(biāo)題,還有對(duì)應(yīng)的cex系列參數(shù)的用法很多,比如調(diào)節(jié)主標(biāo)題,副標(biāo)題字體大小,調(diào)節(jié)坐標(biāo)軸的字體大小等,可以看下面鏈接。
參考教程:https://www.bbsmax.com/A/A7zg1Erl54/
而par函數(shù)里的mar參數(shù)則是設(shè)定圖形四周的留空大小。
參考教程:https://www.yht7.com/news/136868


兩個(gè)圖都是箱型圖,可歸一化以后的更好看些,在有些測(cè)序結(jié)果里看到過(guò),主要是看各個(gè)樣本表達(dá)水平有沒有大的不同。如果某個(gè)樣本比別人差太多,那就是有問(wèn)題,還有可能是這個(gè)細(xì)胞有什么特殊處理。
原始數(shù)據(jù)那個(gè)圖太丑了。。
三、查看單一基因在組間差異
plotCounts(dds2, "CD38", intgroup = "group_list") #把前面dds2中的nomalization之后的某個(gè)特定基因表達(dá)水平展示出來(lái)。
說(shuō)明
plotCounts也是DESeq2包中的一個(gè)命令,dds是DESeqDataSet., gene是一個(gè)特殊基因名稱,intgroup:在colData(x)中,用于進(jìn)行分組的名稱。

如果有很多想看的基因,可以批量執(zhí)行。
sigGene= read.csv('treat_vs_con_sig.csv',row.names=1) #讀取文件
for(i in rownames(sigGene)){
genename=paste(i,sep="") #基因名
pdf(file=paste(i,'_counts.pdf',sep="")) #以pdf格式輸出
plotCounts(dds2, genename, intgroup = "group_list")
dev.off() #不在Rstudio里輸出,直接保存在當(dāng)前工作路徑下
}
很快就在工作目錄下生成了這么多文件。

挑一個(gè)打開看看。這個(gè)數(shù)值是歸一化后的counts值,找來(lái)表格里的數(shù)對(duì)照一下,還真沒錯(cuò)。如果樣本多一些,畫的散點(diǎn)圖應(yīng)該挺好看的。


上面這個(gè)表里的數(shù)是log2之后的,所以原來(lái)的數(shù)據(jù)要用2(x)來(lái)計(jì)算一下。比如那個(gè)9.479736的,轉(zhuǎn)成2(9.479736)=713.9781。
三、PCA聚類
tiff(filename = "PCA.tiff", width = 1500, height = 1500, units = "px", res = 150)
plotPCA(rld, intgroup="group_list")
dev.off() #不在Rstudio里輸出,直接保存在當(dāng)前工作路徑下這個(gè)PCA.tiff文件了
