一、箱線圖
箱線圖(boxplot)又稱為盒須圖,是一種描述連續(xù)型變量分布的統(tǒng)計圖,因形狀如箱子而得名。箱線圖提供了一種使用5個點對數(shù)據(jù)集做簡單總結的方式。這5個點包括最小值(minimum)、下四分位數(shù)(第25百分位數(shù),Q1)、中位數(shù)(第50百分位數(shù),Q2)、上四分位數(shù)(第75百分位數(shù),Q3)以及最大值(maximum)。
IQR表示四分位距(interquartile range),即上四分位數(shù)與下四分位數(shù)的差值(Q3 - Q1)。默認情況下,兩條須的延伸極限不會超過矩形盒兩端加1.5倍四分位距的范圍。此范圍以外的值即離群點(outliers)。從矩形盒兩端邊向外各畫一條線段直到不是異常值的最遠點,表示該批數(shù)據(jù)正常值的分布區(qū)間。內(nèi)限即異常值截斷點為Q3 + 1.5 IQR和Q1 - 1.5 IQR,外限為Q3 + 3 IQR和Q1 – 3 IQR。處在內(nèi)限以外位置的點表示的數(shù)據(jù)都是異常值,其中在內(nèi)限與外限之間的異常值為溫和異常值(mild outliers),在外限以外的為極端異常值(extreme outliers)。
小提琴圖是箱線圖的變種,可以當作箱線圖與核密度圖的結合。與箱線圖相比,小提琴圖還可以反映數(shù)值的密度分布范圍。
?二、R Script
(1)基因表達量原始矩陣

(2)數(shù)據(jù)整合,按基因求均值

(3)把寬數(shù)據(jù)變成長數(shù)據(jù)

(4)修改分組名稱

(5)畫箱線圖


(6)分面

(7)小提琴圖


(8)帶散點和凹槽的箱線圖


(9)內(nèi)置箱線圖的小提琴圖


(10)添加顯著性標記的箱線圖
三、條形圖和折線圖
(1)誤差線數(shù)據(jù)
這里使用的是Rmisc包的summarySE函數(shù)。用法為: summarySE(data = NULL, measurevar, groupvars = NULL, na.rm = FALSE, conf.interval = 0.95, .drop = TRUE)?。measurevar是含有測量值數(shù)據(jù)的一列的列名。groupvars是分組變量的列的列名。summarySE處理的為長格式數(shù)據(jù),可以獲得一個包含計數(shù)(count,N)、平均值(mean,measurevar)、標準差(standard deviation,sd)、平均值的標準誤差(standard error of the mean,se)和置信區(qū)間(默認為95%)(confidence interval,mean±ci)的數(shù)據(jù)框。
