概念
數(shù)值型變量
數(shù)值型變量:是將觀測(cè)值以數(shù)值形式存儲(chǔ)起來(lái)的變量,分為連續(xù)型和離散型兩種類型。
連續(xù)型變量:可以取某個(gè)區(qū)間中的任何值,可以是任何位數(shù),有無(wú)限個(gè)可能值。
離散型變量:只能取離散數(shù)據(jù),如果有取值范圍,就是有限個(gè)可能取值。分類變量
分類變量:有名義變量和有序變量?jī)煞N形式。
名義變量:不能按照邏輯順序排序的分類變量,例如性別。
有序變量:可以排序的分類變量,例如藥物劑量,低、中、高。參數(shù)和統(tǒng)計(jì)量
參數(shù):總體的特征叫作參數(shù)。
統(tǒng)計(jì)量:樣本的特征叫作統(tǒng)計(jì)量,統(tǒng)計(jì)量是參數(shù)的估計(jì)量。
集中趨勢(shì):均值、中位數(shù)、眾數(shù)
- 均值:
mean() - 中位數(shù):
median()
xdata <- c(2,4.4,3,3,2,2.2,2,4)
x.bar <- mean(xdata)
x.bar
m.bar <- median(xdata)
m.bar
- 眾數(shù)、最小數(shù)、最大數(shù):
table()/min()/max()
xtab <- table(xdata)
xtab
min(xdata)
max(xdata)
range(xdata) # 返回xdata的最小值和最大值
#
max(xtab)
d.bar <- xtab[xtab==max(xtab)] # 頻數(shù)最大的觀測(cè)值為眾數(shù)
d.bar
- 忽略缺失值或者未定義的變量(NA或NaN): 增加參數(shù)
na.rm = TRUE
sum/prod/mean/median/max/min/rang——都可以使用參數(shù)na.rm
mean(c(1,4,NA))
mean(c(1,4,NaN))
#
mean(c(1,4,NA),na.rm=TRUE)
mean(c(1,4,NaN),na.rm=TRUE)
- 對(duì)分組數(shù)據(jù)求統(tǒng)計(jì)量:
tapply()
mean(chickwts$weight[chickwts$feed=="casein"])
mean(chickwts$weight[chickwts$feed=="horsebean"])
mean(chickwts$weight[chickwts$feed=="linseed"])
mean(chickwts$weight[chickwts$feed=="meatmeal"])
mean(chickwts$weight[chickwts$feed=="soybean"])
mean(chickwts$weight[chickwts$feed=="sunflower"])
#分別求平均值很麻煩
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=mean)
# 使用tapply 批量求出各組的平均值
計(jì)數(shù)、百分比和比例
-
table()計(jì)數(shù),除以nrow()觀測(cè)數(shù),即可求出比例或百分比
table(chickwts$feed)
table(chickwts$feed)/nrow(chickwts)
- 計(jì)算邏輯標(biāo)記向量的和計(jì)數(shù),計(jì)算邏輯標(biāo)記向量的均值即可求出比例
sum(chickwts$feed=="soybean")/nrow(chickwts)
mean(chickwts$feed=="soybean")
#可以使用這種方法計(jì)算組合樣本的比例:
mean(chickwts$feed=="soybean"|chickwts$feed=="horsebean")
- 使用
tapply()批量求出比例,round()設(shè)置小數(shù)位
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=function(x) length(x)/nrow(chickwts))
round(table(chickwts$feed)/nrow(chickwts),digits=3)
# 比例乘以100得到百分比:
round(mean(chickwts$feed=="soybean")*100,1)
四分位數(shù)、百分位數(shù)和五分位數(shù)
-
quantile()求分位數(shù)和百分位數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
quantile(xdata,prob=0.8) # 0.8分位數(shù)
quantile(xdata,prob=c(0,0.25,0.5,0.75,1)) # 同時(shí)計(jì)算多個(gè)分位數(shù)
quantile(chickwts$weight,prob=c(0.25,0.75)) # 計(jì)算下四分位數(shù)和上四分位數(shù)
-
summary()計(jì)算五分位數(shù)和平均值
summary(xdata)
summary(quakes$mag[quakes$depth<400])
離散程度:方差、標(biāo)準(zhǔn)差和四分位差
- 方差:
var(),標(biāo)準(zhǔn)差sd(),四分位差IQR() -
sqrt()計(jì)算平方根
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
var(xdata)
sd(xdata)
IQR(xdata)
#
sqrt(var(xdata))
as.numeric(quantile(xdata,0.75)-quantile(xdata,0.25))
#
sd(ydata)
IQR(ydata)
#
sd(chickwts$weight)
IQR(chickwts$weight)
#
IQR(quakes$mag[quakes$depth<400])
協(xié)方差和相關(guān)系數(shù)
-
協(xié)方差:表示兩個(gè)數(shù)值型變量在什么程度上一起變化。正數(shù)可能存在正線性關(guān)系,負(fù)數(shù)可能存在負(fù)線性關(guān)系,等于零不存在線性關(guān)系。
協(xié)方差計(jì)算公式 -
相關(guān)系數(shù):最常用Pearson相關(guān)系數(shù),取值[-1,1],越接近0,相關(guān)關(guān)系越弱。
相關(guān)系數(shù)計(jì)算公式 cov()計(jì)算協(xié)方差,cor()計(jì)算相關(guān)系數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
cov(xdata,ydata)
cov(xdata,ydata)/(sd(xdata)*sd(ydata))
cor(xdata,ydata)
#
plot(quakes$mag,quakes$stations,xlab="Magnitude",ylab="No. of stations")
cov(quakes$mag,quakes$stations)
cor(quakes$mag,quakes$stations)
異常值
在實(shí)際中,是否剔除奇異值很難確定,現(xiàn)階段重要的是了解奇異值對(duì)分析產(chǎn)生影響,并且在統(tǒng)計(jì)研究之前應(yīng)檢查一下原始數(shù)據(jù)。
均值與奇異值高度相關(guān),所有任何依賴均值的統(tǒng)計(jì)量如方差或協(xié)方差也會(huì)受影響,分位數(shù)以及相關(guān)統(tǒng)計(jì)量不會(huì)受到奇異值的影響,這種統(tǒng)計(jì)性質(zhì)成為穩(wěn)健性。
本章重要代碼
mean:算術(shù)平均數(shù)
median:中位數(shù)
table:匯總頻數(shù)
min,max,range:最小值,最大值,范圍
round:四舍五入
quantile:分位數(shù)、百分位數(shù)
summary:五位數(shù)概況法
jitter:繪圖中的抖動(dòng)點(diǎn)
var,sd:方差,標(biāo)準(zhǔn)差
IQR:四分位差
cov,cor:協(xié)方差,相關(guān)系數(shù)

