R語(yǔ)言之書筆記:初級(jí)統(tǒng)計(jì)學(xué)

概念

  • 數(shù)值型變量
    數(shù)值型變量:是將觀測(cè)值以數(shù)值形式存儲(chǔ)起來(lái)的變量,分為連續(xù)型和離散型兩種類型。
    連續(xù)型變量:可以取某個(gè)區(qū)間中的任何值,可以是任何位數(shù),有無(wú)限個(gè)可能值。
    離散型變量:只能取離散數(shù)據(jù),如果有取值范圍,就是有限個(gè)可能取值。

  • 分類變量
    分類變量:有名義變量和有序變量?jī)煞N形式。
    名義變量:不能按照邏輯順序排序的分類變量,例如性別。
    有序變量:可以排序的分類變量,例如藥物劑量,低、中、高。

  • 參數(shù)和統(tǒng)計(jì)量
    參數(shù):總體的特征叫作參數(shù)。
    統(tǒng)計(jì)量:樣本的特征叫作統(tǒng)計(jì)量,統(tǒng)計(jì)量是參數(shù)的估計(jì)量。

集中趨勢(shì):均值、中位數(shù)、眾數(shù)

  • 均值:mean()
  • 中位數(shù):median()
xdata <- c(2,4.4,3,3,2,2.2,2,4)
x.bar <- mean(xdata)
x.bar
m.bar <- median(xdata)
m.bar
  • 眾數(shù)、最小數(shù)、最大數(shù):table()/min()/max()
xtab <- table(xdata)
xtab
min(xdata)
max(xdata)
range(xdata) # 返回xdata的最小值和最大值
#
max(xtab)
d.bar <- xtab[xtab==max(xtab)] # 頻數(shù)最大的觀測(cè)值為眾數(shù)
d.bar
  • 忽略缺失值或者未定義的變量(NA或NaN): 增加參數(shù)na.rm = TRUE
    sum/prod/mean/median/max/min/rang——都可以使用參數(shù)na.rm
mean(c(1,4,NA))
mean(c(1,4,NaN))
#
mean(c(1,4,NA),na.rm=TRUE)
mean(c(1,4,NaN),na.rm=TRUE)
  • 對(duì)分組數(shù)據(jù)求統(tǒng)計(jì)量:tapply()
mean(chickwts$weight[chickwts$feed=="casein"])
mean(chickwts$weight[chickwts$feed=="horsebean"])
mean(chickwts$weight[chickwts$feed=="linseed"])
mean(chickwts$weight[chickwts$feed=="meatmeal"])
mean(chickwts$weight[chickwts$feed=="soybean"])
mean(chickwts$weight[chickwts$feed=="sunflower"])
#分別求平均值很麻煩
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=mean)
# 使用tapply 批量求出各組的平均值

計(jì)數(shù)、百分比和比例

  • table()計(jì)數(shù),除以nrow()觀測(cè)數(shù),即可求出比例或百分比
table(chickwts$feed)
table(chickwts$feed)/nrow(chickwts)
  • 計(jì)算邏輯標(biāo)記向量的和計(jì)數(shù),計(jì)算邏輯標(biāo)記向量的均值即可求出比例
sum(chickwts$feed=="soybean")/nrow(chickwts)
mean(chickwts$feed=="soybean")

#可以使用這種方法計(jì)算組合樣本的比例:
mean(chickwts$feed=="soybean"|chickwts$feed=="horsebean")
  • 使用tapply()批量求出比例, round()設(shè)置小數(shù)位
tapply(chickwts$weight,INDEX=chickwts$feed,FUN=function(x) length(x)/nrow(chickwts))
round(table(chickwts$feed)/nrow(chickwts),digits=3)
# 比例乘以100得到百分比:
round(mean(chickwts$feed=="soybean")*100,1)

四分位數(shù)、百分位數(shù)和五分位數(shù)

  • quantile() 求分位數(shù)和百分位數(shù)
xdata <- c(2,4.4,3,3,2,2.2,2,4)
quantile(xdata,prob=0.8) # 0.8分位數(shù)
quantile(xdata,prob=c(0,0.25,0.5,0.75,1)) # 同時(shí)計(jì)算多個(gè)分位數(shù)
quantile(chickwts$weight,prob=c(0.25,0.75)) # 計(jì)算下四分位數(shù)和上四分位數(shù)
  • summary()計(jì)算五分位數(shù)和平均值
summary(xdata)
summary(quakes$mag[quakes$depth<400])

離散程度:方差、標(biāo)準(zhǔn)差和四分位差

  • 方差:var(),標(biāo)準(zhǔn)差sd(),四分位差IQR()
  • sqrt()計(jì)算平方根
xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)

var(xdata)
sd(xdata)
IQR(xdata)
#
sqrt(var(xdata))
as.numeric(quantile(xdata,0.75)-quantile(xdata,0.25))
#
sd(ydata)
IQR(ydata)
#
sd(chickwts$weight)
IQR(chickwts$weight)
#
IQR(quakes$mag[quakes$depth<400])

協(xié)方差和相關(guān)系數(shù)

  • 協(xié)方差:表示兩個(gè)數(shù)值型變量在什么程度上一起變化。正數(shù)可能存在正線性關(guān)系,負(fù)數(shù)可能存在負(fù)線性關(guān)系,等于零不存在線性關(guān)系。


    協(xié)方差計(jì)算公式
  • 相關(guān)系數(shù):最常用Pearson相關(guān)系數(shù),取值[-1,1],越接近0,相關(guān)關(guān)系越弱。


    相關(guān)系數(shù)計(jì)算公式
  • cov() 計(jì)算協(xié)方差,cor() 計(jì)算相關(guān)系數(shù)

xdata <- c(2,4.4,3,3,2,2.2,2,4)
ydata <- c(1,4.4,1,3,2,2.2,2,7)
cov(xdata,ydata)
cov(xdata,ydata)/(sd(xdata)*sd(ydata))
cor(xdata,ydata)

#
plot(quakes$mag,quakes$stations,xlab="Magnitude",ylab="No. of stations")
cov(quakes$mag,quakes$stations)
cor(quakes$mag,quakes$stations)

異常值

在實(shí)際中,是否剔除奇異值很難確定,現(xiàn)階段重要的是了解奇異值對(duì)分析產(chǎn)生影響,并且在統(tǒng)計(jì)研究之前應(yīng)檢查一下原始數(shù)據(jù)。
均值與奇異值高度相關(guān),所有任何依賴均值的統(tǒng)計(jì)量如方差或協(xié)方差也會(huì)受影響,分位數(shù)以及相關(guān)統(tǒng)計(jì)量不會(huì)受到奇異值的影響,這種統(tǒng)計(jì)性質(zhì)成為穩(wěn)健性。

本章重要代碼

mean:算術(shù)平均數(shù)
median:中位數(shù)
table:匯總頻數(shù)
min,max,range:最小值,最大值,范圍
round:四舍五入
quantile:分位數(shù)、百分位數(shù)
summary:五位數(shù)概況法
jitter:繪圖中的抖動(dòng)點(diǎn)
var,sd:方差,標(biāo)準(zhǔn)差
IQR:四分位差
cov,cor:協(xié)方差,相關(guān)系數(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容