復雜數(shù)據(jù)統(tǒng)計方法——基于R的應用 R軟件練習-part2

本書作者: 吳喜之


  • 操作系統(tǒng):win10

  • R版本:R-3.3.3

實踐4 —— 以簡單自變量為定量變量及定性變量的回歸

ncol(cars); nrow(cars) #輸出cars的列數(shù)和行數(shù)
dim(cars) #輸出cars的維數(shù),先是行數(shù),后是列數(shù)
lm(dist~speed, data=cars) #以speed為自變量,dist為因變量做普通最小二乘法分析(ordinary least square, OLS)
cars$qspeed = cut(cars$speed, breaks = quantile(cars$speed), include.lowest = TRUE) #以四分位數(shù)為分割點,將數(shù)值分到不同的區(qū)間,注意區(qū)間為左開右閉,include.lowest=TRUE將最小的值也進行劃分。
names(cars) #數(shù)據(jù)cars中多了一個變量qspeed
cars[3] #查看cars第三個變量的值
cars[,3] #結(jié)果同上,但是顯示方式有不同
table(cars[3]) #列表形式統(tǒng)計不同值的個數(shù)
is.factor(cars$qspeed) #判斷cars$qspeed的類型是否是因子
plot(dist~qspeed, data=cars) #繪制箱線圖
plot(dist~speed, data=cars) #與前一張圖進行比較
(a=lm(dist~qspeed, data=cars)) #擬合線性模型(簡單最小二乘回歸)
summary(a) #顯示回歸結(jié)果

實踐5 —— 簡單樣本描述統(tǒng)計量

x <- round(runif(20,0,30), digits=2) #從0-30取20個隨機數(shù),使它們服從均勻分布,并將這些數(shù)保留至小數(shù)點后兩位。
summary(x) #進行簡單統(tǒng)計分析
min(x); max(x); range(x) #輸出最小值、最大值,注意極值得到的結(jié)果
median(x) #中位數(shù)
mean(x) #平均值
var(x); sd(x) #方差、標準差
sort(x) #返回排序以后的數(shù)組,默認從小到大排序
rank(x) #秩。即將所有值從小到大排序,輸出各個值在序列中的排序
order(x) #返回數(shù)組排序后各元素在原數(shù)組中的位置
x[order(x)] #對x進行排序,結(jié)果同sort(x)。延伸:x[order(x[,1], x[,2],)] 表示根據(jù)不同的列對矩陣x排序
sort(x, decreasing=T) #降序排列
sum(x); length(x) #元素求和;統(tǒng)計元素個數(shù)
round(x,1) #四舍五入,保留小數(shù)點后1位
fivenum(x) #基于中位數(shù)的概念求5個分位點
quantile(x) #基于分位數(shù)的概念求5個分位點
quantile(x, c(0, .33, .66, 1)) #可以自定義分位點
mad(x) #絕對中位差。為所有數(shù)值與中位數(shù)差值取絕對值后的中位數(shù),在R中默認乘以一個常數(shù)1.4826,目的是漸近正態(tài)一致性
y <- c(5, 8, 3, 1)
cummax(y) #累積最大值。即輸出到目前為止的最大值
cummin(y) #累積最小值
cumprod(y) #累積積
cor(x, sin(x/20)) #計算線性相關(guān)系數(shù)

這一次的內(nèi)容,有幾個函數(shù)可能不太容易理解,可以借助相關(guān)函數(shù)的說明文件,慢慢體會一下。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容