R整理數(shù)據(jù)
整齊的(經(jīng)過(guò)整理的)數(shù)據(jù)資料可以方便地被操作、建模和可視化處理,而且擁有特定的結(jié)構(gòu)(Tidy data,整潔數(shù)據(jù)):
- 每個(gè)變量是一列
- 每個(gè)觀(guān)測(cè)值是一行
- 每個(gè)單元格恰好有一個(gè)數(shù)據(jù)值
dplyr和tidyr包
兩個(gè)包定義了一系列的動(dòng)詞,可以用比較自然的方式進(jìn)行數(shù)據(jù)整理。
dplyr動(dòng)詞
-
filter()基于邏輯標(biāo)準(zhǔn)的子數(shù)據(jù)集 -
select()選擇特定的列 -
arrange()按列的值對(duì)行進(jìn)行排序 -
rename()重新命名列 -
group_by()按常用變量對(duì)數(shù)據(jù)進(jìn)行分組,以便進(jìn)行計(jì)算 -
mutate()創(chuàng)建一個(gè)新變量 -
summarize()將數(shù)據(jù)匯總成為單行值
tidyr動(dòng)詞
-
gather()和spread()轉(zhuǎn)換寬數(shù)據(jù)格式和長(zhǎng)數(shù)據(jù)格式
-separate()andunite()將單列分成多列,反之亦然。
-complete()通過(guò)完成缺失數(shù)據(jù)組合,將隱式缺失值轉(zhuǎn)換為顯式缺失值