dplyr包
5個(gè)基礎(chǔ)函數(shù)
- mutate() 新增列
eg: mutate(文件名, new = 新參數(shù)) - select() 按列篩選
eg: select(文件名, 列名/列號(hào)) - filter() 篩選行
eg:filter(文件名,篩選條件)
filter(test, Species == "setosa")
filter(test, Species == "setosa"&Sepal.Length > 5 )
filter(test, Species %in% c("setosa","versicolor")) - arrange() 按某1列或某幾列對(duì)整個(gè)表格進(jìn)行排序
eg:arrange(文件名,列名)
arrange(test, desc(Sepal.Length)) desc降序排列 - summarise() 匯總 與group_by聯(lián)用
eg:summarise(group_by(test, Species),mean(Sepal.Length),sd(Sepal.Length)) 按物種分類(lèi)
dplyr兩個(gè)實(shí)用技能
- 管道操作 %>% (cmd/ctr + shift + M)
eg:test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
文件 %>% 命令1 %>% 命令2 - count統(tǒng)計(jì)某列的unique值
count(test,Species)
dplyr處理關(guān)系數(shù)據(jù)
- inner_join內(nèi)連接,取交集
inner_join(數(shù)據(jù)集1, 數(shù)據(jù)集2, by = "變量") - left_join 左連
left_join(數(shù)據(jù)集1, 數(shù)據(jù)集2, by = "變量") 數(shù)據(jù)集位置有順序 向數(shù)據(jù)集1中添加數(shù)據(jù)集2中的非公有部分 - full_join( test1, test2, by = 'x') 全聯(lián)接 將兩個(gè)數(shù)據(jù)集中的所有數(shù)據(jù)聯(lián)接在一起
- semi_join 半連接 返回能夠與y表匹配的x表所有記錄semi_join
semi_join(x = test1, y = test2, by = 'x') - anti_join 反連接:返回?zé)o法與y表匹配的x表的所記錄anti_join
anti_join(x = test2, y = test1, by = 'x') - bind_rows(數(shù)據(jù)集1,數(shù)據(jù)集2) 函數(shù)需要兩個(gè)表格列數(shù)相同
bind_cols()函數(shù)需要兩個(gè)表格列數(shù)相同