1.dplyr包
它包括了(幾乎)全部可以用來(lái)加快數(shù)據(jù)處理進(jìn)程的內(nèi)容。它最有名的是數(shù)據(jù)探索和數(shù)據(jù)轉(zhuǎn)換功能。它的鏈?zhǔn)秸Z(yǔ)法讓它使用起來(lái)很方便。它包括5個(gè)主要的數(shù)據(jù)處理指令:
1. 過(guò)濾——集于某一條件過(guò)濾數(shù)據(jù)
2. 選擇——選出數(shù)據(jù)集中感興趣的列
3. 排列——升序或降序排列數(shù)據(jù)集中的某一個(gè)值域
4. 變換——從已有變量生成新的變量
5. 概括(通過(guò)group_by)——提供常用的操作分析,如最小值、最大值、均值等
只需要關(guān)注這些指令便可以完成很好的數(shù)據(jù)探索工作。讓我們一起逐一了解一下這些指令。我用到了兩個(gè)R中內(nèi)置的數(shù)據(jù)集mtcars和iris.
**把數(shù)據(jù)轉(zhuǎn)換成tbl_df格式。大家可以觀察一下轉(zhuǎn)化前和轉(zhuǎn)化后的區(qū)別在哪里。**


**Filter(數(shù)據(jù)表,條件),為篩選條件命令。**


**select(數(shù)據(jù)表,字段....),選擇自己想要的字段。**


**可以組合使用,實(shí)現(xiàn)更加復(fù)雜的功能。Filter(數(shù)據(jù)表,條件)/select(數(shù)據(jù)表,字段....)。當(dāng)兩個(gè)函數(shù)有共同字段時(shí),可以用【數(shù)據(jù)表 %>% select(A,B,C) %>% filter(A>2)】等價(jià)于【filter(select(數(shù)據(jù)表,A,B,C),A>2)】**

**arrange(A),依據(jù)字段A排序。**

**mutate(a=b*c),新增加字段。**

**group_by(A):依據(jù)A分組
summarise(A,B,C):統(tǒng)計(jì)出A,B,C字段**

**rename(a=b)修改列名。**

**可以組合進(jìn)行寫:(相當(dāng)于excel中的透視表)
datatable%>%filter(RESP_TYPE_NM=="Mail Open")%>%group_by(CELL_NM)%>%summarise(email_cnt=length(unique(EMAIL_KEY)))**
**依據(jù)CELL_NM進(jìn)行分組統(tǒng)計(jì)email_cnt,篩選條件為Mail Open**
有問(wèn)題,歡迎留言。
感謝關(guān)注?。。?/b>
CSDN同步更加精彩---ID:weixin_45098535