學習小組Day6筆記-驟雨初歇

R包學習

R包的安裝和加載

1.設置下載地址的鏡像網站

options函數就是設置R運行過程中的一些選項設置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #對應清華源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #對應中科大源;當然可以換成其他地區(qū)的鏡像

一勞永逸的R下載鏡像網站的設置

詳見生信星球微信公眾號:https://mp.weixin.qq.com/s/XvKb5FjAGM6gYsxTw3tcWw

2.安裝R包

CRAN網站中R包的安裝

install.packages(“names”)

Biocductor網站中R包的安裝

BiocManager::install(“names”)

3.加載R包

library(package)
require(package)

dplyr包的學習

五個基礎函數

library(dplyr) #dplyr加載
test <- iris[c(1:2,51:52,101:102),]
###mutate:新增一列###
mutate(test,new=Sepal.Length * Sepal.Width)#新增一列,數據由Sepal.Length和Sepal.Width相乘得到
###select:按列篩選###
select(test,1) #篩選第一列
select(test,c(1,5)) #篩選第一列和第五列
select(test,Sepal.Length) #篩選名為Sepal.Length的列
select(test, Petal.Length, Petal.Width) #篩選名為Sepal.Length和 Petal.Width的列
vars <- c("Petal.Length", "Petal.Width")
select(test, one_of(vars))#選擇字符向量中的列,select中不能直接使用字符向量篩選,需要使用one_of函數  
###filter:按行篩選###
filter(test, Species == "setosa") #篩選Species列中為setosa的行
filter(test, Species == "setosa"&Sepal.Length > 5 ) #篩選Species列中為setosa的行,且該行中Sepal.Length > 5
filter(test, Species %in% c("setosa","versicolor")) #篩選Species列中為setosa和versicolor的行
###arrange:排序###
arrange(test, Sepal.Length) #將Sepal.Length這一列按從小到大排序
arrange(test, desc(Sepal.Length)) #將Sepal.Length這一列按從大到小排序
###summarise:匯總###
summarise(test, mean(Sepal.Length), sd(Sepal.Length)) # 計算Sepal.Length的平均值和標準差
group_by(test, Species) #先按照Species分組
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) #計算按照Species分組后,每組Sepal.Length的平均值和標準差。

兩個實用技能

###管道符號:快捷鍵 (cmd/ctr + shift + M)###
test %>% group_by(Species) %>% summarise(mean(Sepal.Length), sd(Sepal.Length)) #將test數據框中的數據按照Species分組后計算每組Sepal.Length的平均值和標準差
###count:統(tǒng)計某列的unique值###
count(test,Species) #統(tǒng)計test中Species這一列的非重復值;相當于函數table。

多個數據框的處理

test1 <- data.frame(x = c('b','e','f','x'), 
                               z = c("A","B","C",'D')) #創(chuàng)建一個名為test1的數據框,包含x,z兩列。
test2 <- data.frame(x = c('a','b','c','d','e','f'), 
                               y = c(1,2,3,4,5,6)) #創(chuàng)建一個名為test2的數據框,包含x,y兩列。
###內連inner_join,取交集###
inner_join(test1, test2, by = "x") #將test1和test2數據集中按x列中共有元素合并為一個新的數據集。
###左連left_join###
left_join(test1, test2, by = 'x') #將test1和test2數據集中按test1中x列的元素合并,保留test1中x列的全部元素。
left_join(test2, test1, by = 'x') #將test1和test2數據集中按test2中x列的元素合并,保留test2中x列的全部元素。
###全連full_join###
full_join( test1, test2, by = 'x') #將test1和test2數據集中x列的元素合并,保留test1和test2中x列的全部元素。
###半連接:返回能夠與y表匹配的x表所有記錄semi_join###
semi_join(x = test1, y = test2, by = 'x') #保留test1中x列與test2中x列相匹配的所有元素
###反連接:返回無法與y表匹配的x表的所記錄anti_join###
anti_join(x = test2, y = test1, by = 'x') #丟棄test2中x列與test1中x列相匹配的所有元素
###簡單合并###
test1 <- data.frame(x = c(1,2,3,4), y = c(10,20,30,40)) #創(chuàng)建一個名為test1的數據框,包含x,y兩列
test2 <- data.frame(x = c(5,6), y = c(50,60)) #創(chuàng)建一個名為test2的數據框,包含x,y兩列
test3 <- data.frame(z = c(100,200,300,400)) #創(chuàng)建一個名為test3的數據框,包含z一列
bind_rows(test1, test2) #按行合并test1和test2,要求列數相同
bind_cols(test1, test3) #按列合并test1和test2,要求行數相同
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容