1. 認識CSV格式
打開方式
- 默認excel/numbers表格
- 記事本:逗號分隔列
- sublime(使用大文件):逗號分隔列
- R語言讀?。簲?shù)據(jù)框,可賦值,變量名與文件名無必然聯(lián)系,對數(shù)據(jù)框修改不會同步到表格文件
2. 認識分隔符
- 常見:逗號,空格,制表符(\t,Tab)
- CSV = Comma Separated Values,TSV = =Tab Separated Values
- 后綴名沒有意義,本質都是純文本
jimmy:電腦上的文件只有兩種,文本與非文本
3. 表格文件讀入R語言,成為數(shù)據(jù)框
read.csv() # 通常讀取CSV格式
read.table() # 通常用于讀取txt格式
test = read.csv('ex3.csv') # 文件名均需引號
- 讀取可能會失?。篹rror或跟想象中不一樣,若失敗需要指定一些參數(shù)
4. 數(shù)據(jù)框導出,成為表格文件
write.csv() # 存儲為CSV格式
write.csv(test,file = 'example.csv')
#test:要導出數(shù)據(jù)框的變量名,example.csv:導出的文件命名
write.table() # 存儲為txt格式
write.table(test,file = 'example.txt')
- 讀取-編輯修改-導出
- 不要覆蓋原文件
5. R特有的數(shù)據(jù)格式:Rdata
- R語言特有數(shù)據(jù)存儲格式,無法用其他軟件打開
- 保存的是變量,不是表格文件,不涉及賦值
- save()保存,load()加載
save(test,file = 'example.Rdata') # 無論命名如何,均是Rdata文件
load('example.Rdata') #不用賦值,不用寫 x = load('example.Rdata')
6.常見錯誤:找不到文件
- 文件沒有存放于工作目錄下
- 拼寫錯誤
- 默認參數(shù)不適用于你當前讀取的文件,也會報錯
7. R語言能讀取的文件格式
- 通用格式:csv,xls,txt,tsv,json,pdf,spss……
- 生信格式:fasta,fastq,bam,vcf,bed,gtf……
8. 用于讀取/導出文件的R包
http://www.itdecent.cn/p/4ea320c0dcc6
- 對于常見格式,可以先嘗試import導入(其實import是根據(jù)fread函數(shù)寫的);
- 如果失敗,再用fread讀取,最多是加個參數(shù),理論上就可以成功;
- 如果還是不行,哈德雷大神寫的read_*系列也不是吃素的,拿來試試。
- base包有點笨,但他參數(shù)多,更靈活,可以作為一個選擇。