1 什么是HDF5文件?
官方介紹鏈接:HDF5
通俗地來(lái)說(shuō),HDF5HDF5 是一種靈活的文件儲(chǔ)存格式,可以存儲(chǔ)不同類型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類型的機(jī)器上傳輸,同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫(kù)。
三代測(cè)序下機(jī)的原始數(shù)據(jù)不再是fastq格式了,而是換成了hdf5 格式.
HDF5格式
HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名,需要專門的軟件才能打開預(yù)覽文件的內(nèi)容。HDF5 文件結(jié)構(gòu)中有 2 primary objects: Groups 和 Datasets。
(1)Groups 和 Datasets
dataset 代表數(shù)據(jù)集,一個(gè)文件當(dāng)中可以存放不同種類的數(shù)據(jù)集,這些數(shù)據(jù)集如何管理,就用到了group最直觀的理解,可以參考我們的文件管理系統(tǒng),不同的文件位于不同的目錄下。目錄就是hdf5中的group, 描述了數(shù)據(jù)集dataset的分類信息,通過group 有效的將多種dataset 進(jìn)行管理和區(qū)分;文件就是hdf5中dataset, 表示的是具體的數(shù)據(jù)。

(2)Dataset 組成
每個(gè) dataset 可以分成兩部分: 原始數(shù)據(jù) (raw) data values 和 元數(shù)據(jù) metadata (存儲(chǔ)數(shù)據(jù)集對(duì)應(yīng)的屬性信息的集合)。

2 R中.h5 文件讀?。?0Xgenomics測(cè)序數(shù)據(jù))
需要安裝包 hdf5r
BiocManager::install("hdf5r") #安裝包
library(hdf5r)
library(Seurat)
data_sample <- Read10X_h5("Women/GSE118127_RAW/GSM3319032_sample_1-1_filtered_gene_bc_matrices_h5.h5") #導(dǎo)入數(shù)據(jù)
data_seurat <- CreateSeuratObject(data_sample,project = "data_sample") #后面就可以單細(xì)胞處理的標(biāo)準(zhǔn)流程啦
人生苦短,一起學(xué)習(xí)叭。
參考
https://www.cnblogs.com/xudongliang/p/6907733.html
https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html#Get_data