認(rèn)識(shí)HDF5文件格式及R中.h5 文件讀取

1 什么是HDF5文件?

官方介紹鏈接:HDF5
通俗地來(lái)說(shuō),HDF5HDF5 是一種靈活的文件儲(chǔ)存格式,可以存儲(chǔ)不同類型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類型的機(jī)器上傳輸,同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫(kù)。
三代測(cè)序下機(jī)的原始數(shù)據(jù)不再是fastq格式了,而是換成了hdf5 格式.

HDF5格式

HDF5 文件一般以 .h5 或者 .hdf5 作為后綴名,需要專門的軟件才能打開預(yù)覽文件的內(nèi)容。HDF5 文件結(jié)構(gòu)中有 2 primary objects: Groups 和 Datasets。

(1)Groups 和 Datasets

dataset 代表數(shù)據(jù)集,一個(gè)文件當(dāng)中可以存放不同種類的數(shù)據(jù)集,這些數(shù)據(jù)集如何管理,就用到了group最直觀的理解,可以參考我們的文件管理系統(tǒng),不同的文件位于不同的目錄下。目錄就是hdf5中的group, 描述了數(shù)據(jù)集dataset的分類信息,通過group 有效的將多種dataset 進(jìn)行管理和區(qū)分;文件就是hdf5中dataset, 表示的是具體的數(shù)據(jù)。

group and dataset
(2)Dataset 組成

每個(gè) dataset 可以分成兩部分: 原始數(shù)據(jù) (raw) data values 和 元數(shù)據(jù) metadata (存儲(chǔ)數(shù)據(jù)集對(duì)應(yīng)的屬性信息的集合)。


Dataset 組成

2 R中.h5 文件讀?。?0Xgenomics測(cè)序數(shù)據(jù))

需要安裝包 hdf5r

BiocManager::install("hdf5r")    #安裝包
library(hdf5r)
library(Seurat) 
data_sample <- Read10X_h5("Women/GSE118127_RAW/GSM3319032_sample_1-1_filtered_gene_bc_matrices_h5.h5")  #導(dǎo)入數(shù)據(jù)
data_seurat <- CreateSeuratObject(data_sample,project = "data_sample") #后面就可以單細(xì)胞處理的標(biāo)準(zhǔn)流程啦

人生苦短,一起學(xué)習(xí)叭。

參考

https://www.cnblogs.com/xudongliang/p/6907733.html
https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html#Get_data

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容