歡迎關(guān)注”生信修煉手冊”!
GEO數(shù)據(jù)庫中的platform代表測序平臺或者芯片平臺,每一個platform用GPL開頭的編號唯一標識。對于一個platform而言,通常包含以下3種文件
soft
miniml
-
suppl
以GPL20814為例,鏈接如下
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL20814
soft和miniml都是表示該platform的基礎(chǔ)信息,比如GPL編號,上傳日期等,soft文件的部分內(nèi)容如下
^DATABASE = GeoMiame
!Database_name = Gene Expression Omnibus (GEO)
!Database_institute = NCBI NLM NIH
!Database_web_link = http://www.ncbi.nlm.nih.gov/geo
!Database_email = geo@ncbi.nlm.nih.gov
^PLATFORM = GPL20814
!Platform_title = Human miRNA Array miRbase release 19
!Platform_geo_accession = GPL20814
!Platform_status = Public on Jun 12 2017
!Platform_submission_date = Aug 18 2015
!Platform_last_update_date = Jun 12 2017在soft文件中,每種類別的信息以^開頭,常見的類別如下所示
DATABASE
PLATFORM
SAMPLE
-
SERIES
DATABASE代表GEO數(shù)據(jù)庫的基本信息,PLATFORM代表該平臺的基本信息,SAMPLE代表用該平臺得到的樣本信息,SERIES代表使用該平臺得到的一組樣本。
在每種類別中,!開頭代表一種類型的信息,常規(guī)格式為key = value, 比如
Platform_geo_accession = GPL20814對于芯片平臺而言,還會提供探針和基因之間的對應(yīng)關(guān)系等信息,在對應(yīng)的網(wǎng)頁上,我們可以看到如下的表格
這部分內(nèi)容在soft文件中也是存在的,示意如下
!platform_table_begin
ID ? ?Reporter Name ? ?miRNA_ID ? ?SPOT_ID
272 ? ?hsa-miR-99b-5p ? ?MIMAT0000689 ? ?
271 ? ?hsa-miR-99b-3p ? ?MIMAT0004678 ? ?
270 ? ?hsa-miR-99a-5p ? ?MIMAT0000097 ? ?
269 ? ?hsa-miR-99a-3p ? ?MIMAT0004511 ? ?
268 ? ?hsa-miR-98-5p ? ?MIMAT0000096
...
!platform_table_end采用配對的兩個!嘆號來表示數(shù)據(jù)的開始和結(jié)束,在中間存放對應(yīng)的表格數(shù)據(jù)。
miniml中的內(nèi)容和soft是一樣的,只是用XML格式來存儲上述信息,而supplement file則是由提交者自己上傳的一些補充文件,沒有明確的格式。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關(guān)注微信號,更多精彩內(nèi)容等著你!