GEO數(shù)據(jù)庫中platform信息詳解

歡迎關(guān)注”生信修煉手冊”!

GEO數(shù)據(jù)庫中的platform代表測序平臺或者芯片平臺,每一個platform用GPL開頭的編號唯一標識。對于一個platform而言,通常包含以下3種文件

  1. soft

  2. miniml

  3. suppl


GPL20814為例,鏈接如下

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL20814

softminiml都是表示該platform的基礎(chǔ)信息,比如GPL編號,上傳日期等,soft文件的部分內(nèi)容如下

^DATABASE = GeoMiame
!Database_name = Gene Expression Omnibus (GEO)
!Database_institute = NCBI NLM NIH
!Database_web_link = http://www.ncbi.nlm.nih.gov/geo
!Database_email = geo@ncbi.nlm.nih.gov
^PLATFORM = GPL20814
!Platform_title = Human miRNA Array miRbase release 19
!Platform_geo_accession = GPL20814
!Platform_status = Public on Jun 12 2017
!Platform_submission_date = Aug 18 2015
!Platform_last_update_date = Jun 12 2017

soft文件中,每種類別的信息以^開頭,常見的類別如下所示

  1. DATABASE

  2. PLATFORM

  3. SAMPLE

  4. SERIES


DATABASE代表GEO數(shù)據(jù)庫的基本信息,PLATFORM代表該平臺的基本信息,SAMPLE代表用該平臺得到的樣本信息,SERIES代表使用該平臺得到的一組樣本。

在每種類別中,!開頭代表一種類型的信息,常規(guī)格式為key = value, 比如

Platform_geo_accession = GPL20814

對于芯片平臺而言,還會提供探針和基因之間的對應(yīng)關(guān)系等信息,在對應(yīng)的網(wǎng)頁上,我們可以看到如下的表格

這部分內(nèi)容在soft文件中也是存在的,示意如下

!platform_table_begin
ID ? ?Reporter Name ? ?miRNA_ID ? ?SPOT_ID
272 ? ?hsa-miR-99b-5p ? ?MIMAT0000689 ? ?
271 ? ?hsa-miR-99b-3p ? ?MIMAT0004678 ? ?
270 ? ?hsa-miR-99a-5p ? ?MIMAT0000097 ? ?
269 ? ?hsa-miR-99a-3p ? ?MIMAT0004511 ? ?
268 ? ?hsa-miR-98-5p ? ?MIMAT0000096
...
!platform_table_end

采用配對的兩個!嘆號來表示數(shù)據(jù)的開始和結(jié)束,在中間存放對應(yīng)的表格數(shù)據(jù)。

miniml中的內(nèi)容和soft是一樣的,只是用XML格式來存儲上述信息,而supplement file則是由提交者自己上傳的一些補充文件,沒有明確的格式。

·end·

—如果喜歡,快分享給你的朋友們吧—


掃描關(guān)注微信號,更多精彩內(nèi)容等著你!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容