今天查看gwas-catalog網(wǎng)站,發(fā)現(xiàn)即將推出GWAS 匯總統(tǒng)計數(shù)據(jù)的新格式GWAS-SSF,困擾大家多年的格式不統(tǒng)一問題有望解決啦?暫時還未發(fā)表,還在預(yù)印本服務(wù)器,讓我們先一睹為快!


全基因組關(guān)聯(lián)研究(GWAS)的匯總統(tǒng)計數(shù)據(jù)代表了巨大的研究潛力。該領(lǐng)域研究人員面臨的挑戰(zhàn)是,由于缺乏數(shù)據(jù)內(nèi)容和文件格式的標準,匯總統(tǒng)計數(shù)據(jù)的訪問和共享。出于這個原因,GWAS目錄在2021年與匯總統(tǒng)計利益攸關(guān)方舉行了一系列會議,以指導(dǎo)標準格式的開發(fā)。利益攸關(guān)者的主要要求是,一個包含關(guān)鍵數(shù)據(jù)要素的標準能夠支持廣泛的數(shù)據(jù)分析,需要低生物信息學(xué)技能來訪問和生成文件,擁有易于獲取的元數(shù)據(jù),以及明確和可互操作的數(shù)據(jù)。在這里,我們定義了 GWAS-SSF 格式第一版的規(guī)范,該格式的開發(fā)是為了滿足與社區(qū)討論的要求。GWAS-SSF 由一個制表符分隔的數(shù)據(jù)文件組成,該文件具有明確定義的字段和隨附的元數(shù)據(jù)文件。
匯總統(tǒng)計表內(nèi)容

匯總統(tǒng)計表中的四個字段,結(jié)合元數(shù)據(jù)文件中提供的參考基因組組裝,明確定義了遺傳變異。這些字段是染色體(染色體)、染色體上的基因組位置 (base_pair_location)、效應(yīng)等位基因 (effect_allele) 和非效應(yīng)等位基因 (other_allele)。染色體值是從 1 到 25 的整數(shù),染色體 X 映射到 23,染色體 Y 映射到 24,線粒體映射到 25?;蚪M位置是一個整數(shù)值,代表變異在參考基因組中的第一個位置,使用基于1的索引。以最大限度地提高與變異調(diào)用格式(VCF)的互操作性(Danecek等人,2011)。effect_allele字段捕獲與效應(yīng)相關(guān)的等位基因,而other_allele場報告非效應(yīng)等位基因。兩個等位基因字段都將包含等位基因字符串,包括變體為插入和刪除的情況。這四個字段(染色體、base_pair_location、effect_allele、other_allele)連接起來以填充variant_id字段,rsID 可以存儲在 rsid 字段中,但這兩個字段都是可選的。
匯總統(tǒng)計數(shù)據(jù)元數(shù)據(jù)

匯總統(tǒng)計數(shù)據(jù)文件附帶一個附加文件,其中包含描述匯總統(tǒng)計數(shù)據(jù)的元數(shù)據(jù),例如匯總統(tǒng)計數(shù)據(jù)文件的名稱和md5sum和GWAS元數(shù)據(jù)本身,包括樣本和實驗元數(shù)據(jù),從而確保數(shù)據(jù)的可重用性。元數(shù)據(jù)文件字段將來可以根據(jù)需要展開,并且與匯總統(tǒng)計數(shù)據(jù)文件一樣,可以根據(jù)需要包含其他列。示例元數(shù)據(jù)字段包括所調(diào)查性狀以及樣本大小和血統(tǒng)的描述??梢允褂妙~外的字段血統(tǒng)方法來指示血統(tǒng)描述符是自我報告的還是遺傳定義的(鼓勵)。我們建議根據(jù)Morales等人,2018年描述的標準化框架指南報告血統(tǒng)。應(yīng)盡一切努力明確注意樣品是否混合以及導(dǎo)致外加劑的祖先背景。性狀描述是自由文本,應(yīng)包括對所研究性狀的清晰描述,包括研究人群的任何相關(guān)背景特征,例如“哮喘患者的肺癌”。特征本體術(shù)語可以存儲在元數(shù)據(jù) ontologyMapping 字段中。元數(shù)據(jù)文件采用 YAML 格式,這是“適用于所有編程語言的人性化數(shù)據(jù)序列化語言”(http
是不是考慮用起來呢?