【數(shù)據(jù)庫(kù)-1】1000 Genome Project 數(shù)據(jù)庫(kù)

歡迎關(guān)注公眾號(hào):oddxix

一、簡(jiǎn)介


1000 Genomes Project(縮寫為1KGP)于2008年1月啟動(dòng),是一項(xiàng)國(guó)際研究工作,旨在建立迄今為止最詳細(xì)的人類遺傳變異目錄。科學(xué)家計(jì)劃在接下來(lái)的三年內(nèi)使用新開(kāi)發(fā)的技術(shù)對(duì)來(lái)自不同種族群體的至少一千名匿名參與者的基因組進(jìn)行測(cè)序,這些技術(shù)更快,更便宜。 2010年,該項(xiàng)目完成了試驗(yàn)階段,在“自然”雜志的一篇出版物中對(duì)此進(jìn)行了詳細(xì)描述。2012年,1092個(gè)基因組的測(cè)序在Nature出版物中公布。 2015年,“自然”雜志上的兩篇論文報(bào)告了結(jié)果,項(xiàng)目的完成以及未來(lái)研究的機(jī)會(huì)。確定了許多罕見(jiàn)的變異,僅限于密切相關(guān)的群體,并分析了8個(gè)結(jié)構(gòu)變異類別。

該項(xiàng)目將來(lái)自世界各地研究所的多學(xué)科研究團(tuán)隊(duì)聯(lián)合起來(lái),包括中國(guó),意大利,日本,肯尼亞,尼日利亞,秘魯,英國(guó)和美國(guó)。每一個(gè)都將為龐大的序列數(shù)據(jù)集和精細(xì)的人類基因組圖譜做出貢獻(xiàn),這些圖譜將通過(guò)公共數(shù)據(jù)庫(kù)免費(fèi)提供給科學(xué)界和公眾。

1000 Genome Project 的目標(biāo)是發(fā)現(xiàn)在人群中頻率大于1%的變異位點(diǎn),對(duì)來(lái)自不同人群的大量樣本進(jìn)行測(cè)序,識(shí)別到了許多的變異位點(diǎn),為人類遺傳變異的研究提供了一個(gè)綜合的資源。

1000個(gè)基因組項(xiàng)目的人口樣本的位置,每個(gè)圓圈代表最終版本中的序列數(shù)
基因數(shù)量和順序的變化(A-D)在群體內(nèi)和群體之間產(chǎn)生遺傳多樣性

人類基因組由大約30億個(gè)DNA堿基對(duì)組成,估計(jì)攜帶約20,000個(gè)蛋白質(zhì)編碼基因。在設(shè)計(jì)研究時(shí),該聯(lián)盟需要解決有關(guān)項(xiàng)目指標(biāo)的若干關(guān)鍵問(wèn)題,如技術(shù)挑戰(zhàn),數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和序列覆蓋。

整個(gè)項(xiàng)目劃分為四個(gè)階段,試點(diǎn)階段和三個(gè)主要階段。

(1)為了確定整個(gè)項(xiàng)目的最終設(shè)計(jì),設(shè)計(jì)了三個(gè)試點(diǎn)研究,并將在項(xiàng)目的第一年內(nèi)進(jìn)行:

  • 第一個(gè)試點(diǎn)旨在對(duì)低覆蓋率(2x)的3個(gè)主要地理群體的180個(gè)人進(jìn)行基因分型。

  • 第二項(xiàng)初步研究,兩個(gè)核心家族(父母和成年子女)的基因組將進(jìn)行深度覆蓋(每個(gè)基因組20倍)的測(cè)序。

  • 第三項(xiàng)試點(diǎn)研究涉及對(duì)1000名深度覆蓋(20x)的1000個(gè)基因的編碼區(qū)(外顯子)進(jìn)行測(cè)序。

(2)主要階段中只有第一階段和第三階段產(chǎn)生了數(shù)據(jù),每個(gè)階段數(shù)據(jù)的詳細(xì)情況如下圖所示

image

主要階段包括三個(gè)項(xiàng)目:

來(lái)自4個(gè)群體的180個(gè)個(gè)體的低覆蓋度全基因組測(cè)序
2個(gè)三人組(母親 - 孩子)的高覆蓋率排序
來(lái)自7個(gè)群體的697個(gè)個(gè)體的外顯子靶向測(cè)序

結(jié)果發(fā)現(xiàn),平均而言,每個(gè)人在注釋基因中攜帶約250-300個(gè)功能喪失變體,并且先前涉及遺傳性疾病的50-100個(gè)變體。

整個(gè)項(xiàng)目從2008年開(kāi)始到2013年結(jié)束,最終的版本為2013年5月2日發(fā)布的數(shù)據(jù), 包含了來(lái)自26個(gè)人群,共2504個(gè)樣本的SNP分型結(jié)果。根據(jù)Fort Lauderdale principles原則,所有基因組序列數(shù)據(jù)(包括變體調(diào)用)隨著項(xiàng)目的進(jìn)展免費(fèi)提供,1000G的數(shù)據(jù)是免費(fèi)公開(kāi)的,可以通過(guò)ftp下載得到。


二、Human genome samples

1000 Genomes項(xiàng)目遵循廣泛的道德程序,然后將使用志愿捐贈(zèng)者的樣本。研究中將包括以下人群:尼日利亞伊巴丹(YRI)的約魯巴人;日本人在東京(JPT);中國(guó)人在北京(CHB);來(lái)自北歐和西歐的猶他州居民(CEU); Luhya在肯尼亞Webuye(LWK);肯尼亞Kinyawa的馬賽(MKK);意大利托斯卡尼(TSI);秘魯利馬的秘魯人(PEL);休斯頓的古吉拉特印第安人(GIH);中國(guó)人在大都會(huì)丹佛(CHD);洛杉磯墨西哥人(MXL);和美國(guó)西南部的非洲血統(tǒng)人士(ASW)。

image

三、FTP下載

FTP 結(jié)構(gòu)(README.ftp_structure) 千人基因組計(jì)劃有兩個(gè)主要的 ftp 站點(diǎn)鏡像: ftp://ftp.1000genomes.ebi.ac.uk
ftp://ftp-trace.ncbi.nih.gov/1000genomes/

image
image

1.在頂層有 6 個(gè)目錄, 分別是 data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details。還有一個(gè) pilot_data 目錄,它包含來(lái)自初步研究 (pilot study)的數(shù)據(jù),以及Index files。

  • 1.data:data 目錄包含主要工程的每個(gè)個(gè)體的子目錄, 每個(gè)單獨(dú)的子目錄也包含一系列 的子目錄--包含不同的數(shù)據(jù)集,例如 sequence reads 和 sequence alignments 等。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 與 population 對(duì)應(yīng)的信息。

  • 2.release:包含日期命名的目錄, 這些目錄又包含發(fā)布于那個(gè)日期的分析結(jié)果集,并且也 包含 readme 用于解釋這些數(shù)據(jù)集是怎么產(chǎn)生的。release 目 錄 以 后 ( 此 readme 文 件 創(chuàng) 建 日 期 為 20110404 ) 將 基 于 YYYYMMDD.sequence.index(這一文件保存在 ftp/sequence_indices/目錄下)中 的日期格式進(jìn)行命名。在這些 YYYYMMDD 目錄中的 SNP 和 indel calls 等是基 于 YYYYMMDD.sequence.index 文件所列出的數(shù)據(jù)比對(duì)產(chǎn)生的。 例如:目錄 ftp/release/20100804/中包含的 SNP 和 indels calls 的發(fā)布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件產(chǎn)生的。

  • 3.technical:這一目錄包含許多的子目錄--包含諸如模擬產(chǎn)生的數(shù)據(jù)集或方法開(kāi)發(fā)產(chǎn)生的interm 數(shù)據(jù)集文件等。 注意:technical/working 目錄--這一目錄包含的數(shù)據(jù)有 experimental status(未公 開(kāi)發(fā)表) ,適合內(nèi)部項(xiàng)目使用。請(qǐng)小心使用。

  • 4.sequence_indices:這個(gè)目錄包含所有先前產(chǎn)生的 sequence.index 文件。 每個(gè)文件以 YYYYMMDD 開(kāi)頭,表明了它的發(fā)布日期。出現(xiàn)在主要項(xiàng)目 bam 文件名字中日期將這些 bam 文件連接到了相應(yīng)的序列,因?yàn)?sequence.index 文件名中包含相同的日期。 最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配。 例子:NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文 件被創(chuàng)建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件,每個(gè) sequence.index 文件都伴隨著兩種類型的統(tǒng)計(jì)文件(stats.cvs 和 .stats),每個(gè) YYYMMDD_sequence.index.stats 文件包含 summary 信息--關(guān)于序列數(shù)據(jù) 的 Study/Population/Center/Sample coverage 統(tǒng)計(jì)量。

.stats 文 件 名 中 包 含 測(cè) 序 策 略 名 稱 (exome,low_coverage) , 這 些 名 稱 包 含 summary 信息的一個(gè)子集(只與 exome/low_coverage 信息有關(guān)) ,而 summary 信 息包含在 YYYMMDD_sequence.index.stats 中。 例如: 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 統(tǒng) 計(jì) 文 件 給 出 了 來(lái) 自 sequence.index 文 件 的 Population, Center 和 Sequencing platform 發(fā)生的增量變化。 例如:文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 給出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出數(shù)據(jù)的摘要信息差異。

  • 5.alignment_indices:這 個(gè) 目 錄 包 含 所 有 先 前 產(chǎn) 生 的 alignment.index 文 件 , 每 個(gè) 文 件 開(kāi) 頭 的 YYYMYDD 表明所基于的 sequence.index 文件的比對(duì)。 最近的文件也應(yīng)該與 ftp/sequence.index 文件相匹配。 你可能也會(huì)發(fā)現(xiàn) stats 文件,例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件,如 20101123_ 20100901.alignment_ stats.low_ coverage.csv,這種類型的 文件包含與 sequence_ indices 目錄中的 stats 文件類似的信息。

  • 6.changelog_details:為了保證主要的 root-level CHANGELOG 可讀性和滾動(dòng)性,任何 ftp 站點(diǎn)內(nèi)容 的改變會(huì)被總結(jié)在此目錄中。這些文件的命名可反映了 when 和 what 改變發(fā)生 了,例如'new', 'moved', 'replacement' or 'withdrawn'。 例子: changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved。

  • 7.pilot_data:這代表一個(gè)凍結(jié)版本的 pilot 數(shù)據(jù)。 它包含了與主要 ftp 目錄具有相同目錄形式 大部分的目錄。

  • 8.The analysis group of the sequence, this reflects sequencing strategy - sequence.index 文件的發(fā)布日期包含序列文件的列表用于構(gòu)建 alignment 文件。 (對(duì)于 ftp/pilot_data 中的 alignment 文件 SLX for illumina, 454 for 454 and SOLID for SOLiD。 The SRP is the study identifier, 31 is pilot1 low coverage, 32 is pilot2 high coverage, 33 is pilot3 gene targetted sequencing。 ) 如果文件名包含“ unmapped ” , bam 代表與個(gè)體相關(guān)的 reads 沒(méi)有 map the reference. 每個(gè) bam 文件都伴隨一個(gè) index 文件(.bai)和一個(gè)統(tǒng)計(jì)文件(.bas)可以查看 ftp/README.alignment_data 文件中找到關(guān)于.bas 文件的描述。 所有比對(duì)都與 the reference(ftp/technical/reference/)進(jìn)行了比較。 pilot/data alignments are against the NCBI Build 36 reference. Main project alignments are against the GRCh37 reference.

  • 文件名以來(lái)自 Corelli/Hapmap 的 sample 名開(kāi)始。
  • 如果比對(duì)過(guò)程已經(jīng)利用染色體 split,那么文件命中會(huì)包含染色體名。
  • 測(cè)序技術(shù)為 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD。
  • the aligner used 名字縮寫(bwa, bfast 等)。
  • population 縮寫為三個(gè)字符。
  • Index files:千人基因組產(chǎn)生的數(shù)據(jù)量是前所未有的。 為確保所有數(shù)據(jù)都能易于定位到最近 更 新 的 序 列 和 比 對(duì) 文 件 , 因 此 有 了 index files 。 ftp/sequence.index 文 件 和 ftp/alignment.index 文件。 這 些 文 件 的 格 式 說(shuō) 明 在 : ftp/README.sequence.index 文 件 和 ftp/README.alignment.index 文件中。 這些 index files 應(yīng)該可以為你提供足夠的信息下載文件 subsets(基于 study, individual or technology)。它們也包含文件的 md5s。 主要項(xiàng)目的比對(duì)文件名中也包含相似的信息: data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名組分:

2.頂層還包含兩個(gè)主要的 index 文件:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index

序列數(shù)據(jù)(README.sequence_data) 這一 readme 文件描述了 ftp 站點(diǎn)上的序列數(shù)據(jù), 它是如何處理以及序列數(shù)據(jù)中哪 些信息是可用的。 目錄結(jié)構(gòu)和 sequence index 文件: 所有的序列數(shù)據(jù)都是 fastq 格式, 它給出了一段 序列以及每個(gè) read 的質(zhì)量字符串。 序列文件存在/data/XXXXXX/sequence_read 目錄中( XXXXXX 代表樣本名, this should be in the form or coriell sample names HGXXXXX or NAXXXXX)。與 meta 數(shù)據(jù)相關(guān)的一個(gè)特殊文件(包含 meta 數(shù)據(jù) md5sum)可以在 sequence.index 文件中找到。這是一個(gè) tab 分割的文件,它的每一列都包含一塊不同的 meta 信息。

參考:

https://en.wikipedia.org/wiki/1000_Genomes_Project
https://mp.weixin.qq.com/s/R4vvQW8mg81ZJxTifTqOMw
https://mp.weixin.qq.com/s/KHlWWMNOkFJqBq4DZqg7pQ
https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

轉(zhuǎn)載請(qǐng)注明出處

歡迎關(guān)注公眾號(hào):oddxix

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容