原文鏈接:COSMIC: exploring the world's knowledge of somatic mutations in human cancer
文獻(xiàn)來源:文獻(xiàn)Scalable Open Science Approach for Mutation Calling of Tumor Exomes Using Multiple Genomic Pipelines的參考文獻(xiàn)之一
備注:NAR系列文章之一
概述
- COSMIC(癌癥體細(xì)胞突變目錄)是世界上最大也最綜合的探索體細(xì)胞突變對人類癌癥影響的資源;
- COSMIC最初是在2004年發(fā)表,最初只是收錄編碼基因的點(diǎn)突變,現(xiàn)在則包含百萬級別的覆蓋編碼區(qū)突變、非編碼區(qū)突變、基因組重排、融合基因、拷貝數(shù)變異以及基因表達(dá)變異等多種類型的變異;
收獲
- 數(shù)據(jù)庫構(gòu)建部分,作者多次強(qiáng)調(diào)“manual curation”,不僅能夠獲取非常詳細(xì)(very high detail)的變異位置信息、疾病描述信息以及其他的患者和人群信息(如年齡、種族和治療方案信息)等,同時(shí)還能夠提高對系統(tǒng)化方法的質(zhì)量控制:對于通過程序化的方法獲取的諸如基因和核酸的文章及信息,可以通過人工審查的方式發(fā)現(xiàn)并過濾有問題的文章和信息。對此,作者給出了一個(gè)統(tǒng)計(jì)數(shù)字:到目前為止審查的25,715篇文章中,有超過30%的文章由于人工審查不通過而沒有被數(shù)據(jù)庫所收錄;
- 除了manual curation的方法獲取數(shù)據(jù),還提供了一種“semi-automated approach”來獲取大量的癌癥基因組/外顯子組數(shù)據(jù)集:詳細(xì)的樣本信息和疾病描述信息是通過人工的方式獲取的,但是突變的信息,主要是基因組坐標(biāo)信息是通過一個(gè)軟件流程(software pipeline)使用Ensembl注釋來實(shí)現(xiàn)的;
- 寫關(guān)于網(wǎng)站的使用介紹,可以參考本文的相應(yīng)部分:非常詳細(xì);
- 本文的特點(diǎn)重在數(shù)據(jù)庫內(nèi)容,但是文章本身沒有涉及太多的技術(shù)的部分,基本上全篇都在“陳述”,像是純粹的文章型論文,很難感受到作者具體做了哪些工作;
原文摘錄
- Copy number annotations are split into numeric and descriptive data sets, the former with full details on absolute copy number at each locus, the latter simply annotating regions of ‘gain’ and ‘loss’;
- COSMIC is a database system designed to bring together the world’s information on somatic mutations in human cancer into one single system and make it easily explorable.