在學(xué)習(xí)bedtools的過程中偶遇一個(gè)非常棒的網(wǎng)站,就是其作者 Aaron R. Quinlan的實(shí)驗(yàn)室網(wǎng)站http://quinlanlab.org/
bedtools這個(gè)軟件工具支持對(duì)BAM、BED、GFF/GTF、VCF等和基因組區(qū)域有關(guān)文件的intersect, merge, count, complement, and shuffle等操作。這個(gè)解釋有點(diǎn)抽象,不過總的來說就是一個(gè)非常棒的工具,曾老師曾經(jīng)強(qiáng)烈推薦初學(xué)者跟著學(xué)習(xí)的。
2010年這個(gè)工具被發(fā)在了Bioinformatics上,作者當(dāng)時(shí)還在美國(guó)弗吉尼亞大學(xué)醫(yī)學(xué)院,現(xiàn)在工作在猶他大學(xué),他的博客有篇比較新的博文解釋他們實(shí)驗(yàn)室最新發(fā)現(xiàn)http://quinlanlab.org/blog/2018/12/20/constrained-coding-regions.html
對(duì)基因組突變位點(diǎn)的解讀,我覺得非常有意思,就記錄了下來。其中有個(gè)小工具也非常棒,對(duì)bed文件等(BAM, VCF, GTF, or BED files(indexed BAMs, other files bgzipped and tabixed))用網(wǎng)頁(yè)工具進(jìn)行IGV可視化的。https://s3.us-east-2.amazonaws.com/ccrs/ccr.html
這篇博客的一開始引用了2個(gè)歷史人物的語(yǔ)錄,因?yàn)榉g的水平有限,就直接摘錄原文吧
Once in a while you get shown the light
In the strangest of places if you look at it right.
- Jerry Garcia and Robert Hunter, Scarlet Begonias
The unseen enemy is always the most fearsome.
- George R.R. Martin, A Clash of Kings
為什么作者一開始會(huì)引用這2個(gè)語(yǔ)錄呢?往后看了才明白他的意思,在博文中他先引入了一張圖后面又講到一個(gè)來自維基百科的故事。

在這篇博文中,作者提供了他們發(fā)表在eLife的手稿的背景和概述,題目是"A map of constrained coding regions in the human genome"。簡(jiǎn)單地說,作者研究了從基因組聚合數(shù)據(jù)庫(kù)(GnomAD)的2.0.1版中檢測(cè)到的超過120,000個(gè)人類外顯子的遺傳變異,以揭示由于非典型變異的缺乏而受到限制的焦點(diǎn)編碼區(qū)(例如,在上圖所示的區(qū)域)。這些“受限編碼區(qū)”(CCR,constrained coding regions)被推斷為處于強(qiáng)烈的純化選擇(purifying selection)之下,并富集了已知的致病變異。也許這張CCR圖譜最耐人尋味的方面是這樣一個(gè)事實(shí),即許多最受限制的區(qū)域位于缺乏先前疾病關(guān)聯(lián)的基因內(nèi)。這些區(qū)域有望在發(fā)育障礙(developmental disorders)的背景下發(fā)現(xiàn)新的疾病基因。
首先是解釋人類基因組中最受限制的區(qū)域是什么?
人類遺傳學(xué)的一個(gè)長(zhǎng)期興趣是確定我們基因組中對(duì)生命和正常發(fā)育最重要的子集。一般來說,這樣的區(qū)域應(yīng)該處于最高的純化選擇之下,因此應(yīng)該表現(xiàn)出較低的核苷酸多樣性。在蛋白質(zhì)編碼基因的情況下,應(yīng)特別注意對(duì)蛋白質(zhì)改變(i.e., missense, stop-gain, frameshift, etc.)的strong “constraint”的variants。事實(shí)上,這個(gè)概念強(qiáng)調(diào)了最近的“gene-wide” constraint指標(biāo)背后的動(dòng)機(jī),比如Residual Variation Intolerance Score (RVIS)和較新的probability of Loss-of-function Intolerance (pLI) score。雖然這些指標(biāo)已被證明對(duì)罕見疾病的研究非常有用,但單一的、全基因的指標(biāo)本質(zhì)上不能描述每個(gè)蛋白質(zhì)編碼基因中存在的constraint的區(qū)域差異。確定constraint的焦點(diǎn)區(qū)域是作者們的動(dòng)機(jī)。下面是作者結(jié)合部分已發(fā)表文章的歷史、主要成果和數(shù)據(jù)文件,以及他們對(duì)未來重要研究的看法。
背景部分
作者講到2010年末的某個(gè)時(shí)候,當(dāng)他正緊張地準(zhǔn)備成立自己的研究小組時(shí)(他說自己甚至無法表達(dá)他有多害怕),他看到了一場(chǎng)演講,描述了NHLBI外顯子測(cè)序項(xiàng)目對(duì)大約6000個(gè)人類外顯子進(jìn)行測(cè)序的目標(biāo)。作者(可能還有其他許多人)很快意識(shí)到,他們可以利用在這些外顯子中發(fā)現(xiàn)的變異,從這些樣本中沒有變異的情況下推斷出處于純化選擇之下的編碼區(qū)。與才華橫溢的比爾·皮爾森進(jìn)行了多次有趣的討論,將研究集中在一起。不久之后,吉姆·哈夫里拉(Jim Havrilla)加入了他的實(shí)驗(yàn)室,很快就在他的博士課題中對(duì)這個(gè)想法進(jìn)行深入的研究。
在接下來的8年中這個(gè)想法的核心催生了該課題組在人類基因組中受限編碼區(qū)圖譜的創(chuàng)建。這項(xiàng)工作從頭到尾都由吉姆·哈夫里拉(Jim Havrilla)領(lǐng)導(dǎo),同時(shí)得益于布倫特·彼得森(Brent Pedersen)和瑞安·萊爾(Ryan Layer)的聰明想法、巧妙的代碼應(yīng)用。
題外話:
從背景部分我們看到了一個(gè)年輕的研究員初創(chuàng)自己的團(tuán)隊(duì)在助理和博士研究生的共同協(xié)作下奮戰(zhàn)了8年的一個(gè)結(jié)果。科研之路非常艱辛,但是團(tuán)隊(duì)的協(xié)作總能完成最后的工作,而且?guī)孜荒贻p人可以說是白手起家用公共數(shù)據(jù)完成學(xué)術(shù)研究,并有了獨(dú)到的見解,非常值得我輩學(xué)習(xí),我們國(guó)內(nèi)的博士培養(yǎng)很多都是類似的模式,可是真正和導(dǎo)師一樣為了同目標(biāo)非常有興趣的進(jìn)行研究工作的還是少。非常羨慕這種純粹的有意義的研究工作。這可能與很多制度問題相關(guān),這里就不展開吐槽了。
作者研究的這個(gè)想法是基于survival bias的概念,這個(gè)概念在科學(xué)中很普遍,在二戰(zhàn)期間亞伯拉罕·沃爾德和統(tǒng)計(jì)研究小組(SRG)的工作中得到了最著名的證明。這是一個(gè)來自維基百科的故事:盟軍飛機(jī)被擊落,軍方領(lǐng)導(dǎo)層顯然想阻止飛機(jī)損耗速度。然而,金屬是稀缺的。此外,在添加金屬進(jìn)一步保護(hù)飛機(jī)的同時(shí),也會(huì)降低飛機(jī)的機(jī)動(dòng)性和燃油效率。這是一個(gè)經(jīng)典的優(yōu)化問題--他們?nèi)绾卧谧畲蠡烙耐瑫r(shí)使用最少的金屬?SRG收到了描述從他們出動(dòng)歸來的數(shù)百架飛機(jī)上觀察到的彈孔圖案的數(shù)據(jù)。據(jù)說軍方領(lǐng)導(dǎo)層對(duì)這一數(shù)據(jù)的解讀是,裝甲應(yīng)該放在彈孔最密集的地方(這就是我們被槍擊的地方!)。沃爾德不同意這一點(diǎn)。他認(rèn)為,觀測(cè)到的數(shù)據(jù)是有偏差的,因?yàn)樗鼈冎粊碜苑祷?幸存)的飛機(jī)。他認(rèn)為,裝甲應(yīng)該放在沒有子彈的地方,因?yàn)檫@些地區(qū)很可能是被擊落的飛機(jī)受損的地方。換句話說,這些都是受限制的飛行區(qū)域。
就是從上面這個(gè)小故事激發(fā)了作者的idea。
作者團(tuán)隊(duì)使用survival bias來識(shí)別人類基因組中的限制性(即在強(qiáng)烈的純化選擇下)編碼區(qū)(CCR),因?yàn)樵诖笥?2萬(wàn)個(gè)人類外顯子中沒有蛋白質(zhì)變化的變異很多。
關(guān)鍵性結(jié)果展示
正如手稿中詳細(xì)描述的那樣,作者將限制性編碼區(qū)確定為蛋白質(zhì)編碼基因片段,在基因組聚合數(shù)據(jù)庫(kù)(GnomAD)中的120,000個(gè)外顯子中甚至沒有一個(gè)蛋白質(zhì)variant 的基因。雖然gnomAD中這種變異出現(xiàn)的的平均密度約為每7個(gè)coding bases中包含1個(gè),但最受限制的編碼區(qū)(例如,在第99個(gè)百分位數(shù)或以上)通常缺少超過100個(gè)堿基的蛋白質(zhì)改變variant 。例如,下面的紅色區(qū)域反映了我們?cè)贙CNQ2和TNNT2中確定的第95個(gè)百分位數(shù)和更高的CCR。

作為一個(gè)陽(yáng)性對(duì)照證明,最受限制的編碼區(qū)富集了ClinVar中已知的罕見人類疾病表型背后的致病變異。例如,最受限制的區(qū)域之一是在SCN8A中沒有蛋白質(zhì)改變變異的274編碼堿基對(duì)區(qū)域。組成該CCR的4個(gè)外顯子編碼大部分離子運(yùn)輸結(jié)構(gòu)域。下面是使用IGV.js構(gòu)建的CCR瀏覽器的屏幕截圖。圖像有點(diǎn)難以辨認(rèn),因此可以通過此鏈接直接查看該區(qū)域。暗紅色區(qū)域反映第99個(gè)百分位數(shù)或以上的CCR。

作者發(fā)現(xiàn)CCR補(bǔ)充了其他不同的優(yōu)先排序工具,用于解釋罕見疾病背景下的
de novo突變。他們認(rèn)為,位于最受限(例如,第99個(gè)百分位數(shù)或更高)編碼區(qū)的de novo突變可能與發(fā)育表型有關(guān)。事實(shí)上,雖然它沒有被寫入手稿,但在他們團(tuán)隊(duì)最近對(duì)早期嬰兒癲癇性腦病的研究中發(fā)現(xiàn)的幾乎所有致病突變都位于CCR內(nèi),位于第95個(gè)百分位數(shù)或以上(大多數(shù)在第99個(gè)百分位數(shù)以上)。
因此,作者認(rèn)為,在發(fā)育障礙的背景下,位于regions of the highest constraint內(nèi)的de novo突變特別令人感興趣。然而,一個(gè)重要的警告是,不能簡(jiǎn)單地忽略less constrained regions的突變,因?yàn)樵S多已知的致病等位基因位于表現(xiàn)密集變異的區(qū)域(例如,BRCA1)。
另一個(gè)有趣的結(jié)果是,觀察到物種內(nèi)的constraint往往與物種間的conservation measurements相輔相成;也就是說,conservation measurements并不總是預(yù)測(cè)物種內(nèi)的constraint。此外,我們還確定了具有最大限制的蛋白質(zhì)結(jié)構(gòu)域家族的子集。從高水平上看,這些結(jié)構(gòu)域通常與DNA相互作用或修飾染色質(zhì)。關(guān)于這些領(lǐng)域中的constraint的大部分細(xì)節(jié)在Boukas等人的預(yù)印本文章中有更詳細(xì)講述。
是否會(huì)提示新的致病基因呢?
考慮到已知致病變異的高CCRs的富集,最令作者和我們興奮的結(jié)果是許多高度(>99%)受限制的區(qū)域位于缺乏先前疾病關(guān)聯(lián)的基因內(nèi)。當(dāng)然,其中一些是假陽(yáng)性。然而,可以預(yù)想假設(shè)其中一些區(qū)域反映了強(qiáng)烈的凈化選擇,當(dāng)它們發(fā)生突變時(shí),會(huì)導(dǎo)致發(fā)育表型,甚至胚胎死亡。
作者說他們很高興在未來的研究中探索這些區(qū)域,并希望受限編碼區(qū)的地圖的繪制將有助于指導(dǎo)我們未來的研究,并使罕見疾病研究中的突變解釋成為可能。此外已經(jīng)有不少報(bào)道已經(jīng)證實(shí)了一想法(參見Jensen et al, Wray et al, and Boukas et al)!也是我們可以研究的熱點(diǎn)。
作者強(qiáng)調(diào)他們的識(shí)別受限編碼區(qū)(CCRs)的方法的優(yōu)雅之處在于它非常簡(jiǎn)單。然而,它故意非常嚴(yán)格,因?yàn)樗麄兿M麑⒄`報(bào)降至最低。誠(chéng)然,基于gnomAD中存在的單個(gè)改變蛋白質(zhì)的variant而“破壞”constrained regions可能會(huì)導(dǎo)致假陰性;也就是說,被單個(gè)variant破壞的更大的constrained regions。我們強(qiáng)調(diào),我們創(chuàng)建的map揭示了dominant model下的constrained regions,而不是很適合于recessive constraint。最后,盡管gnomAD很強(qiáng)大,但它主要由歐洲血統(tǒng)的個(gè)體variation而成。因此,我們的map模型在多大程度上恰當(dāng)?shù)啬M了其他人種中的constrained regions,目前還不清楚。
在這些年里,大量的人類基因組將被測(cè)序。此外,由于gnomAD和其他努力,人們對(duì)人類基因組學(xué)中的數(shù)據(jù)共享做出了令人興奮的commitment。因此,作者希望這項(xiàng)研究,以及Kaitlin Samocha的類似想法,能夠啟動(dòng)新的方法來分離我們基因組的關(guān)鍵區(qū)域。預(yù)計(jì),來自更多人類基因組的變異將提高預(yù)測(cè)處于強(qiáng)烈純化選擇下的區(qū)域的分辨率和準(zhǔn)確性。同樣,多虧了gnomAD、Genomics England、TopMED和Centers for Common Disease Genomics,他們正在迅速分析數(shù)據(jù)集,包括超過10萬(wàn)個(gè)基因組的全基因組變異。這些數(shù)據(jù)集蘊(yùn)含著一個(gè)有趣的前景,即在我們基因組的非編碼區(qū)對(duì)人類的constraint進(jìn)行建模。
最后作者強(qiáng)調(diào):我們將繼續(xù)使用未來版本的gnomAD以及其他資源來更新我們的CCR map。我們也期待著將出現(xiàn)的新方法,并渴望繼續(xù)我們?cè)谶@一領(lǐng)域的研究。敬請(qǐng)關(guān)注。