0. 簡介
這篇文章是2018年12月發(fā)表在期刊molecular system biology上的一篇關(guān)于SNV效應(yīng)預(yù)測的資源數(shù)據(jù)庫。通訊作者和第一作者都來自European Bioinformatics Institute的分子生物學(xué)實(shí)驗(yàn)室。該文章的亮點(diǎn)主要在于從分子機(jī)制層面解析SNV,在人類疾病相關(guān)的SNP研究中,早在2012年就有相關(guān)的對SNP進(jìn)行注釋的工作(以RegulomeDB為代表),那時(shí)還只是針對SNP與功能基因組在物理位置的overlap來注釋。隨后也有各種基于機(jī)器學(xué)習(xí)/深度學(xué)習(xí)對各種調(diào)控序列(TFBS、DHS、Methylation)建模, 然后根據(jù)SNP上下游的序列預(yù)測兩個(gè)分值,再根據(jù)這個(gè)分值構(gòu)建二分類模型,從而實(shí)現(xiàn)注釋SNP。這樣的軟件有很多,隨后又有文章FUMA整合了各種各樣的預(yù)測軟件,但個(gè)人認(rèn)為FUMA這篇文章雖然發(fā)表了NC,而且引用也很高,但是卻沒有MSB這篇文章的意義、創(chuàng)新性大。
1. 摘要
- 在遺傳學(xué)中,不論是編碼區(qū)域還是非編碼區(qū)域的SNV的效應(yīng)都是生物學(xué)家感興趣的。目前雖然也有很多計(jì)算方法用于闡述SNV在細(xì)胞機(jī)制中的效應(yīng),但是并沒有直接全面覆蓋SNV的分子效應(yīng) (molecular effects);
- 為了解決這個(gè)問題,作者匯編(compile; to collect information from different places and arrange it in a book, report, or list)了基于序列和基于結(jié)構(gòu)的SNP效應(yīng)predictor,并預(yù)測了人類和酵母中相對于參考基因組幾乎所有的氨基酸和核苷酸變異;
- 這篇文章涉及到的機(jī)制研究包括: protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites。作者向我們展示了如何使用這個(gè)數(shù)據(jù)資源來生成protein complex burden scores 進(jìn)而與表型進(jìn)行關(guān)聯(lián);
- 數(shù)據(jù)資源可以通過以下鏈接訪問:www.mutfunc.com
2. 前言
- GWAS是將表型與基因型聯(lián)系的重要手段,但是GWAS既不能找到causal variant,又難以解釋causal variant的機(jī)制
- 編碼區(qū)和非編碼區(qū)的SNP都可以影響各種各樣的生物學(xué)功能;
- 通過預(yù)測的手段去挖掘遺傳變異改變的機(jī)制將是省時(shí)有省財(cái)?shù)姆椒?;雖然目前也有很多關(guān)于這方面的預(yù)測,但是都不能提供全面的預(yù)測效應(yīng)以及解析機(jī)制而且使用起來需要專業(yè)人員操作;
- 因此這篇文章中作者大量的預(yù)測了人類、酵母和大腸桿菌中幾乎所有SNV的變異,從不同層面(包括the context of conserved protein regions, protein stability, protein– protein interaction (PPI) interfaces, PTMs, kinase–substrate interactions, short linear motifs (SLiMs), start and stop codons, and tran- scription factor (TF) binding sites (TFBSs))解析SNP的機(jī)制。
3. 結(jié)果
3.1 在酵母和人類個(gè)體中功能基因組區(qū)域展現(xiàn)出了進(jìn)化約束 (Functional genomic regions display evolutionary constraint across yeast and human individuals)
- 這部分作者主要從RSA、PTM、TFBS三個(gè)層面論證有功能的區(qū)域富集的自然變異更少

RSA: relative surface accessibility,蛋白質(zhì)表面氨基酸殘基的可及性。
Figure 1A-1B: 文章根據(jù)RSA將氨基酸殘基分成bin,統(tǒng)計(jì)這個(gè)bin里自然變異(natural variation)的數(shù)目,與隨機(jī)選取的殘基進(jìn)行比較(也就是縱坐標(biāo)表示的expected variant count), 然后隨機(jī)1000次(permutation),計(jì)算p值。發(fā)現(xiàn)隱藏(buried region; 對應(yīng)1A, RSA越小表明是隱藏區(qū)域)與結(jié)合區(qū)域(interface region;對應(yīng)對應(yīng)1B, delta RSA越大表明事結(jié)合區(qū)域)與暴露在外面的區(qū)域相比,前者的自然變異數(shù)目更少;
Figure 1C: 這個(gè)圖主要是想分析與隨機(jī)相比,不同類型的PTM (翻譯后修飾;去了上下游5個(gè)殘基)富集的自然變異是否有差異;
Figure 1D: 從圖C中我們并沒有看出不同類型的PTM有很強(qiáng)的約束性,隨后作者又分析了每個(gè)PTM上下游5個(gè)殘基的自然變異富集情況,發(fā)現(xiàn)如果PTM的周圍也有其他PTM存在的話,約束會變強(qiáng)(自然變異的數(shù)目變少);
Figure 1E: 接下來作者分析了TFBS內(nèi)自然變異的富集情況,預(yù)測出來的TFBS里的SNV與chip-seq peak里的其他區(qū)域進(jìn)行比較,有些轉(zhuǎn)錄因子結(jié)合區(qū)域是非常constraint;
Figure 1F: 進(jìn)一步研究分析發(fā)現(xiàn),那些TFBS聚成cluster的位點(diǎn)約束性更強(qiáng);
-
Figure 1G: 作者首先使用了information content (IC)概念,是指:position-specific information content (IC) of the TF specificity position weight matrices,根據(jù)PWM計(jì)算出來的值,越大代表與TF結(jié)合能力越強(qiáng)。這個(gè)圖表明IC越大,約束性越強(qiáng),與預(yù)期的結(jié)果一致;
Figure 1H: 這部分作者舉了四個(gè)例子表明高IC與低IC位置的約束性差異。
其他信息:(A, B, F) P-values represent a one-sided Wilcoxon test. (A, B, C, D, F) Error bars represent the standard deviation. One hundred random samples were used. (G) P-value shown is computed using a one-sided Kolmogorov–Smirnov test.
3.2 單核苷酸變異的機(jī)制效應(yīng)的綜合資源 (A comprehensive resource of mechanistic effects of single nucleotide variants)

- Figure 2A: 大范圍的預(yù)測SNV對于保守蛋白區(qū)域、蛋白穩(wěn)定性、蛋白相互作用表面、激酶-底物磷酸化以及其他的PTMs、linear motifs、TFBS、start and stop codons
3.3 功能重要的位置富含預(yù)測的有害變異 (Functionally important positions are enriched in predicted deleterious variants)

- Figure 2B: 首先用essential gene中是否擁有更少的致病自然變異,結(jié)論與之前一致,essential gene中致病的自然變異更少;
- Figure 2C: 致病自然變異與MAF的關(guān)系,從圖中可以看出,MAF越大,致病的比例越低,這也暗示了罕見變異的重要性;
- Figure 2D: 此部分評估了不同軟件對于致病變異的分類能力,SIFT擁有最好的分類性能。SIFT performed the best at discriminating pathogenic variants from benign (AUC H. sapiens = 0.87, S. cerevisiae = 0.92), followed by FoldX interfaces (AUC H. sapi- ens = 0.64, S. cerevisiae = 0.72) and FoldX stability (AUC H. sapi- ens = 0.70, S. cerevisiae = 0.62, Fig 2D).

- Figure 2E-2F: 雖然功能重要的區(qū)域中(preserves motif, disrupts motif, disrupts non-PTM res, disrupts PRM res, Start lost, Stop lost, Stop gain)致病自然變異的數(shù)目很少,但從統(tǒng)計(jì)意義來說,這些區(qū)域還是富含質(zhì)變變異的。
3.4 對于不確定顯著性的SNP預(yù)測其機(jī)制效應(yīng) (Predicting mechanistic impacts of variants of uncertain significance)

- VUS: variants of uncertain significance, 已經(jīng)通過遺傳檢驗(yàn)檢測出來的SNP,但是還不確定是benign或者pathogenic。
- Focus到影響蛋白結(jié)構(gòu)完整性的變異
- 舉例子證明找到的會影響蛋白結(jié)構(gòu)的VUS
3.5 釀酒酵母菌株間的基因組差異是表型相似性的重要但弱的預(yù)測因子
-
這部分內(nèi)容用來闡述如何使用mutfunc來進(jìn)行基因型-表型的關(guān)聯(lián)分析。
Figure 4A: 兩個(gè)重復(fù)之間的S分值的一致性說明了數(shù)據(jù)一致性、可靠性。
Figure 4C: 93個(gè)測序菌株的基因型距離以及表型距離的散點(diǎn)圖。

- Figure 4B: S-score在不同菌株不同條件下的熱圖。
3.6 Gene and complex disruption scores for genotype-to- phenotype associations
由于絕大部分變異都是中性的,因此此部分作者使用SIFT(for conservation), FoldX(protein stability)和protein truncating variants (PTVs)從基因水平計(jì)算a total gene burden或者disruption score

- Figure 5A: 基因水平計(jì)算a total gene burden或者disruption score的方法。

