轉(zhuǎn)發(fā)自http://crickcollege.com/news/155.html
緣起
在2016年三月的Molecular & Cellular Proteomics 上有篇名為"Large Scale Mass Spectrometry-based Identifications of Enzyme-mediated Protein Methylation Are Subject to High False Discovery Rates" (http://dx.doi.org/10.1074/mcp.M115.055384)的文章來(lái)自于新南威爾士大學(xué),采用了三種樣品制備方式(coomassie gel, unstained gel, HILIC)與三種離子化方式(CID, ETD, HCD)組合,得到了9組數(shù)據(jù),對(duì)甲基化肽段進(jìn)行了非常翔實(shí)的研究。文章指出了數(shù)據(jù)分析中一個(gè)比較嚴(yán)重的問(wèn)題:可怕的FDR值!甲基化肽段的FDR有70%到90%,而非修飾肽段的target/decoy比例僅僅為1%!太可怕了吧!

對(duì)FDR含義還有疑惑的同學(xué)請(qǐng)參考往期推文:
p值、E值、FDR、q值…你暈菜了嗎?
人氣推文p值、E值、FDR、q值…你暈菜了嗎?續(xù)集來(lái)啦!
為何此類肽段的FDR如此之高?!是不是意味著修飾組學(xué)中應(yīng)用target/decoy策略會(huì)存在一些原理上的缺陷呢?
對(duì)于這個(gè)問(wèn)題需要分好幾個(gè)方面來(lái)討論。首先,我們需要確認(rèn)從整個(gè)結(jié)果中提取一部分肽段來(lái)進(jìn)行分析是否恰好也能用全局的FDR來(lái)反映其假陽(yáng)性率;然后我們需要探討數(shù)據(jù)庫(kù)搜索中位點(diǎn)置信度分析的缺陷,以及混合多種搜庫(kù)結(jié)果時(shí)target/decoy統(tǒng)計(jì)相關(guān)的一些問(wèn)題。
全局FDR?
這篇MCP文章重點(diǎn)關(guān)注的是甲基化肽段:是否發(fā)生了后修飾以及位點(diǎn)信息是否正確。作者用了多種可變修飾組合和結(jié)果的合并方式來(lái)進(jìn)行搜庫(kù)。所有搜庫(kù)方式均將Carbamidomethyl (C) 和Oxidation (M) 設(shè)為可變修飾,然后與下列組合進(jìn)行一同搜庫(kù):
1. Methyl (K), Dimethyl (K), Trimethyl (K)
2. Methyl (R), Dimethyl (R)
3. Methyl (DE)
4. Ethyl (DE)
5. Propyl (DE)
6. Propionamide (C)
那么問(wèn)題來(lái)了,如果將全局的PSM FDR設(shè)為1%,我們能否假設(shè)甲基化肽段的FDR也是1%?
其中一種方法就是將甲基化肽段的Target數(shù)據(jù)和decoy數(shù)據(jù)進(jìn)行比較。在作者上傳的數(shù)據(jù)共享集 PRIDE PXD002857(http://www.ebi.ac.uk/pride/archive/projects/PXD002857)中并沒(méi)有包含原始的搜索結(jié)果,于是我們?nèi)×似渲幸粋€(gè)數(shù)據(jù)集 (nostainbands_orbi_1.raw through 28),采用作者提供的參數(shù)和修飾設(shè)置中的第一組在Mascot軟件中進(jìn)行了測(cè)試。由于軟件、參數(shù)、數(shù)據(jù)庫(kù)版本無(wú)法完全相同,搜庫(kù)結(jié)果和原文不完全一致,但十分近似。我們采用Mascot expect打分作為target/decoy分析對(duì)象并卡了PSM 1%FDR。下表列出了相關(guān)打分結(jié)果Target和decoy的一些統(tǒng)計(jì)信息。其中的615個(gè)decoy結(jié)果我們假定是錯(cuò)誤的,而61,531 target結(jié)果我們假定其中99%是正確的。

通常我們說(shuō)的1% FDR是針對(duì)整個(gè)數(shù)據(jù)集的結(jié)果,而不是針對(duì)單個(gè)匹配的。相對(duì)于高得分來(lái)說(shuō),低得分匹配很可能是錯(cuò)誤的。如果我們從低于30分的結(jié)果中取出一部分結(jié)果看它們的FDR,那么其FDR一定高于1%,而從50分以上結(jié)果中取出一部分的話,一定是小于1%FDR的。從上面表格可以看得非常明顯。比如,99%的錯(cuò)誤匹配都低于50分。
如果我們提取數(shù)據(jù)子集的標(biāo)準(zhǔn)和得分有一定的相關(guān)性,那么結(jié)果一定也是類似的。表格中我們可以看到較短的肽段的FDR會(huì)明顯過(guò)高。平均正確肽段的長(zhǎng)度是15,而錯(cuò)誤匹配的是9,而且67%的錯(cuò)誤匹配都短于10個(gè)氨基酸,正確的肽段中相應(yīng)比例才15%。這是因?yàn)殡亩未蚍峙c其長(zhǎng)度相關(guān),越長(zhǎng)的肽段能夠得到越多的離子匹配。因此,數(shù)據(jù)子集如果選擇的是9個(gè)氨基酸以下的肽段,會(huì)得到極高的FDR值。
同樣的,可變修飾的數(shù)量也是非常重要的因素。正確結(jié)果中只有3%的匹配包含可變修飾,而41%的錯(cuò)誤匹配包含可變修飾。這并不是因?yàn)榭勺冃揎椀臄?shù)量和肽段得分有關(guān),而是因?yàn)殡S機(jī)匹配中可變修飾的可能性太多了。
例如,SwissProt數(shù)據(jù)庫(kù)中K(Lysine,賴氨酸)和R(Arginine,精氨酸)的比例是相近的,所以我們可以預(yù)估酶切肽段中KR比例也相近。但3種可變修飾都修飾在K上,因此任何一個(gè)包含K的非修飾肽,都有3種備選修飾去參與打分。同時(shí),將漏切數(shù)量設(shè)為2,也就是說(shuō)每個(gè)肽都可能包含1個(gè)或2個(gè)K/R。那么對(duì)于一個(gè)包含2個(gè)K的肽段來(lái)說(shuō)就有15種可變修飾組合了,而3個(gè)K的肽段來(lái)說(shuō)有63種組合。
以上的組合爆炸并不是甲基化獨(dú)有的,對(duì)于所有可變修飾來(lái)說(shuō)都或多或少有些影響。因此,我們洞察到:不!修飾肽的FDR不可能和全局FDR一樣。

我們?cè)倩仡^看下表格的最后兩行,這兩個(gè)參數(shù)下的target和decoy匹配基本一樣多。亮氨酸在肽段末端與否和肽段打分完全扯不上關(guān)系,因此提取子集的時(shí)候以此為參數(shù)是十分的安全的,雖然并沒(méi)什么意義。另一個(gè)結(jié)果反而會(huì)讓很多人感到吃驚。我們會(huì)覺(jué)得在超高精度的時(shí)候正確匹配的比例應(yīng)該大于錯(cuò)誤匹配,但現(xiàn)在看來(lái)并非如此。
修飾態(tài)的FDR
回到正題,有啥好辦法來(lái)解決修飾肽的FDR計(jì)算問(wèn)題呢?如果這是我們的實(shí)驗(yàn)主要目的,我們可能得犧牲一些靈敏度來(lái)提高顯著性閾值。比如這組數(shù)據(jù)如果我們大大提高significance p的閾值到0.0008,則修飾肽的FDR降到了1%,同時(shí)全局的FDR就只有0.12%了。
在這篇MCP文章里,作者說(shuō)單純提高打分閾值沒(méi)法得到一個(gè)合適的FDR值,他采用了一系列更嚴(yán)苛的標(biāo)準(zhǔn)來(lái)過(guò)濾結(jié)果。再進(jìn)一步來(lái)說(shuō),在得到正確匹配的同時(shí)還要對(duì)其修飾位點(diǎn)進(jìn)行評(píng)估則是更加困難的工作了。我們好不容易對(duì)肽段匹配進(jìn)行了FDR過(guò)濾,發(fā)現(xiàn)還得對(duì)位點(diǎn)進(jìn)行過(guò)濾。否則嚴(yán)格來(lái)說(shuō),這還是個(gè)錯(cuò)誤匹配。這個(gè)時(shí)候如何來(lái)定義錯(cuò)誤匹配又是個(gè)問(wèn)題。我們就此討論如下幾個(gè)問(wèn)題。
作者采用了非常規(guī)的正確和錯(cuò)誤匹配定義
本文主要研究對(duì)象是甲基化肽段,目標(biāo)之一是區(qū)分修飾肽到底修飾在了正確的殘基上還是可能為一個(gè)假的匹配。
作者在酵母細(xì)胞培養(yǎng)的過(guò)程中引入標(biāo)記的甲硫氨酸來(lái)協(xié)助判斷正確的甲基化位點(diǎn)。比如其中一個(gè)來(lái)自于Elongation factor 1 – alpha的正確匹配肽段NVSVK*EIR,其賴氨酸可能發(fā)生單、雙、三甲基化。讓我們假定搜庫(kù)時(shí)采用本文開(kāi)頭提到的第一套搜庫(kù)修飾組合,結(jié)果發(fā)現(xiàn)在K5上得到一個(gè)高得分匹配的二甲基化修飾。那么可以確信的是,當(dāng)作者采用第4套修飾參數(shù)時(shí)也會(huì)得到一個(gè)E6上修飾的較低得分但依然可信的乙基化匹配。在原文中,作者認(rèn)為發(fā)生此類矛盾結(jié)果的匹配會(huì)是假陽(yáng)性匹配。也就是說(shuō),如果在第二套修飾組合匹配時(shí)得到一個(gè)R8的二甲基化結(jié)果,那么這也會(huì)被認(rèn)為是假陽(yáng)性。
這個(gè)策略雖然看上去可以避免一些假陽(yáng)性結(jié)果,但并不客觀。實(shí)際樣品中乙基化DE的比例越高,則K/R上匹配二甲基化的錯(cuò)誤率也就越高。實(shí)際情況中,兩者并無(wú)關(guān)聯(lián)。但作者為了避免假陽(yáng)性,還做了類似的一些假定,比如靠近如果靠近半胱氨酸的位置發(fā)生甲基化,那么很有可能和假的Propionamide (C)錯(cuò)配有關(guān),因?yàn)樗麄兊慕M合等于Carbamidomethyl (C)。
修飾會(huì)帶來(lái)結(jié)果的不確定性
讓我們回顧下正確和錯(cuò)誤匹配的定義。比如Mascot,就以一個(gè)匹配是否是隨機(jī)事件來(lái)評(píng)估結(jié)果正確的可能性。換句話講,也就是某個(gè)譜圖匹配是否可能得到一個(gè)完全不相干的序列結(jié)果。
當(dāng)兩條序列非常相似的時(shí)候,會(huì)發(fā)生什么呢?比如一條很長(zhǎng)的肽段得到了一個(gè)高得分、高可信度的匹配結(jié)果。如果我們隨機(jī)交換其中兩個(gè)相鄰氨基酸的順序,譜圖匹配得分很難說(shuō)會(huì)改變多少。很多情況下它依然會(huì)得到一個(gè)高得分。幸運(yùn)的是我們不會(huì)在常規(guī)搜庫(kù)中經(jīng)常遇到這樣的突變。
假陽(yáng)性匹配更多的發(fā)生在一個(gè)SNP加一個(gè)修飾和發(fā)生分子量相當(dāng)?shù)膬蓚€(gè)修飾這樣的兩種結(jié)果的比較中。這種情況下母離子質(zhì)核比是不變的。比如,分析對(duì)象包含這樣的序列: —-MA—- 而數(shù)據(jù)庫(kù)里的序列則是—-MS—- ,其中M是指甲硫氨酸氧化。嚴(yán)格的講這是一個(gè)錯(cuò)誤匹配,但實(shí)際打分軟件無(wú)法區(qū)分這樣的差異,會(huì)對(duì)這兩個(gè)結(jié)果給出相同的打分。這兩條序列并非完全無(wú)關(guān),如果兩者均出現(xiàn)在一個(gè)數(shù)據(jù)庫(kù)里,你只能祈禱正確匹配的結(jié)果能比另一個(gè)得分高那么點(diǎn),雖然更多的可能是完全相等。
以上情況同樣會(huì)發(fā)生在修飾檢測(cè)中。檢測(cè)一條肽段是否發(fā)生修飾是很簡(jiǎn)單的,因?yàn)闀?huì)有非常準(zhǔn)確的質(zhì)量差異。但產(chǎn)生一個(gè)特定分子量的質(zhì)量偏移的原因?qū)嵲谔嗔耍袝r(shí)候就算選錯(cuò)了修飾,我們也可能得到一個(gè)非常好的匹配結(jié)果。比如搜索Phospho (ST)卻得到一個(gè)高可信的磺酸化匹配,或者搜索methyl (K)卻發(fā)現(xiàn)隔壁氨基酸的D或E上的修飾結(jié)果打分更高。
就算我們只搜索認(rèn)為正確的修飾組合,接下來(lái)要確定修飾位點(diǎn)的難度可能比找到修飾肽更困難。一條肽段很可能是有連續(xù)的S或T殘基而其在譜圖中的差異僅僅會(huì)體現(xiàn)在單根譜峰上,而且往往信號(hào)很弱。當(dāng)然,你可以用Mascot 得分進(jìn)行位點(diǎn)分析,但修飾位點(diǎn)越靠近,置信度分析越難。
Target/decoy方法可以告訴我們的和無(wú)法告訴我們的
當(dāng)我們用target/decoy方法來(lái)評(píng)估FDR,假陽(yáng)性結(jié)果的計(jì)數(shù)受限于顯著結(jié)果中無(wú)關(guān)序列的比例。由于decoy數(shù)據(jù)庫(kù)不包含正確序列或者與正確序列高度同源的序列,F(xiàn)DR評(píng)估無(wú)法代表以下類型的假陽(yáng)性:
1. 高度同源的序列同時(shí)在搜庫(kù)容差范圍內(nèi)在加上或去掉一個(gè)錯(cuò)誤修飾后分子量完全和正確序列一致
2. 序列正確、修飾正確,但位點(diǎn)判斷錯(cuò)誤,出現(xiàn)在隔壁的殘基位點(diǎn)
3. 正確的序列但鑒定到錯(cuò)誤的修飾或修飾組合,但該修飾與正確修飾間的質(zhì)量差異又在容差范圍內(nèi),比如磷酸化 vs 磺酸化或者 propionamide vs. carbamidomethyl + methyl
4. 正確的序列和修飾的元素組成,但修飾結(jié)構(gòu)錯(cuò)誤,如dimethyl vs. ethyl
5. 正確的序列帶有錯(cuò)誤來(lái)源的修飾,比如post-translational vs. artefactual
如果你運(yùn)氣夠好得到了正確的匹配,但錯(cuò)誤匹配的得分,如以上1-3例子中的結(jié)果,很有可能得分非常接近正確匹配,且同時(shí)都超過(guò)了顯著性閾值。當(dāng)然后續(xù)結(jié)果報(bào)告時(shí)你還是幸運(yùn)的得到了排名第一的正確匹配。但數(shù)據(jù)庫(kù)搜索無(wú)法區(qū)分4-5兩種情況的假陽(yáng)性。
競(jìng)爭(zhēng)者是必須的
如果MCP的文獻(xiàn)作者在設(shè)計(jì)結(jié)果過(guò)濾策略時(shí)允許出現(xiàn)結(jié)果匹配的矛盾性,同時(shí)最終只取結(jié)果排名第一的結(jié)果,那么相應(yīng)的FDR則應(yīng)該會(huì)降低。在合并結(jié)果時(shí),我們可以模擬出一些競(jìng)爭(zhēng)性的匹配結(jié)果,但更簡(jiǎn)單的方式是用Mascot的容差搜索選項(xiàng)來(lái)尋找任何潛在的未知修飾。容差搜索會(huì)自動(dòng)搜索Unimod數(shù)據(jù)庫(kù)中的所有可能修飾類型,不過(guò)只能匹配肽段上出現(xiàn)一種未知可變修飾的情況。當(dāng)然出現(xiàn)兩種以上未知修飾的比例是非常低的,比如原文獻(xiàn)的甲基化匹配的Suppl數(shù)據(jù)中,我們只發(fā)現(xiàn)了一條這樣的肽段。 (Tables SII and SIII): NDYGPPRGSYGGSR*GGYDGPR (R7上的methyl和R14上的dimethyl)。
我們用原文的原始數(shù)據(jù)nostainbands_orbi_1.raw到28.raw測(cè)試了Mascot容差搜索是否能夠應(yīng)用于此類研究,設(shè)定了固定修飾Carbamidomethyl (C) 和可變修飾Oxidation (M) 及Propionamide (C) 。初次搜庫(kù)時(shí),F(xiàn)DR閾值設(shè)為1%。
我們用實(shí)際數(shù)據(jù)舉個(gè)例子來(lái)說(shuō)明為何要保留匹配結(jié)果的競(jìng)爭(zhēng)者。比如原文獻(xiàn)中有的一個(gè)顯著匹配結(jié)果AEQLYEGPADDANCIAIK:(
在nostaingels_orbi_metK_yeast_psms.txt:
C14找到了22 x Carbamidomethyl 譜圖
K18上找到了6 x Methyl, C14找到一個(gè)Carbamidomethyl
在nostaingels_orbi_metR_yeast_psms.txt:
C14找到了22 x Carbamidomethyl
在nostaingels_orbi_metDE_yeast_psms.txt:
C14上找到22 x Carbamidomethyl
D11上找到7 x Methyl,C14上找到1個(gè) Carbamidomethyl
匹配到Methyl (K)的結(jié)果被認(rèn)為是假陽(yáng)性。在容差搜庫(kù)結(jié)果中,由于C14上Propionamide匹配的得分總是比Methyl匹配的得分高,沒(méi)有一張譜圖的結(jié)果 Methyl (K)位于打分排名第一,容差搜索結(jié)果如下:
22 x Carbamidomethyl on C14
1 x Cys->Dha on C14
4 x Dehydrated on D11, Carbamidomethyl on C14
3 x Deamidation on N13, Carbamidomethyl on C14
6 x Propionamide on C14
1 x Oxidation on Y5, Carbamidomethyl on C14
4 x Carbamidomethyl on D10, Carbamidomethyl on C14
原文獻(xiàn)最終采納了K和R上的甲基化修飾。而容差搜索中找到了39個(gè)肽段C端甲基化,而數(shù)據(jù)庫(kù)搜索結(jié)果并無(wú)法區(qū)分C端甲基化還是在R側(cè)鏈。對(duì)這些匹配結(jié)果,我們參考原文設(shè)定的規(guī)則,單甲基化不影響酶切而di- 或 tri-甲基化會(huì)導(dǎo)致漏切,因此后者修飾一定會(huì)發(fā)生在C端酯基。這樣的話就剩下了91個(gè)可能正確的匹配(如Tables SII和SIII) 而另外24個(gè)K或R的甲基化匹配被認(rèn)為是錯(cuò)誤的。
這樣的策略比完全去掉競(jìng)爭(zhēng)匹配會(huì)好些,但依然離1%的FDR非常遙遠(yuǎn)。原文中,甲基化FDR只計(jì)算不同的肽段而不是PSM,這種方法又引出了另一個(gè)復(fù)雜的問(wèn)題:FDR計(jì)算基于 counts of matches (PSMs) 還是distinct sequences

上表格統(tǒng)計(jì)了28個(gè)文件總體FDR分布,以及前14個(gè)和后14個(gè)分別統(tǒng)計(jì)的結(jié)果。搜索參數(shù)完全相同。當(dāng)我們以PSM FDR為標(biāo)準(zhǔn)統(tǒng)計(jì)時(shí),前一半數(shù)據(jù)和后一半數(shù)據(jù)是可以直接加和的。而如果以Peptide FDR為標(biāo)準(zhǔn)計(jì)算時(shí)則無(wú)法簡(jiǎn)單相加。原因很簡(jiǎn)單:一部分序列是兩個(gè)數(shù)據(jù)集共有的。如果你想合并多組數(shù)據(jù)的搜庫(kù)結(jié)果又同時(shí)使用的是Peptide FDR算法,1%FDR閾值需要重新計(jì)算,然而如果你在兩組數(shù)據(jù)中使用的參數(shù)不完全相同,這種計(jì)算又失去了科學(xué)性。
錯(cuò)誤序列的數(shù)量受數(shù)據(jù)庫(kù)規(guī)模的限制,當(dāng)然通常其數(shù)量大于正確匹配的序列。假定,我們想重分析某一個(gè)數(shù)據(jù),同時(shí)不停地加入其技術(shù)重復(fù)的結(jié)果,直到我們發(fā)現(xiàn)正確匹配序列的數(shù)量不再增加。這時(shí)候是否意味著再加入額外的數(shù)據(jù)結(jié)果反而因?yàn)樾录尤氲暮蜻x匹配都是假陽(yáng)性的從而會(huì)導(dǎo)致FDR升高么?不,因?yàn)樽V圖打分或者expect值只會(huì)顯示最佳匹配的結(jié)果。當(dāng)加入更多數(shù)據(jù)時(shí),正確匹配的score (或expect值) 分布會(huì)逐漸往高得分方向偏移,其速度一定快于錯(cuò)誤匹配的得分分布偏移。你可以將其看成是結(jié)果譜圖的信噪比得到了逐漸提高。每張新譜圖的加入同時(shí)提高譜峰信號(hào)和基線信號(hào),但由于譜峰信號(hào)的強(qiáng)度一定高于基線,因此不停累加譜圖的話,結(jié)果的信噪比一定是越來(lái)越好的。
一般來(lái)說(shuō)基于Distinct Peptide FDR 1%的算法往往比PSM FDR更嚴(yán)格。也就是說(shuō)如果你設(shè)定PSM FDR 1%,相應(yīng)的Peptide FDR不會(huì)也是1%。(當(dāng)我們提到distinct sequence時(shí),既可以認(rèn)為只考慮其序列的獨(dú)特性,也可以進(jìn)一步將其修飾狀態(tài)、電荷數(shù)或其他信息都一并納入計(jì)算。)
在原文中,全局FDR是基于Percolator q-value < 0.01來(lái)計(jì)算1%的PSM FDR。而對(duì)于甲基化肽段,看上去結(jié)果又是以Mascot expect 值< 0.05來(lái)過(guò)濾的。某些角度來(lái)說(shuō)這兩種方法共用會(huì)導(dǎo)致結(jié)果解釋不清楚,但可以確定的是這套標(biāo)準(zhǔn)的確是基于PSM計(jì)算而不是Distinct Peptides來(lái)的。換句話說(shuō),甲基化肽的FDR是基于對(duì)‘non redundant PSMs’計(jì)數(shù)來(lái)計(jì)算的,也就是基于distinct sequence +修飾狀態(tài)的組合。原文基于PSM設(shè)定閾值而報(bào)告FDR的時(shí)候卻是基于distinct sequences的方式是有問(wèn)題的。對(duì)我們來(lái)說(shuō)最好在同一個(gè)研究中使用其中一種策略不變,尤其是對(duì)于正確匹配肽數(shù)量不多而譜圖非常多的研究。比如原文只有共59個(gè)正確匹配(Tables SII 和 SIII)。
總結(jié)
總的來(lái)說(shuō),該文章是一片非常重要而研究透徹的文獻(xiàn),其反應(yīng)了數(shù)據(jù)庫(kù)搜索策略中的一些缺陷:
? 全局FDR和提取子集,如修飾肽的FDR一定不一樣
? Target/decoy 評(píng)估了結(jié)果匹配是無(wú)關(guān)序列的可能性。但無(wú)法將其應(yīng)用于區(qū)分高度同源肽段或者區(qū)分修飾組合匹配的情況。
? 我們需要依賴于多個(gè)候選匹配間得分的互相競(jìng)爭(zhēng)來(lái)排除一些假陽(yáng)性
? 數(shù)據(jù)庫(kù)搜索不能區(qū)分元素組成正確而結(jié)構(gòu)不對(duì)的修飾
? FDR計(jì)算可以基于PSM也可以基于distinct sequence但一定不要將其在同一篇文章中混用
? 如果你采用基于distinct sequences FDR的策略,那么最好不要嘗試合并多個(gè)的搜庫(kù)結(jié)果。
最后,我們也非常同意作者的觀點(diǎn),高度修飾肽的組學(xué)數(shù)據(jù)光是采用數(shù)據(jù)庫(kù)搜索和FDR評(píng)估的方式來(lái)進(jìn)行結(jié)果可信度評(píng)估,目前來(lái)說(shuō)還遠(yuǎn)遠(yuǎn)不夠成熟。