轉(zhuǎn)發(fā)自http://crickcollege.com/news/239.html

在接著講今天的關(guān)鍵問題之前,我們先來列一下質(zhì)譜中相應(yīng)的一些單位(見下圖),可以幫助大家進(jìn)行更好的理解與記憶。

這其中應(yīng)用最多的是原子質(zhì)量單位-道爾頓(Dalton or amu),其中的平均質(zhì)量數(shù)是以前質(zhì)譜分辨率不夠高時(shí)常用的一個(gè)概念(即不能將同位素峰區(qū)分開時(shí),只能用平均質(zhì)量數(shù)來衡量)。
同位素的問題
上篇我們提到,在上面那個(gè)例子里,794.03看起來不像是正確的原始同位素峰,而793.69才應(yīng)該是。大家看下面的圖,是根據(jù)先前的數(shù)字列表提取出來的原始譜峰的信息??梢钥吹?,794.03、793.69等是來自于同一個(gè)肽段的多個(gè)同位素峰。
形成這樣一個(gè)同位素峰的原因是,自然界中元素的組成是包含同位素的,比如C的分子量是12.01,但其存在微量的半衰期非常長(zhǎng)的C13,分子量要加1。而O、N、P等元素也都存在非常微量的同位素的峰。

雖然,平時(shí)看譜峰時(shí)會(huì)覺得其所占比例很小,覺得這些信號(hào)可能沒什么意義。但是在質(zhì)譜中會(huì)形成一系列的峰。對(duì)于高分辨質(zhì)譜來說,這樣的峰很重要,它會(huì)用于后續(xù)的定性和定量分析,因?yàn)檫@樣的信號(hào)強(qiáng)度會(huì)間接或者非等比的反映了肽段的信號(hào)強(qiáng)度或者說原始的量。
我們做SILAC或者非標(biāo)記定量處理的時(shí)候,這些信號(hào)都會(huì)用于后續(xù)的定量分析。因此在定量分析的軟件中,會(huì)將這些譜峰的強(qiáng)度全部用于后續(xù)的計(jì)算,這也是為什么正確識(shí)別同位素峰分布是非常重要的!
回到前面的問題,為什么我們認(rèn)為信號(hào)次強(qiáng)的793.69才應(yīng)該是零同位素峰,而信號(hào)最強(qiáng)的794.03反而不是呢?
我們直觀的感受應(yīng)該是,峰最高的才是零同位素峰,對(duì)吧?但是,當(dāng)元素組成比較復(fù)雜或者說分子量比較大時(shí),比如此圖中是帶有3電荷的肽段離子,3乘以質(zhì)荷比793,得到質(zhì)量為差不多2400原始道爾頓數(shù)。這個(gè)分子量相對(duì)來說比較高了,也就是其含N、O、H、C這些元素的數(shù)量是比較多的,因此它的同位素組成比例會(huì)非常復(fù)雜。在如此復(fù)雜的情況下,其原始的零同位素峰信號(hào)反而不是最強(qiáng)的。這也是很多時(shí)候質(zhì)譜采集錯(cuò)信號(hào)的原因。
關(guān)于同位素峰的問題,如果大伙兒還沒有想明白,我們?cè)賮碚归_聊一下。比如下圖中的同位素峰,對(duì)于一個(gè)分子量比較小的肽段離子,C13、N15等同位素的比例是比較低的。

拿碳元素來舉例,C12在自然界中的比例是98.89%,而C13只有1.11%。如果一個(gè)碳原子進(jìn)入質(zhì)譜儀,我們能看到的同位素峰就是兩個(gè),C12峰的強(qiáng)度要遠(yuǎn)遠(yuǎn)高于C13的峰。

如果現(xiàn)在進(jìn)來一個(gè)離子含兩個(gè)C,那么它的同位素組合就有三種情況:2個(gè)C12,1個(gè)C12和1個(gè)C13,2個(gè)C13。因此它會(huì)多一個(gè)同位素峰,即有三個(gè)同位素峰。

再來,如果有100個(gè)C原子,以及20個(gè)N原子和10個(gè)H原子混合進(jìn)入質(zhì)譜儀,那么同位素的排列組合將會(huì)非常多。我們用計(jì)算同位素分布的軟件可以得到,隨著原子數(shù)的增加,零同位素峰的相對(duì)強(qiáng)度在漸漸變低。
也就是說,我們的肽段越長(zhǎng),零同位素峰的信號(hào)就會(huì)越弱,當(dāng)100個(gè)碳原子進(jìn)入質(zhì)譜儀時(shí),零同位素峰的相對(duì)強(qiáng)度從之前的99%降到了36.6%!反而,第一同位素峰的相對(duì)強(qiáng)度增加到36.9%,反而比零同位素峰還要高了!
就像剛才我們舉的例子,雖然793.69的相對(duì)強(qiáng)度并不是最高的,但我們認(rèn)為它才應(yīng)該是零同位素峰,而不是相對(duì)強(qiáng)度最高的794.03!在這種情況下,通常都很難依靠?jī)x器和軟件正確識(shí)別零同位素峰,而是需要我們手工校正了。

原始譜圖包含的信息
聊完了同位素的問題,接下來我們繼續(xù)講一級(jí)原始譜圖還包含哪些其它的重要信息。
我們之所以可以用高壓液相色譜分離肽段,就是肽段隨著其氨基酸組成的不同,或者說親疏水性不同,以及極性不同,因此在色譜上的保留時(shí)間是不一樣的。因?yàn)殡亩伍g的物理性質(zhì)上的差別,我們才能夠用色譜柱對(duì)復(fù)雜的肽段混合物進(jìn)行分離。
因此,保留時(shí)間也是鑒定肽段的重要信息。此信息還會(huì)進(jìn)一步用于諸如SILAC的定量、非標(biāo)記定量,以及下一代質(zhì)譜定量技術(shù)(比如DIA)。因此我們色譜柱的質(zhì)量和性能,對(duì)后續(xù)定性和定量分析的影響非常大。
以前,可能很多小伙伴認(rèn)為,一級(jí)質(zhì)譜中最重要的信息是分子量或者M(jìn)/Z。但隨著現(xiàn)在定量的要求越來越高,intensity、保留時(shí)間這些信息都會(huì)越來越重要。對(duì)于高分辨質(zhì)譜來說,如果色譜分離肽段的效果夠好,那么我們可以解析出更多更復(fù)雜的中低豐度肽段。
另外,色譜的分辨率或者說保留時(shí)間的區(qū)分度越高,色譜峰的寬度越窄,那么我們?cè)娇梢詫⒉顒e非常微小的肽段進(jìn)行有效的區(qū)分。這也是我們購買高分辨率質(zhì)譜進(jìn)行實(shí)驗(yàn)的原因之一。
再有,SILAC和非標(biāo)記定量都會(huì)用到一級(jí)的強(qiáng)度信息及保留時(shí)間信息,下圖右側(cè)曲線的每一個(gè)小方塊點(diǎn)其實(shí)就是一次MS1的掃描,與左側(cè)圖對(duì)應(yīng),一個(gè)強(qiáng)度值就是一個(gè)肽段。我們看到出鋒的規(guī)律就是,從某個(gè)時(shí)間點(diǎn)開始慢慢出峰,然后信號(hào)越來越強(qiáng),出峰至最高點(diǎn),再慢慢變?nèi)?,最后結(jié)束。
我們對(duì)這樣一個(gè)過程中所有的信號(hào)進(jìn)行積分,就是基于MS1定量原理的一種計(jì)算方法。曲線圖的面積就是用于定量的基本信息,當(dāng)然還包括同位素峰,需要對(duì)所有的同位素峰進(jìn)行加和。

MS1信息的準(zhǔn)確性,取決于很多因素,比如色譜的噴霧足夠穩(wěn)定、樣品的純凈度高,嚴(yán)格控制污染等等,這些條件都滿足了,才能得到比較完美的一級(jí)定量信息,這對(duì)后續(xù)的定性定量分析都會(huì)有幫助。樣品的前處理和質(zhì)譜的維護(hù)這兩個(gè)關(guān)鍵的因素,一定要把握好,如果有影響,那么在后續(xù)的數(shù)據(jù)分析中,任何統(tǒng)計(jì)方法搜庫方法都無法挽回先前的污染信息。
樣品前處理相關(guān)閱讀>>聽課筆記之蛋白質(zhì)組學(xué)樣品前處理(四)
介紹完MS1譜圖中的主要信息以后,我們接下來說說MS2譜圖。
MS2簡(jiǎn)單講就是將一條完整肽段送入質(zhì)譜進(jìn)行打碎之后得到的信息。我們的碎裂過程一般來說是從肽段的N端和C端依次碎裂,我們很少會(huì)拿到兩端都碎裂的肽段,因此可以認(rèn)為這樣一個(gè)MS2譜圖中,強(qiáng)度比較好的那些肽段絕大多數(shù)應(yīng)該都是來自于肽段的N端或者C端的一部分序列。
同時(shí),這樣一些信號(hào)也會(huì)在類似于DIA/SWATH技術(shù)中用于定量,MS2譜圖中包含b-y離子以及其信號(hào)強(qiáng)度,可用于蛋白定性分析。而在一些比較新的技術(shù)如DIA/SWATH中,b-y離子信息也可用于定量分析。
Tips: TMT/iTRAQ技術(shù)并不用肽段碎片進(jìn)行定量,它是低分子量端額外加入一個(gè)同位素標(biāo)簽,用標(biāo)記的方法避免與b-y離子進(jìn)行互相干擾。沈老師提到,他個(gè)人更喜歡用TMT而不是iTRAQ進(jìn)行定量,因?yàn)閕TRAQ容易在100多到200左右分子量的區(qū)域產(chǎn)生大量的污染信號(hào),這樣也會(huì)影響我們的定性分析。因此一般來說,iTRAQ能定量出來的蛋白,在相同情況下都會(huì)比TMT少。

什么是b-y離子
最后,我們來簡(jiǎn)單介紹一下b-y離子。已經(jīng)了解的同學(xué),可以跳過下面這一段。
下圖左上角是肽段碎裂的原理示意圖。我們用R來替代生物體內(nèi)的氨基酸的縮寫,中間這一行是肽段的骨架。那么到底哪些鍵在質(zhì)譜碎裂時(shí)會(huì)斷開呢?我們就會(huì)用相應(yīng)的位置對(duì)碎片來進(jìn)行定義,所以可以看到a,b,c,x,y,z這六種離子形式。當(dāng)然,更復(fù)雜的諸如糖之類的大分子,在碎裂后會(huì)產(chǎn)生更復(fù)雜的信號(hào)。

b-y離子一般斷裂在羰基和氨基之間,a-x離子會(huì)有非常小比例的斷裂,一般來說不太用于我們的定性分析,c-z離子通常是出現(xiàn)在使用ETD(電子轉(zhuǎn)移解離)進(jìn)行碎裂的時(shí)候。
國際慣例,肽段從左到右排列的時(shí)候是從N端開始,C端結(jié)束。任何一個(gè)氨基酸都有一個(gè)N端-NH2和C端-COOH,在結(jié)合成多肽的時(shí)候,會(huì)脫掉一個(gè)水分子。所以我們平時(shí)在查看氨基酸的縮寫、名稱和分子量時(shí),比如上圖的Gly,分子量為57.021464,比天然的氨基酸組成少了一個(gè)水分子。
在多肽中,絕大多數(shù)情況下這些氨基酸都是出現(xiàn)在中間的,因此我們是按照殘基的結(jié)構(gòu)形式來記錄他們的分子量。當(dāng)斷裂成b-y離子的時(shí)候,大家需要注意,得加上它的末端基團(tuán),再計(jì)算分子量。比如b離子的分子量要加上一個(gè)-H,y離子要加上一個(gè)-OH。
但是,細(xì)看看,會(huì)發(fā)現(xiàn)依然不對(duì)!因?yàn)檫€需要帶上電荷!
計(jì)算b-y離子時(shí),N端除了加上之前失去的水分子里的-H以外,還要再加兩個(gè)-H,否則它就是帶負(fù)電荷的。而在真實(shí)情況里,質(zhì)譜記錄b-y離子時(shí),y離子是要帶上至少一個(gè)正電荷的,我們一般記錄為MH+,即帶一個(gè)正電荷的形式。b-y離子當(dāng)然也可能帶兩個(gè)、三個(gè),甚至更多的電荷,尤其是在母離子電荷數(shù)非常高的情況下。
如果使用的是高分辨質(zhì)譜,比如Orbitrap,它的MS2譜圖中都會(huì)有相應(yīng)的同位素分布。因此我們可以計(jì)算出相應(yīng)的電荷數(shù)來進(jìn)行去卷積,去完卷積之后,在搜庫時(shí)我們都傾向于將其記錄為MH+,也就是帶一個(gè)正電荷的情況,以方便結(jié)果的查看。
大家可以看下圖的惡唑啉,N端第一個(gè)氨基酸是A(丙氨酸),原始分子量是71。在記錄b離子時(shí),就將其記錄為72,因?yàn)橐右粋€(gè)-H。C端第一個(gè)氨基酸是k(賴氨酸),分子量是147.1,與平常我們看到的氨基酸列表中它的分子量是128,正好差一個(gè)-OH和兩個(gè)-H。因此手動(dòng)計(jì)算b-y離子的時(shí)候,大家需要注意計(jì)算的方式。

事實(shí)上,離子帶的電荷數(shù)對(duì)蛋白鑒定會(huì)產(chǎn)生直接的影響,這個(gè)問題我們可以多聊幾句。
大伙兒知道,b-y離子一定是帶電荷的,才能被質(zhì)譜識(shí)別到信息。假設(shè)在質(zhì)譜一級(jí)碎裂的時(shí)候,條件控制的不太好,就會(huì)出現(xiàn)母離子都只帶一個(gè)電荷,也就是同位素峰都只差一個(gè)道爾頓。
這種情況下去搜庫,就會(huì)發(fā)現(xiàn)鑒定到的肽段會(huì)非常少,甚至鑒定不到任何東西!這是為什么呢?
試想一下,如果母離子都只帶一個(gè)電荷,那么進(jìn)入二級(jí)碎裂,因?yàn)槟阒挥幸浑姾?,如果N端碎片帶了電荷,C端碎片便無法帶電荷。于是,雖然這些碎片離子也進(jìn)入了二級(jí)質(zhì)譜,但是由于它不帶電荷,我們的質(zhì)譜便無法記錄到它,造成后續(xù)譜圖的解析率就會(huì)非常的低。
為了解決這個(gè)問題,現(xiàn)在大多數(shù)的肽段都是用Tripson酶解,得到的片段在條件控制合適時(shí)基本都會(huì)帶2-3個(gè)電荷,這樣就非常適合進(jìn)行二級(jí)碎裂,使得碎裂片段的兩段都能帶電荷,于是質(zhì)譜就能記錄到這些碎片離子。
那么,母離子帶電荷太少了不行,是不是就越多越好呢?
事實(shí)上,高電荷的肽段也不太容易得到好的定性結(jié)果!比如帶8個(gè)電荷的母離子碎裂后,得到的b-y離子有可能帶1~7個(gè)電荷的各種可能,于是得到的二級(jí)譜圖會(huì)很復(fù)雜。再加上肽段離子本身就很長(zhǎng),比如有50-60氨基酸的長(zhǎng)度,再把各種帶電荷的情況組合一下,得到的二級(jí)譜圖就很瘋狂了!在質(zhì)譜碎裂比較完美的前提下,一個(gè)肽段離子可能會(huì)對(duì)應(yīng)幾百張以上的二級(jí)譜圖的組合!這對(duì)任何搜庫軟件來說都是極大的挑戰(zhàn)!
所以說,b-y離子帶23個(gè)電荷是最完美的。大多數(shù)搜庫軟件都是針對(duì)23個(gè)電荷的譜峰而設(shè)計(jì)的。這也是為什么ETD數(shù)據(jù)有時(shí)候解析不是那么理想,因?yàn)镋TD容易帶上更高的電荷。
好,假設(shè)我們進(jìn)行得很順利,得到了一堆成對(duì)的b-y離子,如下圖。我們根據(jù)這些b-y離子的質(zhì)荷比,就能解析出它們的氨基酸構(gòu)成,最終推算出蛋白質(zhì)的序列組成。

在用質(zhì)譜搜庫軟件進(jìn)行解析時(shí),會(huì)對(duì)譜圖中的信息進(jìn)行識(shí)別和分析。二級(jí)譜圖的復(fù)雜性越高,對(duì)它解析的準(zhǔn)確性就會(huì)相應(yīng)的降低。這也是為什么DIA和SWATH技術(shù)依舊依賴于DDA模式下鑒定結(jié)果來進(jìn)行匹配的原因之一,純粹的基于SWATH和DIA的譜圖其解析難度是非常高的。
二級(jí)譜圖應(yīng)該是越干凈越好,最最理想的情況是只包含上圖所示的14個(gè)b-y峰,一旦出現(xiàn)別的峰,軟件便會(huì)嘗試去解析,造成的影響就是可能會(huì)解析錯(cuò)誤,可能會(huì)讓解析的時(shí)間變長(zhǎng)等等。當(dāng)然,一般都會(huì)出現(xiàn)雜峰和噪音,在這些干擾面前,就更要求我們對(duì)實(shí)驗(yàn)的各個(gè)步驟做好嚴(yán)格的質(zhì)控,以及選擇合適的搜庫策略和算法。