1. 為什么我們要進行Normalization
-
測序深度:某些低表達量的基因只有在較高的測序深度時才能檢測到。一般而言,隨著測序深度的增加,基因種類以及可變剪接體的數(shù)目也會增加。同時,測序深度高的樣本read counts也會較高。
樣本A中的基因表達量是樣本B的兩倍,但這是由于測序深度引起的結果,而非真實存在的差異。 基因長度:由于高通量測序是將cDNA碎片化后再進行測序的,因此越長的基因產(chǎn)生的碎片也會更多,在測序中也會更加容易被檢測到。所以對基因長度的校正也是十分有必要的。

除了上述兩個主要因素外,還會有其他因素對read counts的檢測有所影響,例如轉(zhuǎn)錄組的組成,GC含量,random hexamers引起的測序偏好等等。由于上述因素的存在,導致在不同樣本間使用read counts 進行比較是不太現(xiàn)實的,人們便提出了許多對read counts進行Normalization的方法。
2. Normalization方法
1. 學術界已經(jīng)不再推薦RPKM、FPKM;
2. 比較基因的表達豐度,例如哪個基因在哪個組織里高表達,用TPM做均一化處理;
3. 不同組間比較,找差異基因,先得到read counts,然后用DESeq2或edgeR,做均一化和差異基因篩選;如果對比某個基因的KO組和對照,推薦DESeq2。
Read count
數(shù)值概念:比對到某基因的reads數(shù)。
用途:用于換算CPM、RPKM、FPRM等后續(xù)其他指標,同時作為基因異分析軟件(如DESeq、edgeR和limma)的輸入值。也就是說,而非CPM、RPKM、 FPKM,表達定量的結果主要用于主成分分析、層次聚類分析。
2.1 CPM:Counts per million
數(shù)值概念:計算公式:CPM= A/mapped reads*1000000 A為比對到某基因的reads數(shù)(read count)。
用途:在某些情況下,只想了解每個基因被覆蓋到的相對reads數(shù),而不希望對其做長度校正,就會使用這個指標。
用總reads進行均一化是最簡單的方法,其基于以下兩個基本假設:
1) 絕大多數(shù)的gene表達量不變;
2) 高表達量的gene表達量不發(fā)生改變;
但實際上在轉(zhuǎn)錄組中,一小部分豐度極高的基因往往會貢獻很多reads,如果這些“位高權重”的基因還是差異表達的,就會影響所有其它基因分配到的reads數(shù)。而且兩個樣本總mRNA量完全相同的前提假設也過于理想了。如果想進行表達量的基因間比較,則不得不考慮基因長度的不同。如果進一步做長度的均一化,就得到了下面的RPKM、FPKM。
2.2 RPKM:Reads Per Kilobaseof exon model per Million mapped reads (每千個堿基的轉(zhuǎn)錄每百萬映射讀取的reads)
數(shù)值概念:計算公式:RPKM=(1000000*A)/( mapped reads *gene length/1000)
A為比對到某基因的 reads數(shù)(read count)。
RPKM法能消除基因長度和測序量差異對計算基因表達的影響,計算得到的基因表達量可直接用于比較不同樣品間的基因表達差異和不同基因間表達高低的比較。
用途:用于與基因表達量相關的后期分析。基因表達趨勢分析、WGCNA共表達網(wǎng)絡構建,熱圖繪制等都使用。
2.3 FPKM:Fragments Per Kilobase of exon model per Million mapped fragments(每千個堿基的轉(zhuǎn)錄每百萬映射讀取的fragments)

FPKM意義與RPKM極為相近。二者區(qū)別僅在于,F(xiàn)ragment與Read。RPKM的誕生是針對早期的SE測序,F(xiàn)PKM則是在PE測序上對RPKM的校正。只要明確Reads和Fragments的區(qū)別,RPKM和FPKM的概念便易于區(qū)分。Reads即是指下機后fastq數(shù)據(jù)中的每一條Reads,F(xiàn)ragments則是指每一段用于測序的核酸片段【雙端序列即使丟棄1端reads,讓按照1個Fragments計算】。
RPKM is for single end RNA-seq
FPKM is very similar to RPKM, but for paired end RNA-seq.

2.4 TPM:Transcripts per million
TPM is like RPKM and FPKM, except the order of operations is switched.



同RPKM一樣,TPM對基因的長度進行了校正,計算比對到基因上的reads/基因長度得到長度校正的表達量 reads per kilobase (RPK)。再以文庫中RPK之和作為Scale Factor求出TPM。
相比于RPKM使用read counts之和來作為文庫校正因子,TPM使用RPK之和作為文庫校正因子的好處是考慮了不同樣本間的基因長度的分布。因為RPK是一個對基因長度進行校正后的表達量單位,所以RPK之和也不會再帶入基因長度的bias。因此,如果需要比較的樣本之間轉(zhuǎn)錄本分布不一致時(例如不同物種RNA-seq的比較),使用TPM是一個較佳的Normalization方案。
3. 各種值的使用場合??
- 差異表達分析:原始count值,算法輸入要求(針對二代測序差異分析算法,算法內(nèi)部一般有標化方法。)
- 標化后的值:基因表達值在樣本與樣本之間具有可比性。
PCA分析,樣本表達總體分布,生存分析,熱圖繪制,相關性分析
