2016年英國鄧迪大學的Geoffrey J Barton教授在RNA發(fā)表一篇文章專門評估這一問題。作者對野生型和snf2突變型酵母樣品分別測序了48個生物學重復;質(zhì)控后,野生型樣品保留42個生物學重復,突變型樣品剩余44個生物學重復。
在控制假陽性率為0.05的標準下,用所有可用生物重復計算出的差異基因定義為該差異基因鑒定工具的金標準差異基因集。
作者評估了11個常用的差異基因分析工具,性能最好的是edgeR, DESeq2和limma。
下面以edgeR為例展示了不同生物學重復數(shù)目對鑒定差異基因的影響。
圖A展示了,在控制相同的假陽性率水平下,不同的生物學重復鑒定出的差異基因數(shù)目 (nr: number of biological replicates)。作者從所有生物重復中隨機抽取2組、3組、4組…生物學重復,分別計算差異基因,發(fā)現(xiàn):
差異基因的數(shù)目整體與生物重復數(shù)量正相關(guān)。
-
差異基因數(shù)目的穩(wěn)定性與生物重復數(shù)量負相關(guān);
生物重復較少時,不同的抽樣導致的差異基因數(shù)目波動較大;
生物重復較多時,檢測出的差異基因數(shù)目受抽樣影響較小,體現(xiàn)在柱狀圖數(shù)據(jù)分布更集中 (可視化之為什么要使用箱線圖?)。
圖B展示了,不同生物學重復與鑒定的差異基因的真陽性率的關(guān)系。不同的實線代表不同的差異基因篩選倍數(shù)變化(T=|Log2(FC)|)條件下的真陽性率。虛線代表假陽性率,近乎一條直線,說明edgeR的假陽性率控制的還是比較好的,比較低,且不受生物重復數(shù)影響。如果篩選閾值比較高,比如4倍差異(T=2)時,較低的重復數(shù)即可獲得較高的真陽性率。而篩選閾值較低(T=0)時,真陽性率受生物學重復影響較大;生物學重復越少,真陽性率越低。常規(guī)篩選標準2倍差異(T=1)時需要20個生物重復才能達到與4倍差異相同的真陽性率。
圖C則是圖B的另一種展現(xiàn),橫軸是篩選倍數(shù)閾值 (T=|Log2(FC)|)。藍色虛線代表3個生物重復條件下的假陽性率,在常規(guī)篩選標準2倍差異(T=1)時,假陽性率已趨近于0。不同顏色的實現(xiàn)代表不同生物重復下的真陽性率隨篩選閾值差異倍數(shù)的變化,整體呈現(xiàn)正相關(guān);且生物重復越多,真陽性率越高,并受篩選閾值影響越少。
圖D展示了真陽性、真陰性 (非金標準差異基因定義為真陰性(無差異)基因)、假陽性、假陰性基因數(shù)目隨生物重復數(shù)的變化。生物重復越多,漏掉的差異基因(假陰性基因)越少。