感謝小學學!

測序原理:
將基因打斷成片段reads;每段reads一端連接不同的UMI做為標識;PCR;測序
uniquely mapped reads:reads的唯一性由UMI和map位置共同確定
PCR duplicates:pcr后,UMI相同且map位置相同的reads會擴增很多條,去duplicates就是,僅保留一條,去除由于PCR效率不同導致的差別
基因表達量=sum(去除duplicates后的uniquely mapped reads)
expression A = read1 +?read2 +read3
expression B = reada +?readb +readc +readd +reade
影響分析的因素:
文庫大小的影響:文庫越大,細胞越多,含有的geneA絕對值就越多
基因長度影響:基因越長,打斷后的reads就越多,相加值就越大
測序深度影響:相當于PCR效率不同帶來的影響
為什么要PCR:對于chipseq、singlecellseq、atacseq細胞量少,測序時信號非常低,無法檢測到,送測前PCR是為了擴大信號。
去duplicates是去除PCR的影響,效果相當于收獲樣本打成片段后直接測序。
去除文庫大小影響,就是去除不同批次收樣細胞量不同的影響,效果相當于每次都收獲相同量的細胞進行測序
常規(guī)RNAseq數據標準化步驟:
counts矩陣,行為sample,列為gene
方法1:
exprSet=mean(colSums(exprSet))*exprSet/colSums(exprSet)
exprSet=log2(exprSet+1)
方法2:TMM(edgr+limma包)
注意:(1)方法1結果全為正,方法2會出現(xiàn)負值;(2)方法1中,當不同批次送樣,或同批次但不同lane(沒有混樣)時需要消除批次效應(具體步驟上網找。方法2包含了去批次處理,不需再去批次。