測序數據上游分析--質量控制

感謝小學學!


測序原理:

將基因打斷成片段reads;每段reads一端連接不同的UMI做為標識;PCR;測序

uniquely mapped reads:reads的唯一性由UMI和map位置共同確定

PCR duplicates:pcr后,UMI相同且map位置相同的reads會擴增很多條,去duplicates就是,僅保留一條,去除由于PCR效率不同導致的差別

基因表達量=sum(去除duplicates后的uniquely mapped reads)

expression A = read1 +?read2 +read3

expression B = reada +?readb +readc +readd +reade

影響分析的因素:

文庫大小的影響:文庫越大,細胞越多,含有的geneA絕對值就越多

基因長度影響:基因越長,打斷后的reads就越多,相加值就越大

測序深度影響:相當于PCR效率不同帶來的影響

為什么要PCR:對于chipseq、singlecellseq、atacseq細胞量少,測序時信號非常低,無法檢測到,送測前PCR是為了擴大信號。

去duplicates是去除PCR的影響,效果相當于收獲樣本打成片段后直接測序。

去除文庫大小影響,就是去除不同批次收樣細胞量不同的影響,效果相當于每次都收獲相同量的細胞進行測序

常規(guī)RNAseq數據標準化步驟:

counts矩陣,行為sample,列為gene

方法1:

exprSet=mean(colSums(exprSet))*exprSet/colSums(exprSet)

exprSet=log2(exprSet+1)

方法2:TMM(edgr+limma包)

注意:(1)方法1結果全為正,方法2會出現(xiàn)負值;(2)方法1中,當不同批次送樣,或同批次但不同lane(沒有混樣)時需要消除批次效應(具體步驟上網找。方法2包含了去批次處理,不需再去批次。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容