【RNA-seq自學(xué)4】樣品分析之質(zhì)量評(píng)估MultiQC及結(jié)果分析

multiqc可以整合其它軟件的報(bào)告的軟件,能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告的軟件,這樣能方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量。

MultiQC安裝及運(yùn)行

安裝:

conda install multiqc

運(yùn)行:

multiqc可以自動(dòng)檢測(cè)到文件中可以整合在一起的文件,運(yùn)行也很簡(jiǎn)單。在指定目錄下:

multiqc ./

輸出的一個(gè).hltm格式的文件是multiqc整合的結(jié)果

MultiQC結(jié)果分析

所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)
fastqc的reads數(shù)


每個(gè)read各位置堿基的平均測(cè)序質(zhì)量

綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理。紅色區(qū)間——質(zhì)量不好。

具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

綠色區(qū)間——質(zhì)量很好;橙色區(qū)間——質(zhì)量合理;紅色區(qū)間——質(zhì)量不好

當(dāng)峰值小于27時(shí)——warning;當(dāng)峰值小于20時(shí)——fail

每個(gè)read各位置堿基ATCG的比列

對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基的分布。reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成,哪一個(gè)堿基的比例大,則趨近于這個(gè)堿基所代表的顏色。正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的。

如果ATGC在任何位置的差值大于10%——warning;差值大于20%——fail

reads的平均GC含量

正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線,曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)。

偏離理論分布的reads超過(guò)15%時(shí)——warning;reads超過(guò)30%時(shí)——fail

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí),就會(huì)產(chǎn)生“N”,統(tǒng)計(jì)N的比率。正常情況下,N值非常小。

當(dāng)任意位置的N的比例超過(guò)5%——warning;超過(guò)20%——fail

長(zhǎng)度分布:151bp
每個(gè)序列的相對(duì)重復(fù)水平

當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)——warning; 比例大于50%時(shí)——fail

測(cè)序深度越高,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象,但如果duplication的程度很高,就提示可能有bias的存在

重復(fù)序列
接頭含量

>5%——warning;>10%——fail

以上各參數(shù)的匯總

以上就是質(zhì)量評(píng)估MultiQC及結(jié)果分析的所有內(nèi)容

參考:https://www.youtube.com/watch?v=qPbIlO_KWN0

?????????? http://www.itdecent.cn/p/85da4dcc6020

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容