整合QC質(zhì)控結(jié)果的利器——MultiQC

一、MultiQC介紹

NGS技術(shù)的進步催生了新的實驗設(shè)計、分析類型和極高通量測序數(shù)據(jù)的生成。對于這些數(shù)據(jù)的質(zhì)量評估,每一步分析結(jié)果的評估是后續(xù)結(jié)果可信度的衡量和保障。不少生信工具都可以給樣品生成一個評估結(jié)果,如FastQC、QualimapRSeQC等 (39個轉(zhuǎn)錄組分析工具,120種組合評估)。但是這時又出現(xiàn)了一個難題,那就是幾乎所有的質(zhì)控工具都是針對單個樣本生成一個報告,這就要求用戶自己去逐一查找各個QC結(jié)果,這無疑是個十分耗時、重復(fù)又復(fù)雜的事,而且還不能快速看出所有樣本的異同。

那能否把所有質(zhì)控結(jié)果整合在一起呢?可以自己寫程序造輪子(我們之前就是這么做的)。但現(xiàn)在有了MultiQC,基于Python的小工具很好地解決了這個繁瑣的事情,其強大的功能主要體現(xiàn)在以下三個方面:

1)能將測序數(shù)據(jù)的多個QC結(jié)果整合成一個HTLM網(wǎng)頁交互式報告,同時也能導(dǎo)出pdf文件;
2)支持多種分析類型的質(zhì)控結(jié)果查看,如:RNAseq、Whole-Genome SeqBisulfite Seq、Hi-CMultiQC_NGI
3)支持整合68種軟件分析的結(jié)果,而且支持的軟件還在持續(xù)增加,也可以自己寫作一個插件,具體見下圖。

640.jpeg

二、安裝MultiQC

依賴python2.7+, 3.4+ 或者 3.5+

# pip安裝
pip install git+https://github.com/ewels/MultiQC.git  #Installation with pip
# conda安裝
conda install -c bioconda multiqc  # Installing with conda

三、運行MultiQC

直接指定MultiQC要分析的文件路徑即可,若數(shù)據(jù)在當(dāng)前目錄下輸入multiqc .即可。

multiqc .
multiqc data/
multiqc data/ ../proj_one/analysis/ /tmp/results
multiqc data/*_fastqc.zip
multiqc data/sample_1*

使用--ignore忽略掉某些文件

multiqc . --ignore *_R2*
multiqc . --ignore run_two/
multiqc . --ignore */run_three/*/fastqc/*_R2.zip

四、MultiQC報告解讀(以RNA-Seq數(shù)據(jù)為例)

1. General Statistics
每一個樣本reads數(shù)量、比對層面的質(zhì)量評估整合統(tǒng)計表,點擊Configure Columns可以選擇顯示或不顯示某些項。點擊Plot可以繪圖。

image

點擊Configure Columns選擇展示哪些項

image

點擊Plot可以對任意兩種屬性的評估結(jié)果做交互式二維圖,若各樣本均一性好,散點會比較集中,反之會出現(xiàn)某些離散的點,這樣方便查看某些指標(biāo)異常的離群樣本。

image

2. featureCounts

利用featureCounts工具計算每個基因外顯子的reads數(shù)的結(jié)果展示。featureCounts不僅可以支持gene的定量,也支持exon, gene bodies, genomic bins, chromsomal locations的定量。功能類似的軟件是HTSeq。

軟件官網(wǎng):http://bioinf.wehi.edu.au/featureCounts/

image

3. STAR

基于STAR比對工具的分析結(jié)果,STAR會將沒有paired mapping的reads都剔除,避免single reads比對到基因組上;并且STAR對lower-quality(采用more soft-clipped和錯配堿基)比對有較高的容忍度。

軟件官網(wǎng):https://github.com/alexdobin/STAR

更多分析工具比較見:轉(zhuǎn)錄組分析工具大比拼

image

4. Cutadapt

cutadapt軟件來對雙端測序數(shù)據(jù)進行預(yù)處理,去除接頭和低質(zhì)量堿基。

對測序數(shù)據(jù)進行過濾時cutadapt對測序數(shù)據(jù)進行識別、剪切并去除adapters, primers , poly_A等序列,移除被adapter污染的reads部分(指由于插入片段長度不夠,測序儀讀到的測序引物等序列)。具體見NGS基礎(chǔ) - 高通量測序原理

軟件官網(wǎng):https://cutadapt.readthedocs.io/en/stable/

image

5. FastQC

MultiQC將fastqc工具分析得到的10個結(jié)果分別整合成一個模塊,集中查看。

軟件官網(wǎng):http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

具體的關(guān)于FastQC報告解讀可以見歷史推文:NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評估

image

MultiQC的可定制性也比較強,更多功能值得進一步探索。

轉(zhuǎn)錄組研究

NGS基礎(chǔ)和軟件應(yīng)用

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容