MultiQC使用

一、MultiQC的安裝

1.先安裝conda

我們先前安裝過,但是發(fā)現(xiàn)不能用了,在網(wǎng)上查詢后,發(fā)現(xiàn)問題,下面是解決方法
<參考http://www.itdecent.cn/p/edaa744ea47d>

  • 下載conda時選擇是否自動添加環(huán)境變量時,這里選擇no,因為自動添加會干擾系統(tǒng),致使conda不能用,然后輸入以下命令運行conda
cd anaconda3/bin
chmod 777 activate #給activate添加一下權(quán)限才能使用conda
source ./activate #啟動conda
  • 當命令行前面出現(xiàn)(base)的時候說明現(xiàn)在已經(jīng)在conda的環(huán)境中了
    image.png
  • 注意用conda安裝的軟件必須在conda環(huán)境下
  • 之后的配置Python環(huán)境和配置conda channels步驟和老師ppt里講的一致

2.安裝MultiQC

  • 輸入以下命令
conda install -c bioconda multiqc

-c這個參數(shù)很重要,通過它來指定軟件下載的鏡像位置

  • 使用以下命令查看是否安裝成功
multiqc --version
或者
multiqc -h

發(fā)現(xiàn)安裝成功
image.png
image.png

二、下載sra序列

1、下載數(shù)據(jù)

  • 在NCBI數(shù)據(jù)庫里面的SRA數(shù)據(jù)庫里隨意找了兩個SRR數(shù)據(jù)下載下來

  • 為防止太大,找了幾個小一點的,如圖所示


    1.PNG
    image.png
  • 使用下列命令下載下來

prefetch SRR8073294
prefetch SRR8073207
image.png

顯示成功下載,下載后的內(nèi)容放在~/ncbi/public/sra路徑下

2、解壓SRA文件為fastq格式

有兩種方法解壓

  • 一個一個解壓
fastq-dump --gzip --split-files  SRR8073294.sra
fastq-dump --gzip --split-files  SRR8073207.sra
  • 批量下載
    我建議就單獨解壓,因為該文件下不止我們現(xiàn)在需要用的兩個SRR,用prefetch下載的都在這里,除非在該路徑下mkdir一個文件夾存放這兩個數(shù)據(jù)

(1).新建腳本文件

vi fqdump.sh

(2).輸入以下腳本

#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done

保存退出
這里--gzip參數(shù)是為了生成壓縮的gz格式fastq文件,以節(jié)省磁盤空間
(3)運行腳本

sh fqdump.sh
  • 成功轉(zhuǎn)換成以fastq.gz結(jié)尾的四個文件,因為是雙端測序,每個樣本有正向和反向兩個文件
    image.png

三、用fastqc進行數(shù)據(jù)質(zhì)量評價

fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz

得到以下結(jié)果
image.png

四、使用multiqc整合

<以下有些內(nèi)容有所參考http://www.itdecent.cn/p/85da4dcc6020里的內(nèi)容>

  • 輸入以下命令
multiqc .
  • 結(jié)果如下
    image.png
  • 生成了兩個文件,1個html報告和1個multiqc_data的文件夾,前者直接網(wǎng)頁打開就可以查看,后者包含一些數(shù)據(jù)基本的統(tǒng)計信息和日志文檔


    image.png
  • 可以把multiqc_report.html 下載下來到本地,用windows的瀏覽器打開,也可以直接在圖形界面打開查看

五、結(jié)果分析

1. General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計

image.png

這里可以看到重復reads的比例、GC含量占總堿基的比例、測序長度、總測序量

2.Sequence Counts:序列計數(shù)

image.png

這里可以看到重復reads,我找的這四個序列重復reads比例都偏高,尤其是SRR8073207達到了90%以上,說明這兩個樣本的序列中有用的reads數(shù)目較少

3.Sequence Quality Histograms :每個read各位置堿基的平均測序質(zhì)量

image.png

綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理,紅色區(qū)間——質(zhì)量不好
可以看出SRR8073207測序質(zhì)量比SRR8073294的好,SRR8073294_2這個有點問題

4.Per Sequence Quality Scores 具有平均質(zhì)量分數(shù)的reads的數(shù)量

image.png

綠色區(qū)間——質(zhì)量很好、橙色區(qū)間——質(zhì)量合理、紅色區(qū)間——質(zhì)量不好
可以看出這四個序列的整體測序質(zhì)量還是很不錯,所有的都在綠色區(qū)域

5.Per Base Sequence Content :每個read各位置堿基ATCG的比列

image.png

結(jié)果顯示四個序列都報錯,說明每個位置每種堿基出現(xiàn)的概率差別很大,可能有過表達序列的污染

6.Per Sequence GC Content :reads的平均GC含量

image.png

這里結(jié)果顯示四條序列都被報錯,從形狀上來看曲線和正態(tài)曲線相差甚遠,可能是由于文庫的污染或是部分reads構(gòu)成的子集有偏差造成的

7.Per Base N Content :每條reads各位置N堿基含量比例

image.png

說明測序儀器能辨別這四個序列中每條reads的每個位置的堿基

8.Sequence Length Distribution 序列長度分布

image.png

對于這四個序列,每次測序儀測出來的長度主要都在251bp

9.Sequence Duplication Levels:每個序列的相對重復水平

image.png

四個序列中的重復的reads的程度都超過了范圍,unique reads比例太少

10.Overrepresented sequences:文庫中過表達序列的比例

image.png

這四個序列中過表達的序列的比例都遠遠超過1%,SRR8073294的兩個序列中過表達的序列都超過50%,如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達,就是樣品被污染

11.Adapter Content 接頭含量

image.png

SRR8073294的兩個序列接頭含量比SRR8073207多,但兩者接頭含量都超過了5%,而且SRR8073294_1的接頭含量接近10%

  • 總的來說這兩個樣本測序質(zhì)量還行,但是重復序列太多了,沒有多少有用的序列,GC含量不正常,很有可能樣品存在被污染的情況。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容