一、MultiQC的安裝
1.先安裝conda
我們先前安裝過,但是發(fā)現(xiàn)不能用了,在網(wǎng)上查詢后,發(fā)現(xiàn)問題,下面是解決方法
<參考http://www.itdecent.cn/p/edaa744ea47d>
- 下載conda時選擇是否自動添加環(huán)境變量時,這里選擇no,因為自動添加會干擾系統(tǒng),致使conda不能用,然后輸入以下命令運行conda
cd anaconda3/bin
chmod 777 activate #給activate添加一下權(quán)限才能使用conda
source ./activate #啟動conda
-
當命令行前面出現(xiàn)(base)的時候說明現(xiàn)在已經(jīng)在conda的環(huán)境中了image.png
- 注意用conda安裝的軟件必須在conda環(huán)境下
- 之后的配置Python環(huán)境和配置conda channels步驟和老師ppt里講的一致
2.安裝MultiQC
- 輸入以下命令
conda install -c bioconda multiqc
-c這個參數(shù)很重要,通過它來指定軟件下載的鏡像位置
- 使用以下命令查看是否安裝成功
multiqc --version
或者
multiqc -h
發(fā)現(xiàn)安裝成功 

二、下載sra序列
1、下載數(shù)據(jù)
在NCBI數(shù)據(jù)庫里面的SRA數(shù)據(jù)庫里隨意找了兩個SRR數(shù)據(jù)下載下來
-
為防止太大,找了幾個小一點的,如圖所示
1.PNGimage.png 使用下列命令下載下來
prefetch SRR8073294
prefetch SRR8073207

顯示成功下載,下載后的內(nèi)容放在~/ncbi/public/sra路徑下
2、解壓SRA文件為fastq格式
有兩種方法解壓
- 一個一個解壓
fastq-dump --gzip --split-files SRR8073294.sra
fastq-dump --gzip --split-files SRR8073207.sra
- 批量下載
我建議就單獨解壓,因為該文件下不止我們現(xiàn)在需要用的兩個SRR,用prefetch下載的都在這里,除非在該路徑下mkdir一個文件夾存放這兩個數(shù)據(jù)
(1).新建腳本文件
vi fqdump.sh
(2).輸入以下腳本
#!/bin/sh
for i in *sra
do
echo $i
fastq-dump --gzip --split-files $i
done
保存退出
這里--gzip參數(shù)是為了生成壓縮的gz格式fastq文件,以節(jié)省磁盤空間
(3)運行腳本
sh fqdump.sh
-
成功轉(zhuǎn)換成以fastq.gz結(jié)尾的四個文件,因為是雙端測序,每個樣本有正向和反向兩個文件image.png
三、用fastqc進行數(shù)據(jù)質(zhì)量評價
fastqc SRR8073207_1.fastq.gz
fastqc SRR8073207_2.fastq.gz
fastqc SRR8073294_1.fastq.gz
fastqc SRR8073294_2.fastq.gz
得到以下結(jié)果
四、使用multiqc整合
<以下有些內(nèi)容有所參考http://www.itdecent.cn/p/85da4dcc6020里的內(nèi)容>
- 輸入以下命令
multiqc .
-
結(jié)果如下image.png
-
生成了兩個文件,1個html報告和1個multiqc_data的文件夾,前者直接網(wǎng)頁打開就可以查看,后者包含一些數(shù)據(jù)基本的統(tǒng)計信息和日志文檔
image.png - 可以把multiqc_report.html 下載下來到本地,用windows的瀏覽器打開,也可以直接在圖形界面打開查看
五、結(jié)果分析
1. General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計

這里可以看到重復reads的比例、GC含量占總堿基的比例、測序長度、總測序量
2.Sequence Counts:序列計數(shù)

這里可以看到重復reads,我找的這四個序列重復reads比例都偏高,尤其是SRR8073207達到了90%以上,說明這兩個樣本的序列中有用的reads數(shù)目較少
3.Sequence Quality Histograms :每個read各位置堿基的平均測序質(zhì)量

綠色區(qū)間——質(zhì)量很好,橙色區(qū)間——質(zhì)量合理,紅色區(qū)間——質(zhì)量不好
可以看出SRR8073207測序質(zhì)量比SRR8073294的好,SRR8073294_2這個有點問題
4.Per Sequence Quality Scores 具有平均質(zhì)量分數(shù)的reads的數(shù)量

綠色區(qū)間——質(zhì)量很好、橙色區(qū)間——質(zhì)量合理、紅色區(qū)間——質(zhì)量不好
可以看出這四個序列的整體測序質(zhì)量還是很不錯,所有的都在綠色區(qū)域
5.Per Base Sequence Content :每個read各位置堿基ATCG的比列

結(jié)果顯示四個序列都報錯,說明每個位置每種堿基出現(xiàn)的概率差別很大,可能有過表達序列的污染
6.Per Sequence GC Content :reads的平均GC含量

這里結(jié)果顯示四條序列都被報錯,從形狀上來看曲線和正態(tài)曲線相差甚遠,可能是由于文庫的污染或是部分reads構(gòu)成的子集有偏差造成的
7.Per Base N Content :每條reads各位置N堿基含量比例

說明測序儀器能辨別這四個序列中每條reads的每個位置的堿基
8.Sequence Length Distribution 序列長度分布

對于這四個序列,每次測序儀測出來的長度主要都在251bp
9.Sequence Duplication Levels:每個序列的相對重復水平

四個序列中的重復的reads的程度都超過了范圍,unique reads比例太少
10.Overrepresented sequences:文庫中過表達序列的比例

這四個序列中過表達的序列的比例都遠遠超過1%,SRR8073294的兩個序列中過表達的序列都超過50%,如果出現(xiàn)這種情況,不是這種轉(zhuǎn)錄本巨量表達,就是樣品被污染
11.Adapter Content 接頭含量

SRR8073294的兩個序列接頭含量比SRR8073207多,但兩者接頭含量都超過了5%,而且SRR8073294_1的接頭含量接近10%
- 總的來說這兩個樣本測序質(zhì)量還行,但是重復序列太多了,沒有多少有用的序列,GC含量不正常,很有可能樣品存在被污染的情況。




