轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝)
轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載)
轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控)
轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gtf注釋探究)
轉(zhuǎn)錄組學(xué)習(xí)五(reads的比對(duì)與samtools排序)
轉(zhuǎn)錄組學(xué)習(xí)六(reads計(jì)數(shù)與標(biāo)準(zhǔn)化)
轉(zhuǎn)錄組學(xué)習(xí)七(差異基因分析)
轉(zhuǎn)錄組學(xué)習(xí)八(功能富集分析)
對(duì)原始測(cè)序fq文件數(shù)據(jù)進(jìn)行質(zhì)量控制
任務(wù)
了解fastq測(cè)序數(shù)據(jù)
需要用安裝好的sratoolkit把sra文件轉(zhuǎn)換為fastq格式的測(cè)序文件,并且用fastqc軟件測(cè)試測(cè)序文件的質(zhì)量!
作業(yè),理解測(cè)序reads,GC含量,質(zhì)量值,接頭,index,fastqc的全部報(bào)告,
<font color=orange>SRA文件解壓為fastq原始測(cè)序文件</font>
首先就是要將前一步從NCBI的SRA數(shù)據(jù)庫(kù)下載的SRA格式的壓縮文件 解壓縮為原始的測(cè)序出來(lái)的fq文件。用到的軟件就是之前下載的Sratoolkit軟件里的fastq-dump程序。
-
fastq.dump.2軟件使用參數(shù)幫助具體可用命令fastq-dump.2查看,其中常用參數(shù):
- --split-3:現(xiàn)在大多數(shù)測(cè)序都為雙末端測(cè)序,此為重要參數(shù)。生成結(jié)果為*_1.fastq和*_2.fastq
- --gzip: 原始fastq文件直接解壓文件太大!1.2G文件能解壓出10G的文件!,-gzip為常用的一種壓縮方式,生成文件結(jié)尾*.fastq.gz,后續(xù)也可以直接查看。
- -O:解壓出的文件輸出路徑。
- -A:輸入的sra文件。
所以,對(duì)于下載的SRA文件從56~62進(jìn)行解壓可以寫(xiě)個(gè)簡(jiǎn)單的循環(huán)腳本再加上fastq-dump命令:fastq.dump.2 --gzip --split-3 -O (path) -A (SRA)即可:
fastq-dump
for i in `seq 56 62`
do
fastq-dump.2 --gzip --split-3 -O ./1_raw_data -A SRR35899${i} ##如果出錯(cuò)一定注意輸出路徑的問(wèn)題,可以改為文件夾的絕對(duì)地址,對(duì)于fastq-dump軟件也同樣適用
done
-
生成文件:image
<font color=orange>fastqc</font>
- 基本參數(shù): -o path(輸出路徑) --nogroup 不生成單獨(dú)的文件夾。
<font color = orange>利用xargs批量生成fastqc程序腳本</font>
ls *.fastq.gz 會(huì)列出所有要操作的文件;xargs 命令通過(guò)管道,將上一個(gè)命令的輸出作為自己的輸入;-i 參數(shù)的意思是按行處理,并且會(huì)將每行的內(nèi)容存到一個(gè)特殊變量 {} 里;echo fastqc -o ./ {} 是要對(duì)每一行執(zhí)行的命令;{} 代表每一行的內(nèi)容。
- 這么多樣品,明早要結(jié)果,要并行計(jì)算才行 在命令結(jié)尾添加 &,注意需要轉(zhuǎn)義,前面加\,并且要nohup &并行處理。注意 echo 是可選的
mkdir 2_fastqc && cd 2_fastqc
ls /sas/supercloud-kong/wangtianpeng/data/biotrainee/1_raw_data/*.fastq.gz | xargs -i echo nohup /usr/local/bin/fastqc -o /sas/supercloud-kong/wangtianpeng/data/biotrainee/2_fastqc/ --nogroup {} \& > fastqc.sh
bash fastqc.sh
注意,此時(shí)可能會(huì)有 too many levels是因?yàn)閒astqc軟件的軟連接的問(wèn)題,將軟連接改為硬地址即可。
- 寫(xiě)法二:簡(jiǎn)單的循環(huán)for腳本也可以
for i in /sas/super_cloud/wangtianpeng/data/1_raw_data/*.fastq.gz
do
nohup fastqc -o ./ --nogroup ${i} \&
done
-
生成文件結(jié)果:
image
<font color=orange>fastqc質(zhì)控結(jié)果解讀</font>
首先用winscp或者Xftp軟件將2_fastqc文件夾下的html文件下載到本地電腦里,可以直接用瀏覽器打開(kāi)。
- fasqc質(zhì)控的結(jié)果解讀是個(gè)很大的坑,軟磨硬磨看了不少參考文檔才模糊的明白一些指標(biāo)。
主要參考文章> NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評(píng)估
FastQC 你需要知道的在這里!
數(shù)據(jù)質(zhì)量不好,可以用么?
我的基因組(十):測(cè)序數(shù)據(jù)質(zhì)量控制
轉(zhuǎn)錄組之?dāng)?shù)據(jù)質(zhì)控
PANDA姐的轉(zhuǎn)錄組入門(mén)(3):了解fastq測(cè)序數(shù)據(jù)
靜淵的學(xué)習(xí)日志
-
<font color=darkblue>Fastqc報(bào)告整體瀏覽</font>
image- SUMMARY: 綠色合格,黃色警戒,紅色不合格。總體來(lái)說(shuō),并不是都是綠色就代表合格,紅色就代表放棄數(shù)據(jù),還需要查看后面具體的項(xiàng)目?jī)?nèi)容。此報(bào)告結(jié)果有三項(xiàng)不合格,需要接著看。
- Basic Statistics: 測(cè)序平臺(tái)illumina,總的reads數(shù)目(和覆蓋度有關(guān))36M左右,reads長(zhǎng)度51bp,GC百分比 50%。基本符合。
-
<font color=darkblue>某一位置上所有讀段的測(cè)序質(zhì)量評(píng)分Per Base Sequence Quality</font>
image- quality就是Fred值,一條reads某個(gè)位置上出錯(cuò)概率為0.01時(shí),quality值就是20,即常說(shuō)的Q20。
- 就是一個(gè)箱線圖boxplot,黃色箱子(25%和75%的分?jǐn)?shù)線),紅色線(中位數(shù)),藍(lán)線是平均數(shù),下面和上面的觸須分別表示 10 % 和 90 % 的點(diǎn)
- 橫坐標(biāo)reads的堿基位置,最大值即為讀長(zhǎng),縱坐標(biāo)代表質(zhì)量的好壞(判斷的準(zhǔn)確性)
- 如果任何一個(gè)位置的下四分位數(shù)小于10或者中位數(shù)小于25,會(huì)顯示“警告”;如果任何一個(gè)位置的下四分位數(shù)小于5或者中位數(shù)小于20,會(huì)顯示“不合格”
- 根據(jù)此次數(shù)據(jù)結(jié)果所看,基本處于綠色合格位置,測(cè)序質(zhì)量不錯(cuò)!
-
<font color=darkblue>每次熒光掃描的質(zhì)量Per Tile Sequence Quality</font>
image- 圖中橫軸代表堿基位置,縱軸代表 tile 編號(hào).
- 圖中的顏色是從冷色調(diào)到暖色調(diào)的漸變,冷色調(diào)表示這個(gè) tile 在這個(gè)位置上的質(zhì)量值高于所有 tile 在這個(gè)位置上的平均質(zhì)量值,暖色調(diào)表示這個(gè) tile 的在這個(gè)位置上的質(zhì)量值比其它 tiles 要差;一個(gè)很好的結(jié)果,整張圖都應(yīng)該是藍(lán)色,簡(jiǎn)單來(lái)說(shuō),就是看圖內(nèi)有無(wú)除藍(lán)色外的亮點(diǎn),有亮點(diǎn)代表低于平均值
- 根據(jù)此結(jié)果看,基本合格。
-
<font color=darkblue>每條序列平均堿基質(zhì)量的分布Per Sequence Quality Scores</font>
image- 圖中橫軸為測(cè)序質(zhì)量值,縱軸為 reads 數(shù)量;
- 看 橫坐標(biāo)值分布、紅色曲線走勢(shì),峰的位置。紅線上的每一個(gè)點(diǎn)表示quality值所對(duì)應(yīng)的reads的數(shù)量,其面積就是總的reads數(shù)。
- 如果最高峰所對(duì)應(yīng)的橫坐標(biāo)質(zhì)量值小于 27 (錯(cuò)誤率 0.2 %) 則會(huì)顯示“警告”,如果最高峰的質(zhì)量值小于 20 (錯(cuò)誤率 1 %) 則會(huì)顯示“不合格”。
- 如圖所示紅線單峰,分值在37左右,所以reads很可靠。
-
<font color=darkblue>每個(gè)位置的4種堿基組成比例Per Base Sequence Content</font>
image- 這項(xiàng)看的是每個(gè)位置上ATCGG的比例。一個(gè)完全隨機(jī)的文庫(kù)內(nèi)每個(gè)位置上 4 種堿基的比例應(yīng)該大致相同,因此圖中的四條線應(yīng)該相互平行且接近25的位置左右;
- 在 reads 開(kāi)頭出現(xiàn)堿基組成偏離往往是我們的建庫(kù)操作造成的,在reads上加接頭的堿基組成不是均一的。會(huì)造成明顯的堿基組成偏離。
- 如果任何一個(gè)位置上的 A 和 T 之間或者 G 和 C 之間的比例相差 10 % 以上則報(bào)“警告”,任何一個(gè)位置上的 A 和 T 之間或者 G 和 C 之間的比例相差 20 % 以上則報(bào)“不合格”。
- 此結(jié)果總體上處于25%說(shuō)明質(zhì)量可以,但在前13個(gè)bp位置上嚴(yán)重分離,說(shuō)明有堿基偏向性??赡苡薪宇^的污染。
-
<font color=darkblue>GC含量的分布圖:Per Sequence GC Content</font>
image- 在一個(gè)正常的隨機(jī)文庫(kù)中,GC 含量的分布應(yīng)接近正態(tài)分布,且中心的峰值和所測(cè)基因組的 GC 含量一致。由于軟件并不知道所測(cè)物種真實(shí)的 GC 含量,圖中的理論分布是基于所測(cè)數(shù)據(jù)計(jì)算得來(lái)的;
- 如果出現(xiàn)不正常的尖峰分布,則說(shuō)明文庫(kù)可能有污染, (如果是接頭的污染,那么在 overrepresented sequences 那部分結(jié)果還會(huì)得到提示),或者存在其它形式的偏選;
- 總體上就是看紅色的線與藍(lán)色線正態(tài)分布趨勢(shì)是否接近。此圖可知道紅色線與藍(lán)色線較為接近,質(zhì)量較好。
-
<font color=darkblue>每個(gè)位置上N的比例Per Base N Content</font>
image- 在測(cè)序儀工作過(guò)程中,如果不能正常完成某個(gè)堿基的 calling,將會(huì)以 N 來(lái)表示這個(gè)位置的堿基,而不是 A、T、C、G;有時(shí)在序列中會(huì)出現(xiàn)較低比例的 Ns,尤其是靠近序列末端的位置,這說(shuō)明系統(tǒng)不能正常的 call 這部分堿基;
- 橫坐標(biāo)表示reads的位置,縱坐標(biāo)表示N的比例。如果任何一個(gè)位置 N 的比例大于 5 % 則報(bào)“警告”,大于 20 % 則報(bào)“失敗”。
- 此圖可知基本無(wú)N,皆已測(cè)得為ATGC的堿基。測(cè)序質(zhì)量較好。
-
<font color=darkblue>reads的長(zhǎng)度分布Sequence Length Distribution Content</font>
image- 測(cè)序儀出來(lái)的原始 reads 通常是均一長(zhǎng)度的,但經(jīng)過(guò)質(zhì)控軟件等處理過(guò)的數(shù)據(jù)則不然;經(jīng)過(guò)質(zhì)控軟件處理過(guò)的reads長(zhǎng)度則不一樣。
- 當(dāng) reads 長(zhǎng)度不一致時(shí)報(bào)“警告”,當(dāng)有長(zhǎng)度為 0 的 reads 時(shí)則報(bào)“不合格”。
- 此圖可知為測(cè)序儀產(chǎn)出的reads,長(zhǎng)度皆為51bp
-
<font color=darkblue>序列重復(fù)的水平Sequence Duplication Levels</font>
image- 圖中橫軸代表 reads 的重復(fù)次數(shù) ( 1 表示 unique 的序列,2 表示有 2 條完全相同的 reads ...),大于 10 次重復(fù)后則按不同的重復(fù)次數(shù)合并顯示。 縱坐標(biāo)表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比;
- 藍(lán)線展示所有 reads 的重復(fù)情況,紅線表示在去掉重復(fù)以后,原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比;如果非 unique 的 reads 占總 reads 數(shù)的 20 % 以上則報(bào) ”警告“,占總 read 數(shù)的 50 % 以上則報(bào) ”不合格“。
- 看了不同的文檔說(shuō)明皆表示:不合格報(bào)錯(cuò)對(duì)于此項(xiàng)是正?,F(xiàn)象,不需要太過(guò)關(guān)注。
-
<font color=darkblue>大量重復(fù)出現(xiàn)的序列Overrepresented Sequences</font>
- 顯示同一條 read 出現(xiàn)次數(shù)超過(guò)總測(cè)序 reads 數(shù)的 0.1 % 的統(tǒng)計(jì)情況。正常文庫(kù)內(nèi)序列的多樣性水平很高,不會(huì)有同一條 read 大量出現(xiàn)的情況,這部分結(jié)果會(huì)把大量出現(xiàn)的 reads 列出來(lái),并給出可能來(lái)源;
- 如果有任何 read 出現(xiàn)的比例超過(guò)總 reads 數(shù)的 0.1 % 則報(bào) '警告',超過(guò)總 reads 數(shù)的 1 % 則報(bào) '不合格'。
- 如果檢測(cè)出一條多重復(fù)序列,重復(fù)次數(shù)較多,推測(cè)可能是TrueSeq接頭序列。
-
<font color=darkblue>每一位置上是接頭序列的比例Adapter Content</font>
- 顯示 reads 中的接頭含量,并顯示可能的來(lái)源。圖中橫軸為堿基位置,縱軸為含有接頭序列的比例;
- 正常的情況下接頭的含量應(yīng)該接近 0,如果 reads 中的接頭含量過(guò)高,說(shuō)明文庫(kù)內(nèi)小片段比例偏高 (這個(gè)可以從文庫(kù)質(zhì)檢報(bào)告中看出來(lái)),這可能是由于片段選擇時(shí)選取的長(zhǎng)度偏短或者使用切膠的方式回收片段時(shí)上樣過(guò)多致使小片段不能很好的分離等原因造成的;如果接頭的含量隨著堿基的位置增大而逐漸升高,則表示 reads 中含有接頭 (如圖所示),這部分接頭會(huì)影響后續(xù)的分析,我們需要截掉 reads 中的接頭序列或者將含有接頭的 reads 完全刪除。
- 如果任何重復(fù) read 超過(guò)總 reads 數(shù)的 5 % 則報(bào) '警告', 超過(guò)總 reads 數(shù)的 10 % 則報(bào) '不合格,
- 由圖可知測(cè)序是沒(méi)有接頭污染的。如果有接頭污染,在序列尾端會(huì)出現(xiàn)一個(gè)上揚(yáng)的曲線。
-
<font color=darkblue>Kmer Content</font>
image
image- 這部分分析假定任何特定長(zhǎng)度的短序列在正常的文庫(kù)中不會(huì)有明顯的位置偏好性,即使有特殊的生物學(xué)原因影響到 Kmers 分布,那在同一序列不同位置上的概率也應(yīng)該是相同的;
- 如果任何 Kmer 的 P 值小于 0.01 則 '警告',小于 0.00001 則 '不合格'。
- 短序列的重復(fù)性,這部分還是不是很明白啥意思,看不下去了,以后如果遇到不合格情況多的時(shí)候再看吧,感覺(jué)不是個(gè)很重要的指標(biāo)??
<font color=darkblue>他人經(jīng)驗(yàn)介紹</font>
堿基質(zhì)量值隨著 reads 的位置的增大而降低是正常現(xiàn)象,且通常反向 reads 的質(zhì)量要比正向的差。
Hiseq 2000 以后的測(cè)序儀,前10 - 15個(gè)循環(huán)的堿基質(zhì)量要比 reads 中部的堿基質(zhì)量值低。
對(duì)于所有的 Illumina 平臺(tái),堿基質(zhì)量的中值應(yīng)該在 30 以上,如果同一位置堿基質(zhì)量值的變異很大,表明文庫(kù)中存在低質(zhì)量的樣本。
序列堿基質(zhì)量值變低,往往也會(huì)同時(shí)表現(xiàn)出堿基組成的異常。
如果堿基質(zhì)量值有一個(gè)驟然的降低,通常表明有接頭的污染。
GC 含量有很高的偏離,同樣也暗示可能存在一定的污染。
這里所說(shuō)的污染,可以根據(jù)各部分結(jié)果綜合判斷是什么引起的污染,通常表現(xiàn)的是測(cè)序接頭的污染。
樣本的種類(lèi)和其本身質(zhì)量、建庫(kù)方式、測(cè)序平臺(tái)等很多方面都會(huì)影響到最終的測(cè)序質(zhì)量。質(zhì)量檢測(cè)只是用來(lái)查看一下文庫(kù)的質(zhì)量,讓我們對(duì)數(shù)據(jù)有一個(gè)基本的認(rèn)識(shí),并不是看起來(lái)質(zhì)量不好的文庫(kù)就一定不能用來(lái)做進(jìn)一步的分析。個(gè)人覺(jué)得只要確定數(shù)據(jù)是來(lái)自目標(biāo)樣本,沒(méi)有其它材料的污染,則可通過(guò)進(jìn)一步的質(zhì)量控制去接頭、去低質(zhì)量的 reads 等來(lái)控制數(shù)據(jù)質(zhì)量,進(jìn)行接下來(lái)的分析。然后綜合其它分析結(jié)果來(lái)判斷樣本到底是否可用。
<font color=orange>利用multiqc對(duì)fastqc結(jié)果綜合解讀</font>
作用:由于fastqc結(jié)果會(huì)生成多個(gè)qc文件報(bào)告,一個(gè)個(gè)點(diǎn)開(kāi)太麻煩了。所以本著能偷懶就絕不重復(fù)勞作的原則,找到了此multiqc軟件把多個(gè)測(cè)序結(jié)果的fastqc結(jié)果整合成一個(gè)報(bào)告。
安裝,利用conda
conda install -c bioconda multiqc
multiqc
- 具體使用
1. 先進(jìn)入到之前用fastqc得到測(cè)序的html文件和*fastqc.zip文件夾列表里。
2. 直接簡(jiǎn)單粗暴的命令
multiqc *fastqc.zip --pdf
- 結(jié)果會(huì)生成一個(gè)multiqc文件夾和一個(gè)html文件,傳輸?shù)奖镜仉娔X上瀏覽器打開(kāi)即可:
結(jié)果如圖image
一目了然,多棒??!
<font color=orange>自己寫(xiě)Perl腳本統(tǒng)計(jì)Q20,Q30等指標(biāo)</font>
- fastqc和multiqc的結(jié)果是用圖形化的方式展示測(cè)序的質(zhì)量,但任然沒(méi)有給具體q20,q30指標(biāo)。此時(shí)就可以自己根據(jù)fastqc結(jié)果文件里的數(shù)據(jù)來(lái)自己寫(xiě)個(gè)腳本來(lái)統(tǒng)計(jì)Q20,Q30,GC含量,reads數(shù)目。
- 整體思路:
- 首先是perl里的文件操作,涉及DIR,readdir,循環(huán)操作符next unless, 循環(huán)跳出last if ,perl里調(diào)用系統(tǒng)shell命令grep獲取GC%和總的reads數(shù), Q20及Q30的計(jì)算(1-(前20之和/總和))
- 參考并仿寫(xiě)perl腳本:
#!/usr/bin/perl -w
opendir (DIR, "./") or die "can't open the directory!";
@dir = readdir DIR;
foreach $file ( sort @dir) {
next unless -d $file;
next if $file eq '.';
next if $file eq '..';
$total_reads= `grep '^Total' ./$file/fastqc_data.txt`;
$total_reads=(split(/\s+/,$total_reads))[2];
$GC= `grep '%GC' ./$file/fastqc_data.txt`;
$GC=(split(/\s+/,$GC))[1];
chomp $GC;
open FH , "<./$file/fastqc_data.txt";
while (<FH>){
next unless /#Quality/;
while (<FH>){
@F=split;
$hash{$F[0]}=$F[1];
last if />>END_MODULE/;
}
}
delete $hash{">>END_MODULE"};
$all=0;$Q20=0;$Q30=0;
$all+=$hash{$_} foreach keys %hash;
$Q20+=$hash{$_} foreach 0..20;
$Q30+=$hash{$_} foreach 0..30;
$Q20=1-$Q20/$all;
$Q30=1-$Q30/$all;
print "$file\t$total_reads\t$GC\t$Q20\t$Q30\n";
}
- 結(jié)果:
image
可以看出Q20指標(biāo)基本在98/99左右,而Q30指標(biāo)在95左右,可以說(shuō)質(zhì)量非常好了! 另外根據(jù)他人的一個(gè)經(jīng)驗(yàn)指標(biāo):
如果說(shuō)Q20的reads可以達(dá)到95%以上,Q30的reads達(dá)到85%以上,我們認(rèn)為本次測(cè)序還可以。當(dāng)然我們可以通過(guò)過(guò)濾提高高質(zhì)量reads的比率,測(cè)序量需達(dá)到要求。
2017/10/22下午3點(diǎn)小結(jié):通過(guò)此次學(xué)習(xí),對(duì)fastqc質(zhì)量報(bào)告各項(xiàng)指標(biāo)的意義有了較為深刻的理解,另外對(duì)一些循環(huán)腳本,xargs的使用以及一個(gè)統(tǒng)計(jì)其q20、q30的的perl腳本進(jìn)行了學(xué)習(xí)并仿寫(xiě)。目前還只是前期的數(shù)據(jù)基礎(chǔ)整理,還未到轉(zhuǎn)錄組分析核心部分,慢慢來(lái)吧。
參考文章
- NGS基礎(chǔ) - FASTQ格式解釋和質(zhì)量評(píng)估(https://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247484047&idx=1&sn=3e2a79d9f56040a57ac2e16cf1923b54&chksm=ec0dc705db7a4e133e6e91de9ac11a6c0690f03d7b3b760b358e9b0d1a2d57974599419d9fff&scene=21#wechat_redirect)
- FastQC 你需要知道的在這里!(https://mp.weixin.qq.com/s?__biz=MzI4NjMxOTA3OA==&mid=2247484306&idx=1&sn=2d1d0734578209379d69e6cdfa133edc&chksm=ebdf8b1bdca8020d7d4d615b16ba06b96d725d5104ffbf8ed8fe9490b77c639381a7c8d0c3b9&scene=21#wechat_redirect)
- 數(shù)據(jù)質(zhì)量不好,可以用么?(https://mp.weixin.qq.com/s?__biz=MzI4NjMxOTA3OA==&mid=2247484343&idx=1&sn=a385feaed19be0d2180ca017a0079fbf&chksm=ebdf8b3edca80228b97cef24cb91d3d8ff10f2ac1ac3e69a91e571f7fd48e4756c952fa640b9&mpshare=1&scene=1&srcid=0713hgFPt6wMyWCuxuJyx0Pd#rd)
- 我的基因組(十):測(cè)序數(shù)據(jù)質(zhì)量控制(https://mp.weixin.qq.com/s/q73DquRCEj7saiiccUL9qw)
- 轉(zhuǎn)錄組之?dāng)?shù)據(jù)質(zhì)控(http://www.itdecent.cn/p/2ed3622ed4a8)
- PANDA姐的轉(zhuǎn)錄組入門(mén)(3):了解fastq測(cè)序數(shù)據(jù)(http://www.biotrainee.com/thread-1853-1-1.html)
- 靜淵的學(xué)習(xí)日志(http://yanshouyu.blog.163.com/blog/static/214283182201302835744453/)

