生信分析學(xué)習(xí)筆記 - RNAseq (三) FastQC評估

聲明:本文部分內(nèi)容和部分圖片來源于網(wǎng)絡(luò)。本文為生信小白學(xué)習(xí)筆記,不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威。? ? ? ?

? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理,序列回帖到數(shù)據(jù)可視化的工作流程,包含了較多的軟件(Linux環(huán)境運行)和若干個包(R語言環(huán)境運行),本系列將按下圖,對每一個步驟進行學(xué)習(xí)和理解。

某RNAseq分析流程

FastQC可以生成fastq文件的質(zhì)量報告。

Basic Statistics

從read水平,概況fastq文件質(zhì)量。

可從文件中獲得文件名,文件類型,測試平臺的版本(Encoding),總序列數(shù),標為質(zhì)量差的序列數(shù),序列長度和GC占比。不同物種GC占比不同,人類為42%左右。


樣品1


Per base sequence quality

? ? ? ?一種可快速分析測序質(zhì)量的方法。綠色區(qū)域的值是完全正常,黃色區(qū)域為輕度不正常,紅色區(qū)域為非常不正常。

? ? ? ?橫坐標為讀段,縱坐標為測序質(zhì)量評估。這里的Quality score=-10*lg10(error P),20%Q表示1%的錯誤讀取率,30%為0.1%錯誤讀取率。黃色塊的上下線表示質(zhì)量25%和75%;藍色線,平均數(shù);紅色線,中位數(shù)。

一般要求箱線圖10%的線大于Q=20。


樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per tile sequence quality

縱坐標為tail的index編號。藍色表示質(zhì)量高,淺色或紅色表示質(zhì)量低。目的是分析是否特定tail受影響后質(zhì)量低。后續(xù)可針對性去除低質(zhì)量tail。

樣品2-質(zhì)量差

Per sequence quality scores

該圖表示總體read平均Q值的分布。橫坐標為Q值,縱坐標為read數(shù)。越多read的Q值集中在高分區(qū),證明該樣品質(zhì)量越好。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per base sequence content

四個堿基在讀段不同位置的百分比。橫坐標是測試堿基的位置,縱坐標為堿基百分比。

理論上,四種不同堿基百分比差別不大,若測試堿基前端不同堿基差別較大(AT或CG差別超過10%),此項檢測質(zhì)量較低??赡艿脑蚴窃跍y試前幾個堿基時,儀器設(shè)備調(diào)整導(dǎo)致的偏差,可在后續(xù)數(shù)據(jù)預(yù)處理中,將其剪出。后段差別較大的原因可能是測試時的adapter沒有清除干凈,可在后續(xù)清除。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Per sequence GC content

該圖表示GC堿基在所有序列中的分布。紅色線表示待評估樣品中每read的GC數(shù),越符合理論分布,表明該樣品質(zhì)量越好。如果雙峰,可能混有了其他物種的DNA序列。

樣品1-質(zhì)量好


樣品2-質(zhì)量差

Sequence Length Distribution

橫坐標為序列長度,縱坐標為序列數(shù)。在下圖中,理論上,所有序列都應(yīng)該是40 bp。

樣品1

Adapter Content

檢測樣品中adapter是否被全部去除及種類。理論上,樣品中不含有adapter。從下圖中,可看出本樣品有adapter未全部去除,且剩余的是Illumina Universal Adapter


樣品2-質(zhì)量差

MultiQC可將數(shù)個fastQC結(jié)果整合到一個文件,方便查閱分析。

Adatpter & kmer

? ? ? ?Adapter是Illumina雙端測序時,會在待測鏈兩端加上adapter,其和flowcell上的oligo是配對的,可幫助待測序列固定在flowcell上,而primer是擴增insert部分的引物。

在Illumina雙端測序中,通用的Adapter是:

Top adapter:5' ACACTCTTTCCCTACACGACGCTCTTCCGATC*T 3'

Bottom adapter:5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 3'

? ? ? ?Kmer就是指 k 長度的序列,比如GATTC就是5-mer。Kmer content圖(如下圖)分析不同k-mer的短序列出現(xiàn)的頻數(shù)。橫坐標表示短序列的長度,縱坐標表示某長度的序列在總reads中的百分比。

? ? ? ?在分析Kmer問題時,要考慮不同序列長度觀測到的出現(xiàn)頻率與預(yù)期頻率。使用圖片上端的公式計算觀測值與預(yù)測值的差異。其值高于5,會被認為over-represented。同時,fastQC也會給出kmer的統(tǒng)計報告。可得到最顯著且觀測值與預(yù)測值差異最大的kmer序列內(nèi)容。


kmer
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容