聲明：本文部分內(nèi)容和部分圖片來源于網(wǎng)絡(luò)。本文為生信小白學(xué)習(xí)筆記，不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威。? ? ? ?

? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理，序列回帖到數(shù)據(jù)可視化的工作流程，包含了較多的軟件（Linux環(huán)境運行）和若干個包（R語言環(huán)境運行），本系列將按下圖，對每一個步驟進行學(xué)習(xí)和理解。

某RNAseq分析流程

FastQC可以生成fastq文件的質(zhì)量報告。

Basic Statistics

從read水平，概況fastq文件質(zhì)量。

可從文件中獲得文件名，文件類型，測試平臺的版本（Encoding），總序列數(shù)，標為質(zhì)量差的序列數(shù)，序列長度和GC占比。不同物種GC占比不同，人類為42%左右。

樣品1

Per base sequence quality

? ? ? ?一種可快速分析測序質(zhì)量的方法。綠色區(qū)域的值是完全正常，黃色區(qū)域為輕度不正常，紅色區(qū)域為非常不正常。

? ? ? ?橫坐標為讀段，縱坐標為測序質(zhì)量評估。這里的Quality score=-10*lg10(error P)，20%Q表示1%的錯誤讀取率，30%為0.1%錯誤讀取率。黃色塊的上下線表示質(zhì)量25%和75%；藍色線，平均數(shù)；紅色線，中位數(shù)。

一般要求箱線圖10%的線大于Q=20。

樣品1-質(zhì)量好

樣品2-質(zhì)量差

Per tile sequence quality

縱坐標為tail的index編號。藍色表示質(zhì)量高，淺色或紅色表示質(zhì)量低。目的是分析是否特定tail受影響后質(zhì)量低。后續(xù)可針對性去除低質(zhì)量tail。

樣品2-質(zhì)量差

Per sequence quality scores

該圖表示總體read平均Q值的分布。橫坐標為Q值，縱坐標為read數(shù)。越多read的Q值集中在高分區(qū)，證明該樣品質(zhì)量越好。

樣品1-質(zhì)量好

樣品2-質(zhì)量差

Per base sequence content

四個堿基在讀段不同位置的百分比。橫坐標是測試堿基的位置，縱坐標為堿基百分比。

理論上，四種不同堿基百分比差別不大，若測試堿基前端不同堿基差別較大（AT或CG差別超過10%），此項檢測質(zhì)量較低?？赡艿脑蚴窃跍y試前幾個堿基時，儀器設(shè)備調(diào)整導(dǎo)致的偏差，可在后續(xù)數(shù)據(jù)預(yù)處理中，將其剪出。后段差別較大的原因可能是測試時的adapter沒有清除干凈，可在后續(xù)清除。

樣品1-質(zhì)量好

樣品2-質(zhì)量差

Per sequence GC content

該圖表示GC堿基在所有序列中的分布。紅色線表示待評估樣品中每read的GC數(shù)，越符合理論分布，表明該樣品質(zhì)量越好。如果雙峰，可能混有了其他物種的DNA序列。

樣品1-質(zhì)量好

樣品2-質(zhì)量差

Sequence Length Distribution

橫坐標為序列長度，縱坐標為序列數(shù)。在下圖中，理論上，所有序列都應(yīng)該是40 bp。

樣品1

Adapter Content

檢測樣品中adapter是否被全部去除及種類。理論上，樣品中不含有adapter。從下圖中，可看出本樣品有adapter未全部去除，且剩余的是Illumina Universal Adapter

樣品2-質(zhì)量差

MultiQC可將數(shù)個fastQC結(jié)果整合到一個文件，方便查閱分析。

Adatpter & kmer

? ? ? ?Adapter是Illumina雙端測序時，會在待測鏈兩端加上adapter，其和flowcell上的oligo是配對的，可幫助待測序列固定在flowcell上，而primer是擴增insert部分的引物。

在Illumina雙端測序中，通用的Adapter是：

Top adapter：5' ACACTCTTTCCCTACACGACGCTCTTCCGATC*T 3'

Bottom adapter：5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 3'

? ? ? ?Kmer就是指 k 長度的序列，比如GATTC就是5-mer。Kmer content圖（如下圖）分析不同k-mer的短序列出現(xiàn)的頻數(shù)。橫坐標表示短序列的長度，縱坐標表示某長度的序列在總reads中的百分比。

? ? ? ?在分析Kmer問題時，要考慮不同序列長度觀測到的出現(xiàn)頻率與預(yù)期頻率。使用圖片上端的公式計算觀測值與預(yù)測值的差異。其值高于5，會被認為over-represented。同時，fastQC也會給出kmer的統(tǒng)計報告。可得到最顯著且觀測值與預(yù)測值差異最大的kmer序列內(nèi)容。

kmer

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

生信分析學(xué)習(xí)筆記 - RNAseq （三） FastQC評估

生信分析學(xué)習(xí)筆記 - RNAseq （三） FastQC評估

Basic Statistics

Per base sequence quality

Per tile sequence quality

Per sequence quality scores

Per base sequence content

Per sequence GC content

Sequence Length Distribution

Adapter Content

Adatpter & kmer

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

生信分析學(xué)習(xí)筆記 - RNAseq （三） FastQC評估

Basic Statistics

Per base sequence quality

Per tile sequence quality

Per sequence quality scores

Per base sequence content

Per sequence GC content

Sequence Length Distribution

Adapter Content

Adatpter & kmer

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av