RNA-Seq 入門:Fastaq文件解析

FASTAQ format stores short-read sequences and Phred qualities from NGS platform into a single file.
Every 4 lines represent for a short-read.

圖片 1.png

Four lines per FASTAQ record

1. @ indicates the sequence id(above is longer than sequence itself) 描述行
eg2.png

通常,儀器的使用次數(shù)在200-9999次比較適合。

2. the sequence content of the read 測(cè)到的堿基,A/G/T/C/N,其中N表示無法確定的堿基
3.+ optionally repeat the sequence id (often left empty)
4.quality string 質(zhì)量評(píng)判

A quality score is a number.
One character encodes a number using AscII table
A quality score represents an error probability.
Quality scores are used to represent base calling accuracy, alignment accuracy and other probabilities.
由于如果使用數(shù)字表示質(zhì)量的話,當(dāng)表示質(zhì)量的數(shù)字為兩位及以上時(shí),無法做到一位對(duì)應(yīng)一個(gè)數(shù)字。因此我們需要用其他的方法將表示質(zhì)量的數(shù)字轉(zhuǎn)換位單個(gè)字符,在fastaq的質(zhì)量評(píng)判中我們使用了Ascll table。

ascll.png

The number can be convert to probability based on following formula:
P=10^[-(Q-33)/10]
Start the scale at character 33 (so Q should minus 33)
Quality value (Q) range between 33 to 126
Character range between ‘!’ to ‘~’
Currently, most NGS platform only produce quality value (Q) in the range from 33 to 73. (from ‘!’ to ‘I’).
For P value, from 10^0 to 10^-4 (from 1 to 0.0001).
舉例而言:
比如時(shí)質(zhì)量評(píng)判給了一個(gè)‘!’:
查詢Ascll table,‘!’對(duì)應(yīng)的數(shù)值為33,將其帶入P-value的計(jì)算公式,即P=10^[-(33-33)/10] =10^0=1

Various formats for NGS data:

Input data (raw data): .fasta, .fastq (.SRA)
Annotation data: .gff, .gtf, .bed
Alignment result: .sam, .bam, .wig, .bed
Variant call result: .vcf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 突然想起來一件事 所以特意爬起來寫下 想起一開始在一起的時(shí)候 腦子里有對(duì)未來的憧憬 一起去街頭演出 一起去給路人素...
    三言兩語啰啰嗦嗦閱讀 284評(píng)論 0 0
  • 樸正在經(jīng)歷人生中最大一次迷茫,甚至比考研那段時(shí)間有過之而無不及。樸依然不是很確切知道自己到底想要的是什么。 樸對(duì)十...
    樸十七閱讀 297評(píng)論 0 0
  • 剛剛完成兩天的營(yíng)銷大區(qū)經(jīng)理競(jìng)聘評(píng)審工作。 競(jìng)聘報(bào)告的題目是《2016年?duì)I銷工作總結(jié)及2017年?duì)I銷工作計(jì)劃》,14...
    徐凌云閱讀 375評(píng)論 0 1

友情鏈接更多精彩內(nèi)容