bowtie2是當(dāng)前最流行的短序列比對(duì)軟,SAM(SequenceAlignment/Map)格式是一種通用的比對(duì)格式,用來(lái)存儲(chǔ)reads到參考序列的比對(duì)信息SAM是一種序列比對(duì)格式標(biāo)準(zhǔn), 由sanger制定,是以TAB為分割符的文本格式。
主要應(yīng)用于測(cè)序序列mapping到基因組上的結(jié)果表示,當(dāng)然也可以表示任意的多
重比對(duì)結(jié)果
SAM分為兩部分:注釋信息和對(duì)比結(jié)果
注釋信息以@開頭
@HD:說(shuō)明符合標(biāo)準(zhǔn)的版本。對(duì)比序列的排列順序
@SQ:參考序列說(shuō)明
@RG:比對(duì)上的序列(read)說(shuō)明
@PG:使用的程序說(shuō)明
@CO:任意的說(shuō)明信息
比對(duì)結(jié)果部分
每一行代表一個(gè)片段的比對(duì)信息,包括11個(gè)必須的字段和一個(gè)可選字段,字段之間用tag分割
11個(gè)必須字段:
1:比對(duì)片段(read)的編號(hào)
2.位標(biāo)識(shí)(flag)每一種數(shù)字代表一種情況,這里的值是符合情況的數(shù)字和
3.參考序列的編號(hào),沒(méi)有比對(duì)上的序列,這里為 *
4.比對(duì)上的位置 從1開始計(jì)數(shù),沒(méi)有比對(duì)上此處為0
5.MAPQ:mapping的質(zhì)量
6.CIGAR:簡(jiǎn)要比對(duì)信息表達(dá)式 以參考序列為基礎(chǔ),使用數(shù)字加字幕表示比對(duì)結(jié)果
比如3S6M1P1I4M,前三個(gè)堿基被剪切去除了,然后6個(gè)比對(duì)上了,
然后打開了一個(gè)缺口,有一個(gè)堿基插入,最后是4個(gè)比對(duì)上了,是按照順序的
“M”表示 match或 mismatch;
“I”表示 insert;
“D”表示 deletion;
“N”表示 skipped(跳過(guò)這段區(qū)域);
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中);
“P”表示 padding;打開缺口
“=”表示 match;
“X”表示 mismatch(錯(cuò)配,位置是一一對(duì)應(yīng)的)
7.下一個(gè)片段比對(duì)上的參考序列的標(biāo)號(hào),沒(méi)有另外的片段這里為 * ,同一個(gè)片段 =
8.下一個(gè)片段比對(duì)上的位置,如果不可用,此處為0
9.Template的長(zhǎng)度,最左邊得為正,最右邊的為負(fù),中間的不用定義正負(fù),
不分區(qū)段(single-segment)的比對(duì)上,或者不可用時(shí),此處為0;
10.比對(duì)上的序列片段的序列信息,如果不存儲(chǔ)此類信息,此處為’*‘,
長(zhǎng)度=簡(jiǎn)要比對(duì)信息表達(dá)式算出來(lái)的結(jié)果
11.序列的質(zhì)量信息,格式同F(xiàn)ASTQ一樣