sam文件格式說(shuō)明

bowtie2是當(dāng)前最流行的短序列比對(duì)軟,SAM(SequenceAlignment/Map)格式是一種通用的比對(duì)格式,用來(lái)存儲(chǔ)reads到參考序列的比對(duì)信息SAM是一種序列比對(duì)格式標(biāo)準(zhǔn), 由sanger制定,是以TAB為分割符的文本格式。

主要應(yīng)用于測(cè)序序列mapping到基因組上的結(jié)果表示,當(dāng)然也可以表示任意的多

重比對(duì)結(jié)果

SAM分為兩部分:注釋信息和對(duì)比結(jié)果

注釋信息以@開頭

@HD:說(shuō)明符合標(biāo)準(zhǔn)的版本。對(duì)比序列的排列順序

@SQ:參考序列說(shuō)明

@RG:比對(duì)上的序列(read)說(shuō)明

@PG:使用的程序說(shuō)明

@CO:任意的說(shuō)明信息

比對(duì)結(jié)果部分

每一行代表一個(gè)片段的比對(duì)信息,包括11個(gè)必須的字段和一個(gè)可選字段,字段之間用tag分割

11個(gè)必須字段:

1:比對(duì)片段(read)的編號(hào)

2.位標(biāo)識(shí)(flag)每一種數(shù)字代表一種情況,這里的值是符合情況的數(shù)字和

3.參考序列的編號(hào),沒(méi)有比對(duì)上的序列,這里為 *

4.比對(duì)上的位置 從1開始計(jì)數(shù),沒(méi)有比對(duì)上此處為0

5.MAPQ:mapping的質(zhì)量

6.CIGAR:簡(jiǎn)要比對(duì)信息表達(dá)式 以參考序列為基礎(chǔ),使用數(shù)字加字幕表示比對(duì)結(jié)果

比如3S6M1P1I4M,前三個(gè)堿基被剪切去除了,然后6個(gè)比對(duì)上了,

然后打開了一個(gè)缺口,有一個(gè)堿基插入,最后是4個(gè)比對(duì)上了,是按照順序的

“M”表示 match或 mismatch;

“I”表示 insert;

“D”表示 deletion;

“N”表示 skipped(跳過(guò)這段區(qū)域);

“S”表示 soft clipping(被剪切的序列存在于序列中);

“H”表示 hard clipping(被剪切的序列不存在于序列中);

“P”表示 padding;打開缺口

“=”表示 match;

“X”表示 mismatch(錯(cuò)配,位置是一一對(duì)應(yīng)的)

7.下一個(gè)片段比對(duì)上的參考序列的標(biāo)號(hào),沒(méi)有另外的片段這里為 * ,同一個(gè)片段 =

8.下一個(gè)片段比對(duì)上的位置,如果不可用,此處為0

9.Template的長(zhǎng)度,最左邊得為正,最右邊的為負(fù),中間的不用定義正負(fù),

不分區(qū)段(single-segment)的比對(duì)上,或者不可用時(shí),此處為0;

10.比對(duì)上的序列片段的序列信息,如果不存儲(chǔ)此類信息,此處為’*‘,

長(zhǎng)度=簡(jiǎn)要比對(duì)信息表達(dá)式算出來(lái)的結(jié)果

11.序列的質(zhì)量信息,格式同F(xiàn)ASTQ一樣

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容