sam格式講解

SAM,全稱Sequence Alignment/Map Format,由header和alignment兩部分組成

Header section

#查看header section
:~#   samtools view -H SRR3191542.bam | head
@HD VN:1.0  SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
解釋

header section每一行以@開頭,@后面兩個(gè)字母表示該行的信息類型,共有【HD、SQ、RG、PG】四種。
HD,header的第一行,文件中以下參數(shù)不一定全部展示

VN:使用的samtools版本
SO:比對(duì)序列的排序,參數(shù)包括unknown (default), unsorted, queryname和coordinate
GO:相似序列是否分組,參數(shù)包括none (default), query, and reference
SS:比對(duì)結(jié)果的子排序,格式(coordinate|queryname|unsorted)(:[A-Za-z0-9_-]+)+

SQ,參考序列的字典,@SQ的順序決定了比對(duì)序列的排序

SN:參考序列的名字,對(duì)人類基因組而言即染色體
LN:參考序列的長(zhǎng)度,范圍[1, 2^31-1]
......

RG,Read Group,reads分組信息
PG,Program,使用程序信息

ID:Program record identier
PN:program name
VN:program version
......

Alignment section

每一行記錄一個(gè)reads的比對(duì)信息,一行由11行或以上部分組成

:~#samtools view SRR3191542.bam | head -1
SRR3191542.847431   99  chr1    14370   1   76M =   14499   205 AGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTCTGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTG    CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG    AS:i:0  XS:i:0  XN:i:0  XM:i:0  XO:i:0  XG:i:0  NM:i:0  MD:Z:76 YS:i:0  YT:Z:CP
Alignment section

FLAG

Flags:
1==    0x1 PAIRED .. paired-end (or multiple-segment) sequencing technology
2==    0x2 PROPER_PAIR .. each segment properly aligned according to the aligner
4==    0x4 UNMAP .. segment unmapped
8==    0x8 MUNMAP .. next segment in the template unmapped
16==   0x10 REVERSE .. SEQ is reverse complemented
32==   0x20 MREVERSE .. SEQ of the next segment in the template is reversed
64==   0x40 READ1 .. the first segment in the template
128==  0x80 READ2 .. the last segment in the template
256==  0x100 SECONDARY .. secondary alignment
512==  0x200 QCFAIL .. not passing quality controls
1024== 0x400 DUP .. PCR or optical duplicate
2048== 0x800 SUPPLEMENTARY .. supplementary alignment

解釋
1.SECONDARY: 該序列存在多個(gè)比對(duì)的結(jié)果,主要是基因的重復(fù)序列等,選擇其中一個(gè)作為primary alignment
2.SUPPLEMENTARY: chimeric alignment,由于實(shí)驗(yàn)本身或者基因融合等原因,序列的不同部分比對(duì)到不同位置。

推薦一個(gè)分析flag的網(wǎng)站:
https://www.samformat.info/sam-format-flag-single

通過flag篩選reads

# 獲得包含flag=4的序列
samtools view -f 4
# 獲得不包含flag=4的序列
samtools view -F 4

MAPQ

計(jì)算方法,比如MAPQ為60
60/10 =6,所以這條序列錯(cuò)誤比對(duì)的概率為 10^-6
按照MAPQ篩選reads

#篩選MAQ大于20的reads
samtools view -q 20 UHR_1.bam > UHR_1_mapq20.bam

CIGAR

CIGAR表示測(cè)序比對(duì)的質(zhì)量,位于sam文件第六行

? M match or mismatch,匹配或者不匹配
? I insertion
? D deletion
? S soft clip,被剪切的序列存在于sam文件序列中
? H hard clip,被剪切的序列不存在于sam文件序列中,一般較長(zhǎng)
? N skipping,跳躍比較長(zhǎng)區(qū)域

可參考孟浩巍生物信息學(xué)100個(gè)基礎(chǔ)問題之十九題
https://zhuanlan.zhihu.com/p/36591134

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容