SAM,全稱Sequence Alignment/Map Format,由header和alignment兩部分組成
Header section
#查看header section
:~# samtools view -H SRR3191542.bam | head
@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
@SQ SN:chr3 LN:198295559
解釋
header section每一行以@開頭,@后面兩個(gè)字母表示該行的信息類型,共有【HD、SQ、RG、PG】四種。
HD,header的第一行,文件中以下參數(shù)不一定全部展示
VN:使用的samtools版本
SO:比對(duì)序列的排序,參數(shù)包括unknown (default), unsorted, queryname和coordinate
GO:相似序列是否分組,參數(shù)包括none (default), query, and reference
SS:比對(duì)結(jié)果的子排序,格式(coordinate|queryname|unsorted)(:[A-Za-z0-9_-]+)+
SQ,參考序列的字典,@SQ的順序決定了比對(duì)序列的排序
SN:參考序列的名字,對(duì)人類基因組而言即染色體
LN:參考序列的長(zhǎng)度,范圍[1, 2^31-1]
......
RG,Read Group,reads分組信息
PG,Program,使用程序信息
ID:Program record identier
PN:program name
VN:program version
......
Alignment section
每一行記錄一個(gè)reads的比對(duì)信息,一行由11行或以上部分組成
:~#samtools view SRR3191542.bam | head -1
SRR3191542.847431 99 chr1 14370 1 76M = 14499 205 AGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTCTGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTG CCCCCGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGGG AS:i:0 XS:i:0 XN:i:0 XM:i:0 XO:i:0 XG:i:0 NM:i:0 MD:Z:76 YS:i:0 YT:Z:CP

Alignment section
FLAG
Flags:
1== 0x1 PAIRED .. paired-end (or multiple-segment) sequencing technology
2== 0x2 PROPER_PAIR .. each segment properly aligned according to the aligner
4== 0x4 UNMAP .. segment unmapped
8== 0x8 MUNMAP .. next segment in the template unmapped
16== 0x10 REVERSE .. SEQ is reverse complemented
32== 0x20 MREVERSE .. SEQ of the next segment in the template is reversed
64== 0x40 READ1 .. the first segment in the template
128== 0x80 READ2 .. the last segment in the template
256== 0x100 SECONDARY .. secondary alignment
512== 0x200 QCFAIL .. not passing quality controls
1024== 0x400 DUP .. PCR or optical duplicate
2048== 0x800 SUPPLEMENTARY .. supplementary alignment
解釋
1.SECONDARY: 該序列存在多個(gè)比對(duì)的結(jié)果,主要是基因的重復(fù)序列等,選擇其中一個(gè)作為primary alignment
2.SUPPLEMENTARY: chimeric alignment,由于實(shí)驗(yàn)本身或者基因融合等原因,序列的不同部分比對(duì)到不同位置。
推薦一個(gè)分析flag的網(wǎng)站:
https://www.samformat.info/sam-format-flag-single
通過flag篩選reads
# 獲得包含flag=4的序列
samtools view -f 4
# 獲得不包含flag=4的序列
samtools view -F 4
MAPQ
計(jì)算方法,比如MAPQ為60
60/10 =6,所以這條序列錯(cuò)誤比對(duì)的概率為 10^-6
按照MAPQ篩選reads
#篩選MAQ大于20的reads
samtools view -q 20 UHR_1.bam > UHR_1_mapq20.bam
CIGAR
CIGAR表示測(cè)序比對(duì)的質(zhì)量,位于sam文件第六行
? M match or mismatch,匹配或者不匹配
? I insertion
? D deletion
? S soft clip,被剪切的序列存在于sam文件序列中
? H hard clip,被剪切的序列不存在于sam文件序列中,一般較長(zhǎng)
? N skipping,跳躍比較長(zhǎng)區(qū)域
可參考孟浩巍生物信息學(xué)100個(gè)基礎(chǔ)問題之十九題
https://zhuanlan.zhihu.com/p/36591134