常用生物信息學(xué)格式介紹(fasta、fastq、gff2、gtf(gff2.5)、gff3、bed、sam、bam、vcf)

前言

在各個行業(yè)都是有行業(yè)標(biāo)準(zhǔn)的,這樣才能統(tǒng)一規(guī)范而方便后面的分析,在生物信息學(xué)領(lǐng)域中主要是各種大量序列數(shù)據(jù)、注釋數(shù)據(jù)等,這些都是有特定的格式去表示,下面列舉幾種常見的格式。了解這些是進(jìn)行后續(xù)生物信息學(xué)分析的必備知識,有些人雖說是在做生物信息學(xué)分析,但是到現(xiàn)在可能還不知道什么是GFF3格式等。


fasta

fasta格式是最基本的表示序列信息(核苷酸或者蛋白質(zhì))的格式。 http://genetics.bwh.harvard.edu/pph/FASTA.html https://en.wikipedia.org/wiki/FASTA_format 。這里簡單介紹下,fasta格式的文件通常后綴名為.fasta 或者.fa, 其實這都無所謂,因為都是文本文件。fasta格式文件(可以包含多條序列)中的一條序列的通常表示方法如下:

>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP

其中主要分為兩個部分

  • 第一部分是序列的定義行(單行),該行的開頭是>符號,緊跟著后面的就是該條序列的名稱(具有唯一性,即不能和其它序列同名稱),即>號和后面的名稱的第一字符間是沒有任何空白的。一般第一個空格后面的內(nèi)容即為可選的描述信息。如上面, gi|129295|sp|P01013|OVAX_CHICK為序列名稱, 而GENE X PROTEIN (OVALBUMIN-RELATED)則為描述信息。注意:有點軟件是把一整行當(dāng)做名稱的,所以在出現(xiàn)錯誤的時候可以查看下格式是否正確。
  • 第二部分就是序列,所有的序列堿基或者氨基酸可以都放在一行存儲,也可以多行存儲,但是建議大家多行存儲且單行長度不超過80個字符,因為這樣容易閱讀。且序列的多行之間不能有空行,序列信息描述的第一行與序列數(shù)據(jù)的第一行之間不能有空行。其中序列數(shù)據(jù)主要是按照密碼表來表示的,*表示是蛋白質(zhì)翻譯的結(jié)束。

多行序列舉例如下:

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

fastq

fastq( https://en.wikipedia.org/wiki/FASTQ_format )同樣是以文本形式來存儲序列信息的格式,后綴名通常為.fastq 或者.fq,但是與fasta不相同的是,它除了存儲序列本身外還存儲了序列中每個單元所對應(yīng)的質(zhì)量分?jǐn)?shù),所以fastq格式通常用于高通量測試數(shù)據(jù)的存儲。早期是有Sanger機(jī)構(gòu)開發(fā)的,但是現(xiàn)在已經(jīng)演變成一個高通量測序的標(biāo)準(zhǔn)了。

fastq格式文件中一個完整的單元分為四行,每行的含義如下:

第一行: 以@開頭,內(nèi)容同fasta的描述行類似

第二行:具體的堿基序列

第三行:以+開頭,后面的內(nèi)容可以和第一行類似,也什么都沒有只留+

第四行:以ASCII字符集(分?jǐn)?shù))編碼來表示對應(yīng)堿基的測序質(zhì)量

比如下面的這個例子:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

下面以Illumina和NCBI SRA兩個測序數(shù)據(jù)來源來講講它們之間的區(qū)別:

通常我們獲取測序數(shù)據(jù)有兩種途徑,一種是自己通過儀器測定,一種是在公共數(shù)據(jù)庫中(比如之前說到的NCBI中的SRA數(shù)據(jù)庫)獲取,這兩種方式主要是在序列名稱的命名上和測序質(zhì)量表示方式上有所不同。

Illumina 序列名稱:

@HWUSI-EAS100R:6:73:941:1973#0/1

上述以:隔開的每個字段的含義如下:

| HWUSI-EAS100R | the unique instrument name |
| 6 | flowcell lane |
| 73 | tile number within the flowcell lane |
| 941 | ‘x’-coordinate of the cluster within the tile |
| 1973 | ‘y’-coordinate of the cluster within the tile |
| #0 | index number for a multiplexed sample (0 for no indexing) |
| /1 | the member of a pair, /1 or /2 (paired-end or mate-pair reads only) |

NCBI SRA數(shù)據(jù)庫:

將測序數(shù)據(jù)提交到NCBI的SRA數(shù)據(jù)庫時,SRA數(shù)據(jù)庫會為每一個樣本提供一個編號,一般是SRRxxxxx,所以從SRA數(shù)據(jù)庫上下載公共的測試數(shù)據(jù)(原始格式為

.sra, 需特定工具轉(zhuǎn)換為fastq),其fastq格式文件中每個單元的名稱是以SRA編號接數(shù)字加以區(qū)分的。比如下面的這個示例:

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC
+SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC
  • 需要注意的是:當(dāng)把測序數(shù)據(jù)上傳到SRA數(shù)據(jù)庫時,它通常會將表示質(zhì)量的分?jǐn)?shù) **轉(zhuǎn)換為標(biāo)準(zhǔn)的Sanger格式 **。

質(zhì)量分?jǐn)?shù)表示法:

由于測序儀器的不同等因素所以對堿基測序質(zhì)量的表示方式也不相同,在Fastq格式文件中,用ASCII碼表來表示每個堿基的測序質(zhì)量,下面介紹幾種不同的方案:


image.png

其中有五種表示方法,Sanger的碼表范圍為!至I,其對應(yīng)的數(shù)值為33-73,如果減去33(即Phred+33表示法)這個基數(shù)則范圍轉(zhuǎn)換為0-40,即如果某一個堿基的測序質(zhì)量為!則對應(yīng)的測序質(zhì)量分?jǐn)?shù)為0,表示測序質(zhì)量低。其它幾種表示法類似(X,I,J,L)。這里介紹測序質(zhì)量的表示方法是因為后面有的軟件是要指定測序數(shù)據(jù)的質(zhì)量表示方法。


gff2

http://gmod.org/wiki/GFF2

GFF(General Feature Format)是一種用于描述基因或者其它序列元素的文件格式,GFF有幾個版本,早期的第Version 2和現(xiàn)在的Version 3. Version 2 是由Sanger機(jī)構(gòu)所制定的,而Version 3是由Sequence Ontology Project制定。正是由于有統(tǒng)一的格式來表示基因等元素,使得GFF格式的文件被廣泛的使用與mapping與基因組數(shù)據(jù)可視化方面。

GFF2文件格式是由tab隔開的九列值,每一行的九個字段的含義如下:

Chr1  curated  CDS 365647  365963  .  +  1  Transcript "R119.7"

第一列: reference sequence, 該列表示的是特征元素所在的染色體(或者scaffold,或者contig),也就是在基因組中的坐標(biāo)系統(tǒng),后續(xù)一切的注釋信息都是基于此列。

第二列:source,該列表示改行注釋信息的來源,比如上述的一行表示該行的CDS注釋信息來自名為“curated”的注釋。

第三列:feature,或者說是method,type, 表示的是該注釋的類型,比如上述表示改行注釋為CDS信息,可以將source和feature結(jié)合起來描述的更加詳細(xì)。

第四列:start position,在reference sequence上的開始位置(坐標(biāo)),通常是從1為起點而不是0。

第五列:end position, 在reference sequence上的結(jié)束位置(坐標(biāo)),一般是大于start position的。

第六列:score, 表示該行feature的分?jǐn)?shù),比如序列相似性等,如果沒有對應(yīng)的分?jǐn)?shù)可以用.代替。

第七列:strand,feature所在鏈,+表示正鏈,-表示負(fù)鏈,.表示不確定或者與鏈無關(guān)。

第八列:phase,與蛋白質(zhì)編碼相關(guān),一般是用于CDS,值的范圍為0-2,表示編碼時閱讀框的移動相位。

下面這段描述很詳細(xì):

‘0’ indicates that the specified region is in frame, i.e. that its first base corresponds to the first base of a codon. ‘1’ indicates that there is one extra base, i.e. that the second base of the region corresponds to the first base of a codon, and ‘2’ means that the third base of the region is the first base of a codon. If the strand is ‘-‘, then the first base of the region is value of <end>, because the corresponding coding region will run from <end> to <start> on the reverse strand.

第九列:group,或者稱為attributes,是用于對改行注釋更多的描述,以鍵值對的形式,比如上面的例子表示該CDS是屬于名為R119.7的transcript。該列中可以存在多個屬性,屬性之間是用;隔開的。

對于GFF格式的理解主要是集中在最后一列,有以下集中情況:

1. 對于單個feature

Chr3   giemsa heterochromatin  4500000 6000000 . . .   Band 3q12.1

2. 對于屬于同一集合的多個feature

IV     curated exon    5506900 5506996 . + .   Transcript B0273.1
IV     curated exon    5506026 5506382 . + .   Transcript B0273.1
IV     curated exon    5506558 5506660 . + .   Transcript B0273.1
IV     curated exon    5506738 5506852 . + .   Transcript B0273.1

比如上面這個例子就表示這四個exon都是屬于同一個名為B0273.1的transcript,這是表示一個完整transcript結(jié)構(gòu)的最基本要求。

GFF2還可用于序列比對結(jié)果表示等其它方面,這里不做介紹了。


gtf(gff2.5)

http://mblab.wustl.edu/GTF2.html

GTF(Gene Transfer Format)格式是借鑒于GFF2格式,也被稱為GFF2.5,大部分字段的定義是和GFF2相同的,只是每行的第九列必須帶有如下四個域,具體為gene_id value; transcript_id value; 這樣的設(shè)計是為了適應(yīng)一個基因的多個轉(zhuǎn)錄本這種情況。比如下面的這個例子:

AB000123    Twinscan     CDS    193817    194022    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    199645    199752    .    -    2    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    200369    200508    .    -    1    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     CDS    215991    216028    .    -    0    gene_id "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     start_codon   216026    216028    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";
AB000123    Twinscan     stop_codon    193814    193816    .    -    .    gene_id    "AB000123.1"; transcript_id "AB00123.1.2";

gff3

http://gmod.org/wiki/GFF3 http://www.sequenceontology.org/gff3.shtml

GFF2格式早期用的比較多,但是現(xiàn)在用的多的是GFF3格式,這也是好多軟件所支持的,比如Gbrowse, Jbrowse等基因組數(shù)據(jù)可視化工具。

先看下面這個簡單的例子:

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

第一行的##gff-version 3通常是需要的,而且必須是在文件的第一行。

前八列和GFF2、GFF2.5類似,但是有幾點是要特別注意的,主要是將GFF3注釋數(shù)據(jù)用于基因組瀏覽器時,字段中的一些特殊字符比如空格,> %等都需要使用URL編碼進(jìn)行轉(zhuǎn)換才能準(zhǔn)確的在web中進(jìn)行展示。

第九列同樣是表示attributes,采用的同樣是鍵值對的形式(tag=value),只是這里有幾個特定的鍵,具體如下:

ID,feature在整個GFF3文件中唯一的標(biāo)識符;

Name,feature的名字,不同于ID,Name不要求唯一,只是方便用戶瀏覽;

Alias, 相當(dāng)于feature的別名;

Parent,表明該feature所屬的上一級feature 的ID,這種關(guān)系可用于exons-transcripts,transcripts-genes,可以看出一個feature可以擁有多個子feature;

Target, 主要是用于序列比對結(jié)果的展示,value的格式為target_id start end [strand], 其中如果target_id中含有空格則需轉(zhuǎn)換為%20;

后面還有些其它屬性比如Note等,這里不再做詳細(xì)描述。

下面再來看下典型的例子:

  • 蛋白質(zhì)編碼基因結(jié)構(gòu)
ctg123 example gene            1050 9000 . + . ID=EDEN;Name=EDEN;Note=protein kinase

ctg123 example mRNA            1050 9000 . + . ID=EDEN.1;Parent=EDEN;Name=EDEN.1;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.1
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.1
ctg123 example CDS             3000 3902 . + 0 Parent=EDEN.1
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.1
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.1
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.1

ctg123 example mRNA            1050 9000 . + . ID=EDEN.2;Parent=EDEN;Name=EDEN.2;Index=1
ctg123 example five_prime_UTR  1050 1200 . + . Parent=EDEN.2
ctg123 example CDS             1201 1500 . + 0 Parent=EDEN.2
ctg123 example CDS             5000 5500 . + 0 Parent=EDEN.2
ctg123 example CDS             7000 7608 . + 0 Parent=EDEN.2
ctg123 example three_prime_UTR 7609 9000 . + . Parent=EDEN.2

ctg123 example mRNA            1300 9000 . + . ID=EDEN.3;Parent=EDEN;Name=EDEN.3;Index=1
ctg123 example five_prime_UTR  1300 1500 . + . Parent=EDEN.3
ctg123 example five_prime_UTR  3000 3300 . + . Parent=EDEN.3
ctg123 example CDS             3301 3902 . + 0 Parent=EDEN.3
ctg123 example CDS             5000 5500 . + 1 Parent=EDEN.3
ctg123 example CDS             7000 7600 . + 1 Parent=EDEN.3
ctg123 example three_prime_UTR 7601 9000 . + . Parent=EDEN.3

一個名為EDEN的基因擁有三個轉(zhuǎn)錄本,分別名為EDEN.1 EDEN.2 EDEN.3, 每個轉(zhuǎn)錄本又有UTR和CDS等信息。

  • 序列比對
ctg123 est EST_match 1050 1500 . + . ID=Match1;Name=agt830.5;Target=agt830.5 1 451
ctg123 est EST_match 3000 3202 . + . ID=Match1;Name=agt830.5;Target=agt830.5 452 654

ctg123 est EST_match 5410 5500 . - . ID=Match2;Name=agt830.3;Target=agt830.3 505 595
ctg123 est EST_match 7000 7503 . - . ID=Match2;Name=agt830.3;Target=agt830.3 1 504

ctg123 est EST_match 1050 1500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 1 451
ctg123 est EST_match 5000 5500 . + . ID=Match3;Name=agt221.5;Target=agt221.5 452 952
ctg123 est EST_match 7000 7300 . + . ID=Match3;Name=agt221.5;Target=agt221.5 953 1253
  • 定量數(shù)據(jù)
ctg123 affy microarray_oligo   1 100 281 . . Name=Expt1
ctg123 affy microarray_oligo 101 200 183 . . Name=Expt1
ctg123 affy microarray_oligo 201 300 213 . . Name=Expt1
ctg123 affy microarray_oligo 301 400 191 . . Name=Expt1
ctg123 affy microarray_oligo 401 500 288 . . Name=Expt1
ctg123 affy microarray_oligo 501 600 184 . . Name=Expt1
  • 含F(xiàn)asta格式的GFF3格式文件
##gff-version 3
ctg123 . exon            1300  1500  .  +  .  ID=exon00001
ctg123 . exon            1050  1500  .  +  .  ID=exon00002
ctg123 . exon            3000  3902  .  +  .  ID=exon00003
ctg123 . exon            5000  5500  .  +  .  ID=exon00004
ctg123 . exon            7000  9000  .  +  .  ID=exon00005
##FASTA
>ctg123
cttctgggcgtacccgattctcggagaacttgccgcaccattccgccttg
tgttcattgctgcctgcatgttcattgtctacctcggctacgtgtggcta
tctttcctcggtgccctcgtgcacggagtcgagaaaccaaagaacaaaaa
aagaaattaaaatatttattttgctgtggtttttgatgtgtgttttttat
aatgatttttgatgtgaccaattgtacttttcctttaaatgaaatgtaat
cttaaatgtatttccgacgaattcgaggcctgaaaagtgtgacgccattc
...

該GFF3文件中含有對應(yīng)的序列,以##FASTA作為標(biāo)示。


bed

http://www.genome.ucsc.edu/FAQ/FAQformat.html#format1 ,http://bedtools.readthedocs.org/en/latest/content/general-usage.html ,http://asia.ensembl.org/info/website/upload/bed.html?redirect=no

bed格式同樣是用于展示序列注釋信息,有相應(yīng)的軟件來處理這類格式的文件,如bedtools??梢杂迷陬愃艷Browse這樣的基因組數(shù)據(jù)可視化工具中。 以tab隔開,它必須的三個字段為 chrom、chromStart、chromEnd,還有9個可選字段。

注意:用于在GBrowse上展示相關(guān)注釋的bed格式通常第一行有一個關(guān)于track的描述信息。

比如下面的例子:

track name=pairedReads description="Clone Paired Reads" useScore=1
chr22 1000 5000 cloneA 960 + 1000 5000 0 2 567,488, 0,3512
chr22 2000 6000 cloneB 900 - 2000 6000 0 2 433,399, 0,3601

sam/bam

http://blog.sina.com.cn/s/blog_670445240101l30k.html , http://genome.sph.umich.edu/wiki/SAM https://samtools.github.io/hts-specs/SAMv1.pdf 。 在生物信息學(xué)中尤其是高通量測序數(shù)據(jù)分析中,大部分的操作都是在實現(xiàn)短片段序列與參考序列的比對(mapping),比如bowtie等,這就涉及到如何使用一個統(tǒng)一的格式來表示這種mapping結(jié)果呢,sam(Sequence Alignment/Map)格式就是來解決這個問題的。sam文件擁有頭部描述和詳細(xì)比對兩部分,其中頭部描述是以@開頭,后面緊跟兩個縮寫字母表示相應(yīng)的含義,SAM分為兩部分,注釋信息(header section)和比對結(jié)果部分(alignment section),注釋信息可有可無,都是以@開頭,用不同的tag表示不同的信息,主要有:
@HD,說明符合標(biāo)準(zhǔn)的版本、對比序列的排列順序;
@SQ,參考序列說明;
@RG,比對上的序列(read)說明;
@PG,使用的程序說明;
@CO,任意的說明信息。
而詳細(xì)比對部分是通過11個tab隔開的字段來表示。

下面主要講解下詳細(xì)比對部分字段的具體含義:

其中:

1. QNAME 表示的是查詢序列的名稱即短片段(reads)的名稱;

2. FLAG 以整數(shù)來表示比對的結(jié)果,不同數(shù)值有不同的意義,數(shù)值也可以是下列數(shù)的組合;

比如如果FLAG是4的話則表示該reads沒有比對到參考序列上,flag為16表示single-end reads比對到參考序列的反鏈上,

flag為83(64+16+2+1)表示paired-end reads中的第一個reads比對到參考序列上了。

3. RNAME 表示參考序列的名稱,比如基因組的染色體編號等,如果沒有比對上則顯示為*;

4. POS 表示比對的起始位置,以1開始計數(shù),如果沒有比對上則顯示為0;

5. MAPQ 比對質(zhì)量;

6. CIGAR CIGAR 字符串,即比對的詳細(xì)情況,簡要比對信息表達(dá)式(Compact Idiosyncratic Gapped Alignment Report),其以參考序列為基礎(chǔ),使用數(shù)字加字母表示比對結(jié)果,比如3S6M1P1I4M,前三個堿基被剪切去除了,然后6個比對上了,然后打開了一 個缺口,有一個堿基插入,最后是4個比對上了,是按照順序的;

7. RNEXT 雙末端測序中下一個reads比對的參考系列的名稱,如果沒有則用*表示,如果和前一個reads比對到同一個參考序列則用=表示;

8. PNEXT 下一個reads比對到參考序列上的位置,如果沒有則用0表示;

9. ISIZE/TLEN query序列的模板長度或者插入長度,Template的長度,最左邊得為正,最右邊的為負(fù),中間的不用定義正負(fù),不分區(qū)段(single-segment)的比對上,或者不可用時,此處為0;

10. reads的序列信息;

11. reads的序列質(zhì)量信息,同F(xiàn)ASTQ。

后面還有些可選字段,比如:

可選字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有兩個大寫字母組成,每個TAG代表一類信息,每一行一個TAG只能出現(xiàn)一次,TYPE表示TAG對應(yīng)值的類型,可以是字符串、整數(shù)、字節(jié)、數(shù)組等。

示例:

:497:R:-272+13M17D24M   113 1   497 37  37M 15  100338662   0   CGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAG   0;==-==9;>>>>>=>>>>>>>>>>>=>>>>>>>>>>   XT:A:U  NM:i:0  SM:i:37 AM:i:0  X0:i:1  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   99  1   17644   0   37M =   17919   314 TATGACTGCTAATAATACCTACACATGTTAGAACCAT   >>>>>>>>>>>>>>>>>>>><<>>><<>>4::>>:<9   RG:Z:UM0098:1   XT:A:R  NM:i:0  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:0  XG:i:0  MD:Z:37
:20389:F:275+18M2D19M   147 1   17919   0   18M2D19M    =   17644   -314    GTAGTACCAACTGTAAGTCCTTATCTTCATACTTTGT   ;44999;499<8<8<<<8<<><<<<><7<;<<<>><<   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:4  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:18^CA19
:21597+10M2I25M:R:-209  83  1   21678   0   8M2I27M =   21469   -244    CACCACATCACATATACCAAGCCTGGCTGTGTCTTCT   <;9<<5><<<<><<<>><<><>><9>><>>>9>>><>   XT:A:R  NM:i:2  SM:i:0  AM:i:0  X0:i:5  X1:i:0  XM:i:0  XO:i:1  XG:i:2  MD:Z:35

解釋:

其中可以看出Aligenment 2 和 Alignment 3是成對的reads,其插入長度為314。

bam格式中的b是binary的意思,是sam格式的二進(jìn)制表示方式,為什么要用二進(jìn)制表示呢? 因為sam格式文件大小通常是十分大的,一般是以G為單位,所以為了減少存儲量等因素而將sam轉(zhuǎn)換為二進(jìn)制格式以便于分析。

sam/bam格式是由特定的一些軟件(比如samtools)來處理的,包括格式互轉(zhuǎn)、排序、建立索引、搜尋突變等操作,后續(xù)分析中會詳細(xì)講解samtools工具的使用方法。


vcf

http://samtools.github.io/hts-specs/VCFv4.2.pdf

vcf(Variant Call Format)格式是用于表示突變信息的文本格式,可以用來表示single nucleotide variants, insertions/deletions, copy number variants and structural variants等。VCF格式同樣是分為兩大部分,一部分是注釋描述信息,一部分是具體的突變信息,其中注釋信息是以##開頭的,我們來看下面這個例子:

我們著重來關(guān)注第二部分的每列字段是什么含義:

CHROM 即chromosome, 染色體名稱;

POS 即position, 發(fā)生突變的參考序列的位置(從1開始計數(shù));

ID 突變的名稱;

REF 參考序列POS上的堿基;

ALT 發(fā)生突變的堿基,多個的話以,連接, 可選符號為ATCGN*,大小寫敏感;

QUAL 基于Phred格式的表示ALT的質(zhì)量,也可以理解為可靠性;

FILTER 過濾后的狀態(tài),即按照可靠性進(jìn)行篩選;

INFO 額外信息,可結(jié)合注釋描述信息進(jìn)行理解

針對vcf格式有如bcftools等軟件進(jìn)行處理。

reference

參考博文-常用生物信息學(xué)格式介紹

常用生物信息學(xué)格式介紹

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容