前言
首先,這篇文章介紹的文件格式格式:基因組fasta、測序數(shù)據(jù)fasta、基因組不同軟件構(gòu)建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle
image.png
| fasta格式:
測序數(shù)據(jù)fa格式:一般為fa.gz文件
## 文件格式可為 #.fasta #.fa #.fna #.faa
## >gi| gi號 |來源標(biāo)識| 序列標(biāo)識 | 序列描述
>gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
GGTGTCATGTAGTACAGCCGCTCC
基因組參考序列fa格式:
fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
total 3.1G
-rwxr-xr-x 1 root root 3.1G 7月 5 00:42 hg38.fa
-rwxr-xr-x 1 root root 19K 7月 4 23:59 hg38.fa.fai
## .fa文件內(nèi)容 序列中有N 大寫字母 小寫字母
>chr1
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
......
>chr10
......
>chr11
......
>chr11_KI270721v1_random
......
## .fa.fai文件內(nèi)容 lie
## 編號 xx號 xx. xx. xx. xx. xx.
chr1 248956422 6 50 51
chr10 133797422 253935564 50 51
chr11 135086622 390408942 50 51
chr11_KI270721v1_random 100316 528197322 50 51
chr12 133275309 528299652 50 51
chr13 114364328 664240475 50 51
chr14 107043718 780892097 50 51
chr14_GL000009v2_random 201709 890076715 50 51
| bowti構(gòu)建的索引文件:
-rwxr-xr-x 1 root root 974M 7月 5 04:40 hg38.1.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:30 hg38.2.bt2
-rwxr-xr-x 1 root root 15K 7月 5 04:47 hg38.3.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:47 hg38.4.bt2
-rwxr-xr-x 1 root root 13K 7月 5 04:47 hg38.bowtie_index.log
-rwxr-xr-x 1 root root 974M 7月 5 04:21 hg38.rev.1.bt2
-rwxr-xr-x 1 root root 728M 7月 5 04:12 hg38.rev.2.bt2
| bwa構(gòu)建的索引文件:
-rwxr-xr-x 1 root root 21K 7月 5 05:47 hg38.amb
-rwxr-xr-x 1 root root 22K 7月 5 05:47 hg38.ann
-rwxr-xr-x 1 root root 6.5K 7月 5 05:50 hg38.bwa_index.log
-rwxr-xr-x 1 root root 3.0G 7月 5 05:47 hg38.bwt
-rwxr-xr-x 1 root root 766M 7月 5 05:50 hg38.pac
-rwxr-xr-x 1 root root 1.5G 7月 5 05:37 hg38.sa
| hisat構(gòu)建的索引文件:
-rwxr-xr-x 1 root root 974M 7月 5 03:13 genome.1.ht2
-rwxr-xr-x 1 root root 728M 7月 5 03:05 genome.2.ht2
-rwxr-xr-x 1 root root 15K 7月 5 03:13 genome.3.ht2
-rwxr-xr-x 1 root root 728M 7月 5 03:19 genome.4.ht2
-rwxr-xr-x 1 root root 1.3G 7月 5 03:37 genome.5.ht2
-rwxr-xr-x 1 root root 741M 7月 5 03:26 genome.6.ht2
-rwxr-xr-x 1 root root 8 7月 5 03:26 genome.7.ht2
-rwxr-xr-x 1 root root 8 7月 5 03:37 genome.8.ht2
-rwxr-xr-x 1 root root 1.3K 7月 5 03:37 make_hg38.sh
| salmon構(gòu)建的索引文件:
fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
-rwxr-xr-x 1 root root 1.7G 7月 14 21:50 hash.bin
-rwxr-xr-x 1 root root 357 7月 14 21:49 header.json
-rwxr-xr-x 1 root root 115 7月 14 21:52 indexing.log
-rwxr-xr-x 1 root root 9.4K 7月 14 21:52 quasi_index.log
-rwxr-xr-x 1 root root 121 7月 14 21:49 refInfo.json
-rwxr-xr-x 1 root root 36M 7月 14 21:52 rsd.bin
-rwxr-xr-x 1 root root 1.1G 7月 14 21:51 sa.bin
-rwxr-xr-x 1 root root 287M 7月 14 21:51 txpInfo.bin
-rwxr-xr-x 1 root root 96 7月 14 21:49 versionInfo.json
| star構(gòu)建索引文件
| subread構(gòu)建的索引文件:
-rwxr-xr-x 1 root root 766M 7月 5 06:27 hg38.00.b.array
-rwxr-xr-x 1 root root 5.0G 7月 5 06:45 hg38.00.b.tab
-rwxr-xr-x 1 root root 29K 7月 5 06:45 hg38.files
-rwxr-xr-x 1 root root 0 7月 5 06:45 hg38.log
-rwxr-xr-x 1 root root 14K 7月 5 06:27 hg38.reads
| fastq格式文件:
第一行以@開頭,之后為序列的標(biāo)識符以及描述信息(與FASTA格式的描述行類似)
第二行為序列信息
第三行以+開頭,之后可以再次加上序列的標(biāo)識及描述信息(可選)
第四行為質(zhì)量得分信息,與第二行的序列相對應(yīng),長度必須與第二行相同
## 文件格式可為 #.fastq #.fq
-rwxr-xr-x 1 root root 300308 7月 4 23:57 7E5240_L1_A001.L1_1_fastqc.html
-rwxr-xr-x 1 root root 401515 7月 4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
-rwxr-xr-x 1 root root 2899602923 7月 4 23:57 7E5240_L1_A001.L1_1.fastq.gz
## 打開 7E5240_L1_A001.L1_1.fastq.gz
## @儀器號:運(yùn)行號:flowcell ID號:Lane號:Tile號:X坐標(biāo):Y坐標(biāo) Read號:是否過濾:質(zhì)控號:index序列
@HISEQ: 820 :CBD38ANXX : 1 : 1101 : 1233: 2135 1 : N : 0 : ATCACGA
CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
+
BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<
| 基因組索引文件格式:gtf2文件
GTF(Gene Transfer Format)格式是借鑒于GFF2格式,也被稱為GFF2.5,大部分字段的定義是和GFF2相同的,只是每行的第九列必須帶有如下四個域,具體為gene_id value; transcript_id value; 這樣的設(shè)計是為了適應(yīng)一個基因的多個轉(zhuǎn)錄本這種情況。GTF格式主要用來注釋基因:
[圖片上傳失敗...(image-8d42c2-1536734614697)]
| gff3文件
gff主要用來注釋基因組
| 序號 | GTF | GFF | ||||
|---|---|---|---|---|---|---|
| 1 | Sequid | 參考序列ID | Seqname | 序列名稱 | 染色體ID/contig ID | |
| 2 | Source | 注釋來源 | 指明產(chǎn)生此文件的軟件或方法 | Source | 注釋來源 | 預(yù)測軟件名/公共數(shù)據(jù)庫 |
| 3 | Type | 類型 | ||||
| 4 | Start | 開始位點(diǎn) | 從1開始計數(shù) | Start | 開始位點(diǎn) | 從1開始計數(shù) |
| 5 | End | 結(jié)束位點(diǎn) | End | 結(jié)束位點(diǎn) | ||
| 6 | Score | 得分 | Feature | 結(jié)構(gòu)特點(diǎn) | ||
| 7 | Strand | 正/負(fù)鏈 | Score | 得分 | ||
| 8 | Phase | 步進(jìn) | + 正鏈,- 負(fù)鏈, ·無需指定正負(fù)鏈 | Strand | 正/負(fù)鏈 | + 正鏈,- 負(fù)鏈 |
| 9 | Attributes | 屬性 | frame | 密碼子偏移 |
##兩種格式的轉(zhuǎn)換
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3
| SAM文件
SAM(sequence alignment/map format):由標(biāo)頭注釋部分和比對部分組成
| sam標(biāo)頭注釋部分
## @HD,說明符合標(biāo)準(zhǔn)的版本、對比序列的排列順序
@HD VN:1.3 SO:coordinate
@SQ SN:chr10 LN:135534747 ## LN:參考序列的長度
## @SQ,參考序列說明
@SQ SN:chr7_gl000202_random LN:40103
@SQ SN:chrUn_gl000249 LN:38502
@SQ SN:chrX LN:155270560
## @RG,比對上的序列(read)說明
## @CO,任意的說明信息。
## @PG,使用的比對程序說明
@PG ID:bwa PN:bwa VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz control.clean.R2.fq.gz
| 比對部分
##字段 [ 1 ] [2 ] [ 3 ] [ 4 ] [5] [ 6 ] [ 7 ] [ 8 ] [ 9 ]
D00691:39:C7HGRANXX:7:1102:7445:18770 99 chr10 93614 60 126M = 93621 133 D00691:39:C7HGRANXX:7:1102:7445:18770 147 chr10 93621 60 126M = 93614 -133
D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10 94741 5 56H70M chr9 140136176 0
##[ 10. ] [ 11 ]
CCAC...CCTC BBBB...FFFF NM:i:0 MD:Z:126 AS:i:126 XS:i:106 XA:Z:chr18,-75762,126M,4;
| 11個字段 | 名稱 | 含義 | 解釋 |
|---|---|---|---|
| [1] | QName | 比對片段的編號 | |
| [2] | Flag | 常用&高效 保存多個布爾特征值 | |
| [3] | Rname | 比對到參考序列上的染色體號 | 若無法比對,則是* |
| [4] | Position | 比對上的位置 | 從1開始計數(shù),未比對上則為0 |
| [5] | Mapq | 比對的質(zhì)量分?jǐn)?shù) | 越高說明該read比對到參考基因組上的位置就越準(zhǔn)確 |
| [6] | Cigar | 簡要比對信息表達(dá)式 | 其以參考序列為基礎(chǔ),使用數(shù)字加字母表示比對結(jié)果。 |
| [7] | Mrnm(chr) | 下一片段比對上的參考序列編號 | |
| [8] | Mate position | 下一片段比對上的位置 | |
| [9] | Isize | Template的長度 | 如果不可用,此處為0 |
| [10] | Sequence | ||
| [11] |
| [6] | 解釋 | 翻譯 |
|---|---|---|
| M | match或 mismatch | |
| I | Insert | |
| D | Deletion | |
| N | Skipped | |
| S | Soft cliping | |
| H | Hard ciliping | |
| P | Padding | |
| = | Match | |
| X | Mismatch | 錯配,位置一一對應(yīng) |
| [11] | 解釋 | 翻譯 |
|---|---|---|
| AS | Alignment score generated by aligner | 比對得分 |
| NM | Edit distance to the reference, including ambiguous bases but excluding clipping | 對引用的編輯距離,包括不明確的基,但不包括剪切 |
| MD | String for mismatching positions. Regex : [0-9]+(([A-Z]|^[A-Z]+)[0-9]+)*10. | |
| NH | Number of reported alignments that contains the query in the current record | |
| X? | Reserved fields for end users |
| bam文件
| bed文件
bed(Browser Extensible Data):是ucsc 的genome browser的一個格式,描述注釋的數(shù)據(jù)。bed有3個要求的字段(基本列)和9個額外的字段(附加列)
#[1] [ 2 ] [ 3 ] [5]
chrM 13357 13651 trf 2 162.5 2 67 19 173 47 0 0 52 1.00 TA
chrM 13436 13585 trf 7 23.9 7 66 28 61 46 0 0 53 1.00 ATTATAA
chrM 13406 13658 trf 9 28.7 9 66 15 63 45 0 0 54 0.99 TATTATATT
## 可選列
#1 name #feature的名字
#2 score 0-1000的分值,如果track線在注釋時屬性設(shè)置為1,那么這個分值會決定顯示的灰度水平,數(shù)字越大,灰度越高
#3 strand定義鏈的+/—
#4 thickStart #feature的起始
#5 thickEnd #feature的終止
#6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb屬性是設(shè)置為'On”, 這個RBG 值將 決 定數(shù)據(jù)的顯示的顏色在BED 線。
#7 blockCount #exon個數(shù)
#8 blockSize #每個exon的大小
#9 blockStarts #以chromStart為起點(diǎn)的各個exon的起始點(diǎn)
| Bigbed
| vcf文件
vcf(Variant Call Format):格式是用于表示突變信息的文本格式,可以用來表示SNV(single nucleotide variants),INDEL( insertions/deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同樣是分為兩大部分,一部分是注釋描述信息,一部分是具體的突變信息,其中注釋信息是以##開頭的。
來源:samtools、GATK
應(yīng)用:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 . T G 5231.78 PASS AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G 3931.66 PASS AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T 71.77 PASS AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26
chr1 974165 rs9442391 T C 29.84 LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255
#1 CHROM 即chromosome, 染色體名稱;
#2 POS 即position, 發(fā)生突變的參考序列的位置(從1開始計數(shù));
#3 ID 突變的名稱;
#4 REF 參考序列POS上的堿基;
#5 ALT 發(fā)生突變的堿基,多個的話以,連接, 可選符號為ATCGN*,大小寫敏感;
#6 QUAL 基于Phred格式的表示ALT的質(zhì)量,也可以理解為可靠性;
#7 FILTER 過濾后的狀態(tài),即按照可靠性進(jìn)行篩選;
#8 INFO 額外信息,可結(jié)合注釋描述信息進(jìn)行理解
| Bigwig/Wiggle
https://wiki.bits.vib.be/index.php/Category:Formats
未完待續(xù)....
