生信數(shù)據(jù)分析常見格式(一)

前言

首先,這篇文章介紹的文件格式格式:基因組fasta、測序數(shù)據(jù)fasta、基因組不同軟件構(gòu)建的索引文件index、fastq、sam、bam、bed、gtf、gff、vcf、bigwig、wiggle


image.png

| fasta格式:

測序數(shù)據(jù)fa格式:一般為fa.gz文件

## 文件格式可為   #.fasta  #.fa  #.fna  #.faa
##  >gi|  gi號   |來源標(biāo)識|   序列標(biāo)識     |    序列描述
    >gi|187608668 | ref | NM001043364.2 | Bombyx mori moricin(Mor),mRNA
    AAACCGCGCAGTTATTTAAAATATGAATATTTTAAAACTTTTTGTGGCAATGTCTCT
    GGTGTCATGTAGTACAGCCGCTCC

基因組參考序列fa格式:

    fxue@pc-System-Product-Name:/public/reference/genome/hg38$ ls -lh
    total 3.1G
    -rwxr-xr-x 1 root root 3.1G 7月   5 00:42 hg38.fa
    -rwxr-xr-x 1 root root  19K 7月   4 23:59 hg38.fa.fai
## .fa文件內(nèi)容  序列中有N 大寫字母 小寫字母
    >chr1
    NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
    CACCTCAGGAGCtgggggtggtggtgggggcggtgggggtggtgTTAGTA
    ......
    >chr10
    ......
    >chr11
    ......
    >chr11_KI270721v1_random
    ......
## .fa.fai文件內(nèi)容 lie
##  編號       xx號          xx.     xx.    xx.     xx.     xx. 
    chr1    248956422       6       50      51
    chr10   133797422       253935564       50      51
    chr11   135086622       390408942       50      51
    chr11_KI270721v1_random 100316  528197322       50      51
    chr12   133275309       528299652       50      51
    chr13   114364328       664240475       50      51
    chr14   107043718       780892097       50      51
    chr14_GL000009v2_random 201709  890076715       50      51

| bowti構(gòu)建的索引文件:

-rwxr-xr-x 1 root root 974M 7月   5 04:40 hg38.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:30 hg38.2.bt2
-rwxr-xr-x 1 root root  15K 7月   5 04:47 hg38.3.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:47 hg38.4.bt2
-rwxr-xr-x 1 root root  13K 7月   5 04:47 hg38.bowtie_index.log
-rwxr-xr-x 1 root root 974M 7月   5 04:21 hg38.rev.1.bt2
-rwxr-xr-x 1 root root 728M 7月   5 04:12 hg38.rev.2.bt2

| bwa構(gòu)建的索引文件:

-rwxr-xr-x 1 root root  21K 7月   5 05:47 hg38.amb
-rwxr-xr-x 1 root root  22K 7月   5 05:47 hg38.ann
-rwxr-xr-x 1 root root 6.5K 7月   5 05:50 hg38.bwa_index.log
-rwxr-xr-x 1 root root 3.0G 7月   5 05:47 hg38.bwt
-rwxr-xr-x 1 root root 766M 7月   5 05:50 hg38.pac
-rwxr-xr-x 1 root root 1.5G 7月   5 05:37 hg38.sa

| hisat構(gòu)建的索引文件:

-rwxr-xr-x 1 root root 974M 7月   5 03:13 genome.1.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:05 genome.2.ht2
-rwxr-xr-x 1 root root  15K 7月   5 03:13 genome.3.ht2
-rwxr-xr-x 1 root root 728M 7月   5 03:19 genome.4.ht2
-rwxr-xr-x 1 root root 1.3G 7月   5 03:37 genome.5.ht2
-rwxr-xr-x 1 root root 741M 7月   5 03:26 genome.6.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:26 genome.7.ht2
-rwxr-xr-x 1 root root    8 7月   5 03:37 genome.8.ht2
-rwxr-xr-x 1 root root 1.3K 7月   5 03:37 make_hg38.sh

| salmon構(gòu)建的索引文件:

fxue@pc-System-Product-Name:/public/reference/index/salmon/hg38_index$ ls -lhtotal 3.1G
-rwxr-xr-x 1 root root 1.7G 7月  14 21:50 hash.bin
-rwxr-xr-x 1 root root  357 7月  14 21:49 header.json
-rwxr-xr-x 1 root root  115 7月  14 21:52 indexing.log
-rwxr-xr-x 1 root root 9.4K 7月  14 21:52 quasi_index.log
-rwxr-xr-x 1 root root  121 7月  14 21:49 refInfo.json
-rwxr-xr-x 1 root root  36M 7月  14 21:52 rsd.bin
-rwxr-xr-x 1 root root 1.1G 7月  14 21:51 sa.bin
-rwxr-xr-x 1 root root 287M 7月  14 21:51 txpInfo.bin
-rwxr-xr-x 1 root root   96 7月  14 21:49 versionInfo.json

| star構(gòu)建索引文件

| subread構(gòu)建的索引文件:

-rwxr-xr-x 1 root root 766M 7月   5 06:27 hg38.00.b.array
-rwxr-xr-x 1 root root 5.0G 7月   5 06:45 hg38.00.b.tab
-rwxr-xr-x 1 root root  29K 7月   5 06:45 hg38.files
-rwxr-xr-x 1 root root    0 7月   5 06:45 hg38.log
-rwxr-xr-x 1 root root  14K 7月   5 06:27 hg38.reads

| fastq格式文件:

第一行以@開頭,之后為序列的標(biāo)識符以及描述信息(與FASTA格式的描述行類似)
第二行為序列信息
第三行以+開頭,之后可以再次加上序列的標(biāo)識及描述信息(可選)
第四行為質(zhì)量得分信息,與第二行的序列相對應(yīng),長度必須與第二行相同

## 文件格式可為  #.fastq  #.fq
-rwxr-xr-x 1 root root     300308 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.html
-rwxr-xr-x 1 root root     401515 7月   4 23:57 7E5240_L1_A001.L1_1_fastqc.zip
-rwxr-xr-x 1 root root 2899602923 7月   4 23:57 7E5240_L1_A001.L1_1.fastq.gz
## 打開 7E5240_L1_A001.L1_1.fastq.gz
## @儀器號:運(yùn)行號:flowcell ID號:Lane號:Tile號:X坐標(biāo):Y坐標(biāo)  Read號:是否過濾:質(zhì)控號:index序列
   @HISEQ: 820  :CBD38ANXX    :   1  :  1101 : 1233: 2135    1  :    N   :   0  : ATCACGA
   CTGAGCTGCTCCTTCACCCAGACCTCGATATGCTTGTTCCACTTCATGGTGAACACATAGAAGGCATAGGCCAGCAGCAGCAGNAGG
   +
   BBBBBFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF</<<<

| 基因組索引文件格式:gtf2文件

GTF(Gene Transfer Format)格式是借鑒于GFF2格式,也被稱為GFF2.5,大部分字段的定義是和GFF2相同的,只是每行的第九列必須帶有如下四個域,具體為gene_id value; transcript_id value; 這樣的設(shè)計是為了適應(yīng)一個基因的多個轉(zhuǎn)錄本這種情況。GTF格式主要用來注釋基因:

[圖片上傳失敗...(image-8d42c2-1536734614697)]

| gff3文件

gff主要用來注釋基因組

序號 GTF GFF
1 Sequid 參考序列ID Seqname 序列名稱 染色體ID/contig ID
2 Source 注釋來源 指明產(chǎn)生此文件的軟件或方法 Source 注釋來源 預(yù)測軟件名/公共數(shù)據(jù)庫
3 Type 類型
4 Start 開始位點(diǎn) 從1開始計數(shù) Start 開始位點(diǎn) 從1開始計數(shù)
5 End 結(jié)束位點(diǎn) End 結(jié)束位點(diǎn)
6 Score 得分 Feature 結(jié)構(gòu)特點(diǎn)
7 Strand 正/負(fù)鏈 Score 得分
8 Phase 步進(jìn) + 正鏈,- 負(fù)鏈, ·無需指定正負(fù)鏈 Strand 正/負(fù)鏈 + 正鏈,- 負(fù)鏈
9 Attributes 屬性 frame 密碼子偏移
##兩種格式的轉(zhuǎn)換
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

| SAM文件

SAM(sequence alignment/map format):由標(biāo)頭注釋部分和比對部分組成

| sam標(biāo)頭注釋部分
##  @HD,說明符合標(biāo)準(zhǔn)的版本、對比序列的排列順序
    @HD VN:1.3                      SO:coordinate
    @SQ SN:chr10                    LN:135534747   ## LN:參考序列的長度
##  @SQ,參考序列說明
    @SQ SN:chr7_gl000202_random     LN:40103
    @SQ SN:chrUn_gl000249           LN:38502
    @SQ SN:chrX                     LN:155270560
##  @RG,比對上的序列(read)說明
##  @CO,任意的說明信息。
##  @PG,使用的比對程序說明
    @PG ID:bwa  PN:bwa  VN:0.7.15-r1140 CL:/home/jianmingzeng/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M /home/jianmingzeng/reference/index/bwa/hg19 control.clean.R1.fq.gz                           control.clean.R2.fq.gz
| 比對部分
##字段 [            1               ]  [2 ] [ 3 ] [ 4 ]  [5] [ 6  ] [ 7 ]  [   8   ] [ 9 ]
D00691:39:C7HGRANXX:7:1102:7445:18770  99  chr10  93614  60  126M    =     93621     133   D00691:39:C7HGRANXX:7:1102:7445:18770  147 chr10  93621  60  126M    =     93614     -133   
D00691:39:C7HGRANXX:7:2302:14294:49245 323 chr10  94741  5   56H70M  chr9  140136176 0    
##[        10.         ]  [                              11                             ]
CCAC...CCTC  BBBB...FFFF  NM:i:0  MD:Z:126  AS:i:126  XS:i:106  XA:Z:chr18,-75762,126M,4;
11個字段 名稱 含義 解釋
[1] QName 比對片段的編號
[2] Flag 常用&高效 保存多個布爾特征值
[3] Rname 比對到參考序列上的染色體號 若無法比對,則是*
[4] Position 比對上的位置 從1開始計數(shù),未比對上則為0
[5] Mapq 比對的質(zhì)量分?jǐn)?shù) 越高說明該read比對到參考基因組上的位置就越準(zhǔn)確
[6] Cigar 簡要比對信息表達(dá)式 其以參考序列為基礎(chǔ),使用數(shù)字加字母表示比對結(jié)果。
[7] Mrnm(chr) 下一片段比對上的參考序列編號
[8] Mate position 下一片段比對上的位置
[9] Isize Template的長度 如果不可用,此處為0
[10] Sequence
[11]
[6] 解釋 翻譯
M match或 mismatch
I Insert
D Deletion
N Skipped
S Soft cliping
H Hard ciliping
P Padding
= Match
X Mismatch 錯配,位置一一對應(yīng)
[11] 解釋 翻譯
AS Alignment score generated by aligner 比對得分
NM Edit distance to the reference, including ambiguous bases but excluding clipping 對引用的編輯距離,包括不明確的基,但不包括剪切
MD String for mismatching positions. Regex : [0-9]+(([A-Z]|^[A-Z]+)[0-9]+)*10.
NH Number of reported alignments that contains the query in the current record
X? Reserved fields for end users

| bam文件

| bed文件

bed(Browser Extensible Data):是ucsc 的genome browser的一個格式,描述注釋的數(shù)據(jù)。bed有3個要求的字段(基本列)和9個額外的字段(附加列)

#[1]    [ 2 ]   [ 3 ]   [5] 
chrM    13357   13651   trf 2   162.5   2   67  19  173 47  0   0   52  1.00    TA
chrM    13436   13585   trf 7   23.9    7   66  28  61  46  0   0   53  1.00    ATTATAA
chrM    13406   13658   trf 9   28.7    9   66  15  63  45  0   0   54  0.99    TATTATATT
## 可選列
#1 name #feature的名字
#2 score 0-1000的分值,如果track線在注釋時屬性設(shè)置為1,那么這個分值會決定顯示的灰度水平,數(shù)字越大,灰度越高
#3 strand定義鏈的+/—
#4 thickStart #feature的起始
#5 thickEnd #feature的終止
#6 termRgb R, G, B (eg. 255, 0, 0), 如果track line itemRgb屬性是設(shè)置為'On”, 這個RBG 值將 決 定數(shù)據(jù)的顯示的顏色在BED 線。
#7 blockCount #exon個數(shù)
#8 blockSize #每個exon的大小
#9 blockStarts #以chromStart為起點(diǎn)的各個exon的起始點(diǎn)

| Bigbed

| vcf文件

vcf(Variant Call Format):格式是用于表示突變信息的文本格式,可以用來表示SNV(single nucleotide variants),INDEL( insertions/deletions), CNV(copy number variants )and SV(structural variants)等。VCF格式同樣是分為兩大部分,一部分是注釋描述信息,一部分是具體的突變信息,其中注釋信息是以##開頭的。

來源:samtools、GATK

應(yīng)用:

#CHROM  POS ID      REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
chr1    873762  .       T   G   5231.78 PASS    AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL   0/1:173,141:282:99:255,0,255
chr1    877664  rs3828047   A   G   3931.66 PASS    AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL  1/1:0,105:94:99:255,255,0
chr1    899282  rs28548431  C   T   71.77   PASS    AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL  0/1:1,3:4:25.92:103,0,26
chr1    974165  rs9442391   T   C   29.84   LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL  0/1:14,4:14:60.91:61,0,255
#1 CHROM 即chromosome, 染色體名稱;
#2 POS 即position, 發(fā)生突變的參考序列的位置(從1開始計數(shù));
#3 ID 突變的名稱;
#4 REF 參考序列POS上的堿基;
#5 ALT 發(fā)生突變的堿基,多個的話以,連接, 可選符號為ATCGN*,大小寫敏感;
#6 QUAL 基于Phred格式的表示ALT的質(zhì)量,也可以理解為可靠性;
#7 FILTER 過濾后的狀態(tài),即按照可靠性進(jìn)行篩選;
#8 INFO 額外信息,可結(jié)合注釋描述信息進(jìn)行理解

| Bigwig/Wiggle

https://wiki.bits.vib.be/index.php/Category:Formats
未完待續(xù)....

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容