學(xué)習(xí)小組Day7——宣Xuanan

image

測(cè)序知識(shí).png

常用數(shù)據(jù)格式介紹

DNA序列表征

圖片

A =腺嘌呤

C =胞嘧啶

G =鳥(niǎo)嘌呤

T =胸腺嘧啶

U =尿嘧啶

R = GA(嘌呤)

Y = TC(嘧啶)

K = GT(酮)

M = AC(氨基)

S = GC

W = AT

B = GTC

D = GAT

H = ACT

V = GCA

N = AGCT(任何)

Fastq & Fasta

Fastq格式:一種基于文本的,保存生物序列(通常是核酸序列)和其測(cè)序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。

第一行:由‘@’開(kāi)始,后面跟著序列ID和可選的描述,序列ID是唯一的;

第二行:堿基序列;

第三行:由‘+’開(kāi)始,后面是序列的描述信息;

第四行:第二行序列的質(zhì)量評(píng)價(jià)(quality value)。

舉例:

圖片

@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG

HISEQ:儀器 ID

777:Run ID

HCMCVBCX2:FlowCell ID

1:The lane number

1101:流通池道內(nèi)的tile號(hào)碼

4712:瓦片中的集群的‘x'坐標(biāo)

2186:瓦片中的集群的’y'坐標(biāo)

1:成對(duì)的成員,1或2(配對(duì)結(jié)束或配對(duì)讀取)

N:如果讀取過(guò)濾,則為Y;否則為N

0:當(dāng)沒(méi)有控制位開(kāi)啟時(shí)為0,否則為偶數(shù)

TACTCCAG:索引序列

Fasta格式:

圖片

1:以“>”為開(kāi)頭,fasta格式標(biāo)志。

2:序列ID號(hào),gi號(hào),NCBI數(shù)據(jù)庫(kù)的標(biāo)識(shí)符,具有唯一性。

格式為:gi|gi號(hào)|來(lái)源標(biāo)志|序列標(biāo)志(接收號(hào)、名稱等),若某項(xiàng)缺失可以留空,“|”保留。

3:序列描述。

4:堿基序列,序列中允許空格、換行、空行,一般一行60個(gè)。

Fastq文件→Fasta文件

Linux命令

法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta

法2:seqtk seq -A input.fastq > output.fasta

FASTX-Toolkit

?一款用于處理Short-Reads FASTA/FASTQ文件的程序,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換、統(tǒng)計(jì)等命令。

http://hannonlab.cshl.edu/fastx_toolkit/

GenBank & EMBL

GenBank格式

以LOCUS和一些注釋行開(kāi)始。

序列的開(kāi)頭以“ORIGIN”標(biāo)記,末尾以“//”標(biāo)記。

圖片

EMBL格式

以標(biāo)識(shí)符行(ID)開(kāi)頭,后面跟著更多注釋行。

序列的開(kāi)頭以“SQ”開(kāi)頭標(biāo)記,序末尾以“//”標(biāo)記。

圖片

**表 1 **GenBank & EMBL數(shù)據(jù)庫(kù)格式的對(duì)比

圖片

EMBL → Fasta格式轉(zhuǎn)換(在線工具):

http://www.geneinfinity.org/sms/sms_embltofasta.html

另外給大家介紹一個(gè)常見(jiàn)測(cè)序文件格式解析的網(wǎng)站:

https://genome.ucsc.edu/FAQ/FAQformat.html#format1

該網(wǎng)站包含了各種各樣的測(cè)序文件格式說(shuō)明,想了解文件格式各行各列的含義直接找它即可!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容