課程的最后一天了,先感謝花花老師耐心的教授,讓我對生信有了一定的了解,雖然以后學(xué)習(xí)過程依舊是路途漫漫,但指引方向的人最可愛-.
測序技術(shù)
到目前為止測序技術(shù)一共經(jīng)歷三次更新個,主要特點(diǎn)是測序數(shù)據(jù)量越來越大,所用時間越來越快,測序費(fèi)用越來越廉價。伴隨著計算機(jī)技術(shù)的發(fā)展,我們所能挖掘到的數(shù)據(jù)信息也越來越全面。
第一代測序技術(shù)
由于ddNTP的2’和3’都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA合成反應(yīng)。在4個DNA合成反應(yīng)體系中分別加入一定比例帶有放射性同位素標(biāo)記的ddNTP,得到片段大小不一致的DNA混合物,然后通過凝膠電泳分離和放射自顯影后識別確定待測分子的DNA序列。
第二代測序技術(shù)
邊合成邊測序(Sequencing by Synthesis,SBS)
在Sanger等測序方法的基礎(chǔ)上,通過技術(shù)創(chuàng)新,用不同顏色的熒光標(biāo)記四種不同的dNTP,當(dāng)DNA聚合酶合成互補(bǔ)鏈時,每添加一種dNTP就會釋放出不同的熒光,根據(jù)捕捉的熒光信號并經(jīng)過特定的計算機(jī)軟件處理,從而獲得待測DNA的序列信息。
第三代測序技術(shù)
即單分子實(shí)時DNA測序。DNA測序時,不需要經(jīng)過PCR擴(kuò)增,實(shí)現(xiàn)了對每一條DNA分子的單獨(dú)測序,憑借超長的讀長和可直接檢測表觀修飾等特點(diǎn)使其成為市場的新寵。
也采用邊合成邊測序方法,以SMRT芯片為測序載體,芯片上眾多小孔中的DNA聚合酶和模板結(jié)合,4色熒光標(biāo)記4種堿基(dATP,dTTP,dCTP,dGTP),在堿基配對階段,加入不同堿基會發(fā)出不同的光,根據(jù)光的波長與峰值可判斷進(jìn)入的堿基類型。另外,若堿基存在修飾,則通過聚合酶的速度會減慢,因此可以通過檢測相鄰兩個堿基之間的測序時間、兩峰之間的距離來檢測甲基化等堿基修飾情況。SMRT測序速度快(每秒約數(shù)個dNTP),但是,測序錯誤率也較高(達(dá)到15%,可通過多次測序進(jìn)行有效的糾錯)。
測序數(shù)據(jù)的格式
一般為Fastq 和Fasta格式,也包括GenBank 和 EMBL
Fastq格式
一種基于文本的,保存生物序列(通常是核酸序列)和其測序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。
第一行:由‘@’開始,后面跟著序列ID和可選的描述,序列ID是唯一的;
第二行:堿基序列;
第三行:由‘+’開始,后面是序列的描述信息;
第四行:第二行序列的質(zhì)量評價(quality value)。
@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
HISEQ:儀器 ID
777:Run ID
HCMCVBCX2:FlowCell ID
1:The lane number
1101:流通池道內(nèi)的tile號碼
4712:瓦片中的集群的‘x'坐標(biāo)
2186:瓦片中的集群的’y'坐標(biāo)
1:成對的成員,1或2(配對結(jié)束或配對讀取)
N:如果讀取過濾,則為Y;否則為N
0:當(dāng)沒有控制位開啟時為0,否則為偶數(shù)
TACTCCAG:索引序列
Fasta格式
1:以“>”為開頭,fasta格式標(biāo)志。
2:序列ID號,gi號,NCBI數(shù)據(jù)庫的標(biāo)識符,具有唯一性。
格式為:gi|gi號|來源標(biāo)志|序列標(biāo)志(接收號、名稱等),若某項缺失可以留空,“|”保留。
3:序列描述。
4:堿基序列,序列中允許空格、換行、空行,一般一行60個。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
?一款用于處理Short-Reads FASTA/FASTQ文件的程序,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換、統(tǒng)計等命令。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank格式
以LOCUS和一些注釋行開始。
序列的開頭以“ORIGIN”標(biāo)記,末尾以“//”標(biāo)記。
EMBL格式
以標(biāo)識符行(ID)開頭,后面跟著更多注釋行。
序列的開頭以“SQ”開頭標(biāo)記,序末尾以“//”標(biāo)記。
另外生信星球推薦了兩款在線工具用于處理序列數(shù)據(jù)
1.EMBL → Fasta格式轉(zhuǎn)換(在線工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html
2.常見測序文件格式解析的網(wǎng)站:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1
