【陪你學(xué)·生信】五、當(dāng)你有一段待分析的DNA序列

這一推送將介紹當(dāng)你測(cè)序得到一段DNA序列后,可能會(huì)用到的基礎(chǔ)操作。

一、拿到序列結(jié)果后,首先剔除可能的錯(cuò)誤

一般送測(cè)序的樣品往往經(jīng)歷純化,克隆,轉(zhuǎn)化等操作。期間不可避免會(huì)混有不是目標(biāo)序列的片段??赡軄碜杂谳d體,也可能是操作中的污染。為了避免浪費(fèi)時(shí)間分析錯(cuò)誤的、污染的序列。首先要學(xué)會(huì)找到序列中的非目標(biāo)部分并編輯序列。

1. 載體序列

如果是克隆再測(cè)序,那么序列末端一般會(huì)帶有載體的序列。可以查找序列中,可以與你使用的載體序列部分,然后刪掉它。

可以利用NCBI的VecScreen工具,原理仍然是blast,但是其參數(shù)設(shè)置和檢索數(shù)據(jù)庫(kù)是適合找到序列中載體質(zhì)粒部分的。

https://www.ncbi.nlm.nih.gov/tools/vecscreen/

VecScreen結(jié)果有兩種可能:

(1)一種可能的檢索結(jié)果是序列與已知載體沒有高度相似部分,那么就直接繼續(xù)對(duì)序列進(jìn)行分析就可以;

(2)另一種結(jié)果是,發(fā)現(xiàn)序列有一部分與載體相似,仍分兩種情況:

(2.a)如果在序列末端,那么可以刪除后繼續(xù)分析;

(2.b)如果相似部分在各處都有,或者是檢索得到的載體甚至不是你使用的那個(gè),可能是操作中污染了,就扔了重做吧。

2. 一些不用扔了重做的情況

如果VecScreen結(jié)果顯示的你的序列兩端有載體序列(類似于2.a的情況),但是載體名字不是你用的那個(gè),也別立刻否定這個(gè)序列不能用了。因?yàn)楹芏噍d體質(zhì)粒是在其他載體上進(jìn)行改造產(chǎn)生的,所以序列上是可以對(duì)應(yīng)的,名字卻不同。

另外也要看你研究的目的基因,比如你研究的基因就是構(gòu)建載體常用的抗性基因,那么VecScreen肯定會(huì)出現(xiàn)比對(duì)上的結(jié)果(我好像又廢話了)。

二、限制性酶切圖譜

之前介紹過Restriction map(【現(xiàn)學(xué)現(xiàn)賣】基因圖譜概述)。得到理論上的限制酶切圖譜很簡(jiǎn)單,只需要在序列中找限制性酶切位點(diǎn)。

現(xiàn)在很多序列分析軟件都可以一鍵顯示限制性酶切位點(diǎn),另外推薦一些數(shù)據(jù)庫(kù):

1. REBASE database

http://rebase.neb.com/rebase/rebase.html

2.?Webcutter

http://www.firstmarket.com/cutter/cut2.html

三、設(shè)計(jì)PCR引物

相信大家對(duì)PCR都很熟悉了(【現(xiàn)學(xué)現(xiàn)賣】實(shí)驗(yàn)-PCR),首先當(dāng)然是需要設(shè)計(jì)引物。很多軟件可以根據(jù)一段序列,設(shè)計(jì)符合條件的引物,還有線上的小工具,比如NCBI-primer designing tool等。

四、分析DNA序列的組成

1. GC含量、核苷酸組成等

可以使用Genomatix: DNA Sequence Toolbox頁(yè)面中的creat sequence statistics按鈕可以幫助我們分析序列的GC含量、單核苷酸、二核苷酸、三核苷酸組成等。

https://www.genomatix.de/cgi-bin/tools/tools.pl

2. 分析查找序列中的重復(fù)

DNA序列中的重復(fù)片段常參與基因重組和表達(dá)調(diào)控。

推薦工具

BioWeb(還有其他工具,它們算法各有不同。)

https://bioweb.pasteur.fr./welcome

里面的tools and packages-mreps等工具。其他工具都可以點(diǎn)開看看,有功能描述。

五、尋找蛋白質(zhì)編碼區(qū)域

前面我們檢查了序列中有沒有污染(載體序列污染),得到了限制性酶切位點(diǎn),還有序列組成的一些數(shù)據(jù)。現(xiàn)在可以看看這段序列有沒有、在何處可以編碼蛋白質(zhì)。

1. 用NCBI-ORF-Finder尋找開放閱讀框

一段序列如果要編碼蛋白質(zhì),需要有起始子(一般是ATG),并在一段距離之后有終止子(TAA, TAG, TGA),這就是開放閱讀框的定義。

下面我們利用NCBI的ORF Finder來找序列中的開放閱讀框。

https://www.ncbi.nlm.nih.gov/orffinder/

操作很簡(jiǎn)單,復(fù)制序列,選擇適合自己的材料的遺傳密碼等參數(shù),然后查找。我今天才發(fā)現(xiàn),原來有這么多種遺傳密碼可以選擇,31種耶!

結(jié)果顯示界面也是比較清晰的。

2.?用GeneMark尋找開放閱讀框

上述1方法外還有很多可以尋找ORF,比如一些序列分析軟件。再介紹另外一個(gè)網(wǎng)頁(yè)工具,GeneMark。

(1)打開主頁(yè)

http://exon.gatech.edu/GeneMark/

主頁(yè)展示了很多分類,選擇適合自己的序列的分類,點(diǎn)擊。

(2)結(jié)果頁(yè)面很簡(jiǎn)潔,只展示前5個(gè)ORF基因。

六、組裝(Assembling)序列片段

即識(shí)別序列重疊部分,將多個(gè)片段序列組裝為一個(gè)序列。

這本書介紹了CAP3,一個(gè)短序列拼接的在線工具(在線工具處理序列的量有限。如果是處理二、三代測(cè)序的基因組數(shù)據(jù),可以下載軟件和工具包,很多不是windows系統(tǒng)下運(yùn)行的,比如Canu。),輸入序列格式fasta。

http://doua.prabi.fr/software/cap3

七、其他工具推薦

當(dāng)然,如果你有一些DNA序列,能做的不僅僅是上述這些。歡迎留言,說說你實(shí)驗(yàn)中常見的目的、操作或者喜歡的軟件、網(wǎng)站吧。

我先來推薦我用過感覺還不錯(cuò)的:

1. 序列操作工具箱

http://www.detaibio.com/sms2/rest_map.html

很多小工具,比如格式轉(zhuǎn)換的,還有對(duì)序列、引物序列性質(zhì)分析的等等。

2. 生物數(shù)學(xué)計(jì)算機(jī)

https://ita.promega.com/resources/tools/biomath/

適合頭大,怕算錯(cuò)濃度和用量的時(shí)候。

往期相關(guān)內(nèi)容:

【陪你學(xué)·生信】序

【陪你學(xué)·生信】一、生信能幫我們做什么

【陪你學(xué)·生信】二、一些你肯定會(huì)用到的生信工具和基本操作

【陪你學(xué)·生信】三、核苷酸序列數(shù)據(jù)庫(kù)的使用

【陪你學(xué)·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫(kù)

對(duì)喜歡看推送的小伙伴們說聲抱歉,好久沒有更新,嘿嘿。

因?yàn)樯现?,我一不小心看了三本小說,《長(zhǎng)夜難明》《三體Ⅰ》《三體Ⅱ》(都好看耶,Ⅲ正在很緩慢地看)

太奢侈的一周了,嘿嘿,身體力行,歡度中秋,喜迎國(guó)慶~

嗯嗯,繼續(xù)一起學(xué)習(xí)吧!

歡度中秋 喜迎國(guó)慶?開學(xué)快樂??
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容