NCBI教程(一)獲取基因(gene)或基因產(chǎn)物(gene product)的功能

原文地址:NCBI Find the function of a gene or gene product

下面開始哦,我花了很長(zhǎng)時(shí)間想,到底應(yīng)該從哪個(gè)地方開始介紹NCBI資源的具體使用教程,每次想要開始,卻總是被擔(dān)心掉坑里、恐懼后續(xù)的海量以及逼迫自己堅(jiān)持做完的痛苦甚至于努力了完之后的無聊所影響。在浪費(fèi)了兩天之后,我突然想到應(yīng)該從哪里開始了,那就是今天要說的內(nèi)容,如何獲取基因和基因產(chǎn)物的功能。這其實(shí)就是人們創(chuàng)建這一資源中心最本心的目的吧,就是可以方便知道一個(gè)基因的作用是什么。

根據(jù)文中的介紹,我們需要掌握就幾個(gè)關(guān)鍵的術(shù)語,術(shù)語是堆積專業(yè)知識(shí)的基礎(chǔ)。也是標(biāo)識(shí)同行的身份識(shí)別牌,兩句內(nèi)行化一說,大家便自然的放下心來,開始說人話了,然而,據(jù)我多年的觀察,說人話之前的術(shù)語,依然如黑道接頭的切口一樣必須。

第一個(gè)簡(jiǎn)單到極致,喚作基因名(gene name),通過基因名,你可以獲取需要的基因記錄(gene record),點(diǎn)開基因記錄鏈接,基因的功能信息將通過幾個(gè)基因信息節(jié)展示出來,分別是概述(Summary),參考文獻(xiàn)(Bibliography)和通用基因信息(General gene info)。當(dāng)然也可以通過鏈接查看其保守域(Conserved Domains)和生物系統(tǒng)(BioSystems)。這兩個(gè)名詞,反正我一開始是沒看懂。啥叫個(gè)保守域?啥又是個(gè)生物系統(tǒng)?真是啟船就遇頂頭風(fēng)啊,果然是萬事開頭難。不過我并不畏懼,反而繼續(xù)堅(jiān)定的深入探索。

先研究這個(gè)保守域(Conserved Domains),原來這個(gè)域(Domain)是蛋白質(zhì)的功能及結(jié)構(gòu)單元啊,在分子的進(jìn)化(molecular evolution)中,這樣的域可以被用來作為構(gòu)造塊(building blocks),這些塊按照不同的序列排列會(huì)使得蛋白質(zhì)呈現(xiàn)不同的功能。在分子進(jìn)化中重現(xiàn)(recurring)的單元(units)被稱為保守域(Conserved Domains)。那就可以理解了,在革命中不去變化創(chuàng)造新世界的可不是保守派嘛,這些在進(jìn)化中不求思變的叫保守域那就太有道理了。關(guān)鍵這樣有個(gè)用處了,因?yàn)檫@些保守域的序列模式(sequence patterns)或者模段(motifs)不會(huì)變哦,所以想要識(shí)別一個(gè)多肽(polypetide)序列,就看這個(gè)多肽里面有沒有特定的序列模式或者模段就可以了。序列模式這個(gè)名詞簡(jiǎn)單,就是那幾十種氨基酸(Amino acid)的序列嘛。這個(gè)模段是什么鬼,他有好多中文名哦:超二結(jié)構(gòu),(這名字也真夠二的),模體,基序,小單位,結(jié)構(gòu)基元,模序。。。。。。反正你知道也是一小段氨基酸序列就行了,跟剛才提到保守域(Conserved Domain),也就是構(gòu)造塊(building blocks),也就是序列模式(sequence patterns)沒有太大差別。

下一個(gè)是生物系統(tǒng)(BioSystems),看來絕對(duì)不是字面意思,可不敢望文生義。先拆一下,生物系統(tǒng)(biological system),竟然這么簡(jiǎn)單,但是又那么令人不解啊。又查看定義發(fā)現(xiàn),你這不講邏輯啊。生物系統(tǒng),或者叫生物系統(tǒng),是在生物系統(tǒng)中相互作用的一組分子。(A biosystem, or biological system, is a group of molecules that interact in a biological system. )你這叫遞歸定義么?你這話人工智能讀了內(nèi)存溢出的好不好。果然不簡(jiǎn)單啊,暗藏殺機(jī),我往后再看文章,突然意識(shí)到,這里文章想說的其實(shí)是系統(tǒng)生物學(xué)(Systems biology),因?yàn)楹笪闹刑岬剑@個(gè)系統(tǒng)生物學(xué)(Biosystem)的一種類型是生物學(xué)途徑(biological pathway),研究的是基因(genes),蛋白質(zhì)(proteins)和小分子(small molecules)之間的關(guān)系。另一類型的系統(tǒng)生物學(xué)(Biosystem)研究是疾?。╠isease),涉及到基因(genes),生物標(biāo)志物(biomarkers)和藥物(drugs)。文中提到,這個(gè)美國國家生物信息中心的系統(tǒng)生物學(xué)數(shù)據(jù)庫(The NCBI BioSystems Database)是一個(gè)補(bǔ)充項(xiàng)目(complementary project),就是說是在已有數(shù)據(jù)庫和注釋文獻(xiàn)鏈接的基礎(chǔ)之上,提供數(shù)據(jù)的集中存儲(chǔ)(centralized repository of data),提供Entrez系統(tǒng),建立系統(tǒng)生物學(xué)條目(biosystem records)到文獻(xiàn)(literature)、分子(molecular)和以及化學(xué)數(shù)據(jù)(chemical data)等資源間的連接,方便系統(tǒng)生物學(xué)(biosystems)數(shù)據(jù)的計(jì)算。

好了,回到開始,現(xiàn)在完成了對(duì)最簡(jiǎn)單的一個(gè)概念基因名稱(gene name)的探討。下面進(jìn)行第二個(gè),蛋白質(zhì)登記號(hào)(protein accession number),形如NP_005537。文中提到,你盡可能的在基因數(shù)據(jù)庫中(Gene database)找這個(gè)蛋白質(zhì)登記號(hào),就是這篇文章重點(diǎn)討論的主要內(nèi)容的庫,而不是在蛋白質(zhì)數(shù)據(jù)庫(Protein database)中找。如果在基因數(shù)據(jù)庫中找不到結(jié)果,那就只能在蛋白質(zhì)數(shù)據(jù)庫中找了,找到之后,要點(diǎn)擊頁面中的與XXX基因相關(guān)的更多內(nèi)容(More about the XXX gene)鏈接,在頁面的右側(cè),要滾到底部才能找到。也就是說,還是回去看基因。那抬杠的來了,如果連與XXX基因相關(guān)的更多內(nèi)容沒有呢?好,這個(gè)早就預(yù)料到了,你要點(diǎn)擊蛋白質(zhì)結(jié)果頁的右上角,有一個(gè)識(shí)別保守域(Identify Conserved Domains),可以讓你來分析這個(gè)序列(Analyze this sequence),就是這個(gè)蛋白質(zhì),也就是氨基酸序列。你將會(huì)得到這個(gè)蛋白質(zhì)中,這些功能域(functional domains),就是保守域啦,的信息的列表。

好的,下面是第三個(gè)內(nèi)容,核苷酸登記號(hào)(nucleotide accession number),形如NM_001126。文中提到,我NCBI就是這么啰嗦討人煩的說話,所以我精簡(jiǎn)一下它的意思。還是老辦法,現(xiàn)在基因數(shù)據(jù)庫中找,沒有的話,才來核苷酸數(shù)據(jù)庫(Nucleotide database)中找。如果你正在看找到的核苷酸條目,點(diǎn)擊與XXX基因相關(guān)的更多內(nèi)容(More about the XXX gene)鏈接啦啦啦。如果連這個(gè)都沒有,在核苷酸頁面的右下方找一個(gè)叫相關(guān)序列(Related Sequences),蛋白質(zhì)(Protein)或生物醫(yī)學(xué)文獻(xiàn)(PubMed)在名叫條目相關(guān)鏈接(All Links to this Record)節(jié)中。當(dāng)然你也可以點(diǎn)擊運(yùn)行BLAST(Run BLAST)來分析這個(gè)序列(Analyze this sequence)來發(fā)現(xiàn)相關(guān)的核苷酸序列,使用BLASTn命令,或者發(fā)現(xiàn)相關(guān)的蛋白質(zhì)序列,使用BLASTx命令。那么產(chǎn)生的結(jié)果將可能有鏈接到基因(gene)頁面,那樣的話你就會(huì)找到相關(guān)的信息了。

下面是第四個(gè)內(nèi)容,蛋白質(zhì)序列(protein sequence),這個(gè)是要用蛋白質(zhì)blast(protein blast)這個(gè)軟件操作的,可在BLAST的主頁的基本BLAST(Basic BLAST)下面找到,方法就是在查詢框中粘貼序列,然后按BLAST按鈕。從結(jié)果中找出需要的序列,點(diǎn)擊登記號(hào)(accession number),進(jìn)入上面蛋白質(zhì)登記號(hào)的操作。

最后一個(gè)是核苷酸序列(nucleotide sequence),顯然,我們已經(jīng)掌握了它的路數(shù),無外乎就是上一個(gè)查蛋白質(zhì)序列的時(shí)候用的是蛋白質(zhì)blast軟件,那顯然,這里就應(yīng)該使用核苷酸blast(nucleotide blast)軟件了。隨之得到結(jié)果之后,也應(yīng)該點(diǎn)擊結(jié)果的相應(yīng)的登記號(hào)(accession number),進(jìn)入上面的核苷酸登記號(hào)操作流程中。此外,還可以使用BLASTx,上面第三個(gè)內(nèi)容核苷酸登記號(hào)里面提到過哦,輸入序列來識(shí)別相應(yīng)的蛋白質(zhì)。

到此結(jié)束,歸結(jié)到最后,我們可以看出其脈絡(luò)來了,那就是從基因(gene)開始,基因使用其核苷酸序列(nucleotide sequence)表達(dá)了氨基酸(Amino acid)組成蛋白質(zhì)(protein)的序列。所以,想要獲得基因或基因產(chǎn)物(product)的信息,除了使用基因的名稱外,還可以使用核苷酸序列和蛋白質(zhì)的相關(guān)特性信息,進(jìn)行查找。說白了,整個(gè)國家生物信息中心資源里,最主要的也就是這幾個(gè)東西以及其之間的關(guān)系。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容