EST是Expressed Sequence Tag的縮寫,意思是表達(dá)序列標(biāo)簽,指從一個(gè)隨機(jī)選擇的cDNA 克隆,進(jìn)行5’端和3’端單一次測(cè)序挑選出來獲得的短的cDNA 部分序列。代表一個(gè)完整基因的一小部分,在數(shù)據(jù)庫中其長(zhǎng)度一般從20 到7000bp 不等,平均長(zhǎng)度為360 ±120bp。由于cDNA文庫的復(fù)雜性和測(cè)序的隨機(jī)性,有時(shí)多個(gè)EST代表同一基因或基因組,將其歸類形成EST簇(EST cluster)
SSR(Simple Sequence Repeats)標(biāo)記是近年來發(fā)展起來的一種以特異引物PCR為基礎(chǔ)的分子標(biāo)記技術(shù),也稱為微衛(wèi)星DNA(MicrosatelliteDNA),是一類由幾個(gè)核苷酸(一般為1~6個(gè))為重復(fù)單位組成的長(zhǎng)達(dá)幾十個(gè)核苷酸的串聯(lián)重復(fù)序列。每個(gè)SSR兩側(cè)的序列一般是相對(duì)保守的單拷貝序列。
基因組綜述序列(GSS)和未完成的高通量基因組序列(HTG)都代表了按功能劃分的一類數(shù)據(jù),這些都要求用戶以及數(shù)據(jù)庫工作人員用不同的方法來處理。
CDS是Coding sequence,蛋白編碼序列.ORF是open reading frame,開放閱讀框.⑴開放閱讀框是不被終止子打斷的一段核酸序列,可能包含編碼蛋白的堿基序列;不是所有開放閱讀框都能被表達(dá)出蛋白產(chǎn)物,或者能表達(dá)出占有優(yōu)勢(shì).CDS特指cDNA上面可以編碼蛋白質(zhì)那段序列。ORF是指某一段DNA上面有可能編碼蛋白質(zhì)的序列。
UTR(Untranslated Regions):非翻譯區(qū)。是信使mRNA分子兩端的非編碼片段。5‘UTR從mRNA起點(diǎn)的甲基化鳥嘌呤核苷酸帽延伸至AUG起始密碼子,3’UTR從編碼區(qū)末端的終止密碼子延伸至多聚A尾巴(Poly-A)的末端。
FTASTA:fasta格式是一種基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以單個(gè)字母來表示,且允許在序列前添加序列名及注釋。該格式已成為生物信息學(xué)領(lǐng)域的一項(xiàng)標(biāo)準(zhǔn)。
RPKM是Reads Per Kilobase per Million mapped reads的縮寫,代表每百萬reads中來自于某基因每千堿基長(zhǎng)度的reads數(shù)。RPKM是將map到基因的read數(shù)除以map到基因組上的所有read數(shù)(以million為單位)與RNA的長(zhǎng)度(以KB為單位)。
RefSeq數(shù)據(jù)庫,即RefSeq參考序列數(shù)據(jù)庫,美國(guó)國(guó)家生物信息技術(shù)中心(NCBI)提供的具有生物意義上的非冗余的基因和蛋白質(zhì)序列。