GSDS 是由北京大學(xué)生物信息學(xué)中心提供的用于顯示基因外顯子、內(nèi)含子、保守元件的組成和位置的一個(gè)在線服務(wù),全英文界面。由于有些地方不是很好操做,這里把我的步驟列在下面。

sequence (FASTA)格式
GSDS 2.0 目前提供四種格式:BED、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)。前三種我都不會(huì),所以不講。
選中 sequence (FASTA) 格式后,要求上傳 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 兩種文件。

1. 獲取 CDS sequence (FASTA)
CDS sequence (FASTA) 可以批量獲取。打開(kāi) NCBI Batch Entrez,選擇Protein,上傳登陸號(hào)文件,具體參考 這個(gè) 。旁邊 Send to 的時(shí)候選擇 FASTA CDS 就可以。

2. 獲取 Genomic sequence (FASTA)
而 Genomic sequence (FASTA) 獲取就較為繁瑣,目前我還不知道有啥不用腳本就可以批量下載的方法。超費(fèi)時(shí)間的手動(dòng)獲取方法流程如下:
- 在 NCBI Batch Entrez 里選擇 Gene,上傳登陸號(hào)
- 點(diǎn)擊列表,進(jìn)入單個(gè)基因詳情頁(yè)
- 點(diǎn)擊右下 FASTA,獲取 DNA FASTA,復(fù)制結(jié)果,粘貼保存到同一個(gè)文件里
下拉,找到 mRNA and Protein(s) 這一欄,對(duì)應(yīng)的是蛋白質(zhì)登陸號(hào)。
那么在詳情頁(yè)里獲取到的必要信息有:
- LOC105628049
- JCGZ_05469
- NW_012124111.1
- XP_012064751.1
如果你已經(jīng)用過(guò) MapChart 繪制染色體定位圖,并且已經(jīng)按照染色體長(zhǎng)度排序,且為每個(gè)登陸號(hào)都綁定了自己重命名的編號(hào),就可以把這些數(shù)據(jù)全部收集到一起,方便查閱。建議建個(gè)表格,比如:
| Number | Rename | Gene Name | Gene ID | ACCESSION | Protein Size(aa) | MW(Da) | PI | Location |
|---|---|---|---|---|---|---|---|---|
| 1 | JcHSP60-1 | LOC105628049 | JCGZ_05469 | XP_012064751.1 | 574 | 61145.43 | 5.84 | LG1 |
3. 整理數(shù)據(jù)
批量下載的 CDS sequence (FASTA) 文件大致如下,其中每個(gè) CDS sequence 都包含了 類(lèi)似XP_012080304.1 這樣的蛋白質(zhì)登陸號(hào)。
>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列
>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列
整理的 Genomic sequence (FASTA) 文件大致如下,其中每個(gè) Genomic sequence 都包含了類(lèi)似 NW_012124182.1 這樣的 DNA 登陸號(hào)。
>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列
>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列
而在上一步里,我們已經(jīng)整理了大量數(shù)據(jù),把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍,每個(gè)數(shù)據(jù)都要一一對(duì)應(yīng)。
最后應(yīng)該是這樣:
CDS sequence (FASTA) 文件
>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略
Genomic sequence (FASTA) 文件
>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略
結(jié)果
保存之后上傳,默認(rèn)參數(shù)不變,結(jié)果如圖,僅供參考。
