2022-04-27使用 GSDS 繪制基因結(jié)構(gòu)圖

GSDS 是由北京大學(xué)生物信息學(xué)中心提供的用于顯示基因外顯子、內(nèi)含子、保守元件的組成和位置的一個(gè)在線服務(wù),全英文界面。由于有些地方不是很好操做,這里把我的步驟列在下面。

圖片.png

sequence (FASTA)格式

GSDS 2.0 目前提供四種格式:BED、GenBank Accession Number or GI、GTF/GFF3 和 sequence (FASTA)。前三種我都不會(huì),所以不講。

選中 sequence (FASTA) 格式后,要求上傳 CDS sequence (FASTA) 和 Genomic sequence (FASTA) 兩種文件。

圖片.png

1. 獲取 CDS sequence (FASTA)

CDS sequence (FASTA) 可以批量獲取。打開(kāi) NCBI Batch Entrez,選擇Protein,上傳登陸號(hào)文件,具體參考 這個(gè) 。旁邊 Send to 的時(shí)候選擇 FASTA CDS 就可以。

圖片.png

2. 獲取 Genomic sequence (FASTA)

而 Genomic sequence (FASTA) 獲取就較為繁瑣,目前我還不知道有啥不用腳本就可以批量下載的方法。超費(fèi)時(shí)間的手動(dòng)獲取方法流程如下:

  1. NCBI Batch Entrez 里選擇 Gene,上傳登陸號(hào)
  2. 點(diǎn)擊列表,進(jìn)入單個(gè)基因詳情頁(yè)
  3. 點(diǎn)擊右下 FASTA,獲取 DNA FASTA,復(fù)制結(jié)果,粘貼保存到同一個(gè)文件里
    下拉,找到 mRNA and Protein(s) 這一欄,對(duì)應(yīng)的是蛋白質(zhì)登陸號(hào)。

那么在詳情頁(yè)里獲取到的必要信息有:

  • LOC105628049
  • JCGZ_05469
  • NW_012124111.1
  • XP_012064751.1

如果你已經(jīng)用過(guò) MapChart 繪制染色體定位圖,并且已經(jīng)按照染色體長(zhǎng)度排序,且為每個(gè)登陸號(hào)都綁定了自己重命名的編號(hào),就可以把這些數(shù)據(jù)全部收集到一起,方便查閱。建議建個(gè)表格,比如:

Number Rename Gene Name Gene ID ACCESSION Protein Size(aa) MW(Da) PI Location
1 JcHSP60-1 LOC105628049 JCGZ_05469 XP_012064751.1 574 61145.43 5.84 LG1

3. 整理數(shù)據(jù)

批量下載的 CDS sequence (FASTA) 文件大致如下,其中每個(gè) CDS sequence 都包含了 類(lèi)似XP_012080304.1 這樣的蛋白質(zhì)登陸號(hào)。

>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS]
序列

>lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS]
序列

整理的 Genomic sequence (FASTA) 文件大致如下,其中每個(gè) Genomic sequence 都包含了類(lèi)似 NW_012124182.1 這樣的 DNA 登陸號(hào)。

>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence
序列

>NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence
序列

而在上一步里,我們已經(jīng)整理了大量數(shù)據(jù),把 CDS sequence (FASTA) 文件和Genomic sequence (FASTA) 文件全部重命名一遍,每個(gè)數(shù)據(jù)都要一一對(duì)應(yīng)。

最后應(yīng)該是這樣:

CDS sequence (FASTA) 文件

>JcHSP60-1
ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG
AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略

Genomic sequence (FASTA) 文件

>JcHSP60-1
GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT
TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略

結(jié)果

保存之后上傳,默認(rèn)參數(shù)不變,結(jié)果如圖,僅供參考。

圖片.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容