引言
寶子們!上一篇咱們把疾病靶點(diǎn)數(shù)據(jù)庫(kù)按功能分了類(lèi),解決了“找靶點(diǎn)不知選哪個(gè)庫(kù)”的糾結(jié)~ 這篇直接上硬菜——把OMIM、GeneCards等7個(gè)核心數(shù)據(jù)庫(kù)的“檢索-提取-導(dǎo)出”全流程拆成 step-by-step 實(shí)操,每個(gè)步驟都標(biāo)清關(guān)鍵動(dòng)作,跟著做就能從數(shù)據(jù)庫(kù)里精準(zhǔn)摳出有用數(shù)據(jù),科研效率直接翻倍!
一、OMIM:人類(lèi)孟德?tīng)栠z傳數(shù)據(jù)庫(kù)(罕見(jiàn)病首選)

核心定位:單基因遺傳病的“權(quán)威字典”,精準(zhǔn)匹配致病基因與疾病的對(duì)應(yīng)關(guān)系。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):直接在搜索框輸入疾病名稱(chēng)或基因名稱(chēng)。
2.篩選結(jié)果:疾病檢索選“對(duì)應(yīng)的孟德?tīng)柤膊l目”,基因檢索選“該基因的專(zhuān)屬條目”,條目?jī)?nèi)包含疾病描述、相關(guān)基因、變異類(lèi)型及文獻(xiàn)引用。
3.獲取關(guān)鍵信息:疾病條目里點(diǎn)擊“基因鏈接”,查看該基因編碼的蛋白功能、已知突變及關(guān)聯(lián)疾病;基因條目重點(diǎn)看“相關(guān)疾病”列表。
4.導(dǎo)出數(shù)據(jù):無(wú)直接下載按鈕,手動(dòng)復(fù)制關(guān)鍵信息到表格;需批量數(shù)據(jù)時(shí),用“高級(jí)搜索”功能限定條件,結(jié)合下載工具或批量檢索導(dǎo)出。
【技巧與注意事項(xiàng)】
? 數(shù)據(jù)來(lái)源于文獻(xiàn),準(zhǔn)確性高但更新慢,使用時(shí)需結(jié)合最新文獻(xiàn)驗(yàn)證。
? 罕見(jiàn)病優(yōu)先用,復(fù)雜疾?。ǘ嗷蛳嚓P(guān))需搭配DisGeNET等數(shù)據(jù)庫(kù)補(bǔ)充信息。
二、GeneCards:人類(lèi)基因綜合數(shù)據(jù)庫(kù)(復(fù)雜疾病必備)

核心定位:整合多來(lái)源信息,覆蓋幾乎所有人類(lèi)基因,適合復(fù)雜疾?。ㄈ绨┌Y、糖尿?。┑暮蜻x基因篩選。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):搜索框輸入疾病名稱(chēng)或基因名稱(chēng)。
2.瀏覽基因卡片:搜索結(jié)果會(huì)列出相關(guān)基因卡片,優(yōu)先選擇“文獻(xiàn)評(píng)分高、數(shù)據(jù)來(lái)源明確”的卡片,點(diǎn)擊進(jìn)入詳細(xì)頁(yè)面。
3.篩選疾病關(guān)聯(lián):重點(diǎn)查看“Diseases”板塊,里面會(huì)標(biāo)注疾病名稱(chēng)及對(duì)應(yīng)的證據(jù)等級(jí)(如文獻(xiàn)支持力度),點(diǎn)擊疾病名稱(chēng)可查看更詳細(xì)信息。
4.導(dǎo)出數(shù)據(jù):點(diǎn)擊頁(yè)面右上角“Export”按鈕,選擇CSV或Excel格式,一鍵導(dǎo)出基因基本信息(名稱(chēng)、別名、染色體位置)、功能注釋、疾病關(guān)聯(lián)等數(shù)據(jù)。
【技巧與注意事項(xiàng)】
? 支持“反向查找”:輸入疾病名稱(chēng),可獲取與該疾病相關(guān)的所有基因及關(guān)聯(lián)證據(jù),方便快速鎖定候選基因。
? 數(shù)據(jù)量大但部分關(guān)聯(lián)證據(jù)不足,需通過(guò)“文獻(xiàn)評(píng)分”和“數(shù)據(jù)來(lái)源”篩選高可信度關(guān)聯(lián)。
三、DrugBank:藥物-靶點(diǎn)數(shù)據(jù)庫(kù)(藥物研發(fā)/重定位首選)

核心定位:綜合性藥物數(shù)據(jù)庫(kù),詳細(xì)收錄藥物與靶點(diǎn)的關(guān)聯(lián)信息,兼顧化學(xué)結(jié)構(gòu)、作用機(jī)制等實(shí)用數(shù)據(jù)。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):搜索框輸入藥物名稱(chēng)或靶點(diǎn)名稱(chēng)。
2.查看條目詳情:搜索藥物點(diǎn)擊“對(duì)應(yīng)藥物條目”,詳情頁(yè)包含化學(xué)結(jié)構(gòu)、適應(yīng)癥、作用機(jī)制,重點(diǎn)看“Targets”部分獲取作用靶點(diǎn)蛋白列表;搜索靶點(diǎn)點(diǎn)擊“對(duì)應(yīng)靶點(diǎn)條目”,查看蛋白基本信息、功能、所屬通路及相關(guān)藥物列表。
3.導(dǎo)出數(shù)據(jù):小規(guī)模使用可直接復(fù)制信息;批量數(shù)據(jù)需進(jìn)入“Data”或“Download”欄目,選擇XML或SQL格式下載完整數(shù)據(jù)庫(kù),或僅下載藥物列表、靶點(diǎn)列表等特定部分;也可通過(guò)DGIdb工具獲取特定藥物-靶點(diǎn)關(guān)系數(shù)據(jù)。
【技巧與注意事項(xiàng)】
? 優(yōu)先收錄藥物主要靶點(diǎn),次要靶點(diǎn)可能未標(biāo)注,需結(jié)合文獻(xiàn)驗(yàn)證關(guān)聯(lián)可靠性。
? 上市藥物和臨床候選藥物信息全面,新型/實(shí)驗(yàn)性藥物需搭配TTD數(shù)據(jù)庫(kù)補(bǔ)充。
四、TTD:療效藥靶數(shù)據(jù)庫(kù)(新藥靶點(diǎn)重點(diǎn)參考)

核心定位:專(zhuān)注藥物靶點(diǎn)與藥物的關(guān)聯(lián),更新及時(shí),適合新藥靶點(diǎn)研究和避免重復(fù)研發(fā)。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):搜索框輸入藥物名稱(chēng)或靶點(diǎn)名稱(chēng)。
2.瀏覽靶點(diǎn)條目:搜索靶點(diǎn)點(diǎn)擊“對(duì)應(yīng)靶點(diǎn)條目”,詳情頁(yè)包含靶點(diǎn)名稱(chēng)、功能、參與的信號(hào)通路、所屬疾病類(lèi)別及對(duì)應(yīng)藥物列表。
3.查看藥物列表:在靶點(diǎn)詳情頁(yè)的“Drugs”部分,可查看作用于該靶點(diǎn)的藥物名稱(chēng)、適應(yīng)癥,以及藥物作用類(lèi)型(如激動(dòng)劑、拮抗劑)。
4.導(dǎo)出數(shù)據(jù):進(jìn)入“Download”欄目,選擇XML或文本格式下載完整數(shù)據(jù)庫(kù),或僅下載靶點(diǎn)列表、藥物列表等特定部分,下載后可用于進(jìn)一步分析和可視化。
【技巧與注意事項(xiàng)】
? 數(shù)據(jù)更新及時(shí),優(yōu)先收錄新發(fā)現(xiàn)的藥物靶點(diǎn)和藥物信息,是新藥靶點(diǎn)研究的重要參考。
? 僅標(biāo)注藥物直接作用靶點(diǎn),間接靶點(diǎn)可能未收錄,需結(jié)合其他數(shù)據(jù)庫(kù)確認(rèn)。
五、DisGeNET:疾病基因網(wǎng)絡(luò)數(shù)據(jù)庫(kù)(網(wǎng)絡(luò)分析利器)

核心定位:匯集多來(lái)源數(shù)據(jù)構(gòu)建疾病-基因關(guān)聯(lián)網(wǎng)絡(luò),適合大規(guī)模基因富集分析和關(guān)鍵基因集合篩選。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):可選擇“在線工具”交互查詢(xún)或直接下載數(shù)據(jù)。
2.查詢(xún)基因-疾病關(guān)聯(lián):在線工具中輸入疾病名稱(chēng)或基因名稱(chēng),輸入疾病可獲取相關(guān)所有基因及關(guān)聯(lián)證據(jù),輸入基因可獲取相關(guān)所有疾病列表。
3.篩選數(shù)據(jù):按“數(shù)據(jù)來(lái)源”(如GWAS、文獻(xiàn)、實(shí)驗(yàn))、“關(guān)聯(lián)類(lèi)型”或“置信度分?jǐn)?shù)”過(guò)濾結(jié)果,剔除低證據(jù)關(guān)聯(lián)。
4.導(dǎo)出與分析:篩選后可導(dǎo)出CSV格式數(shù)據(jù),包含基因-疾病關(guān)聯(lián)評(píng)分及證據(jù)來(lái)源;下載后可用Excel、R或Python軟件進(jìn)行基因-疾病關(guān)聯(lián)網(wǎng)絡(luò)繪制、功能富集分析等。
【技巧與注意事項(xiàng)】
? 提供多個(gè)數(shù)據(jù)集版本(如DisGeNET 7.0),需根據(jù)研究需求選擇合適版本。
? 關(guān)聯(lián)分?jǐn)?shù)(DisGeNET Score)越高,關(guān)聯(lián)可信度越強(qiáng),分析時(shí)優(yōu)先關(guān)注高分關(guān)聯(lián)。
? 新興疾病關(guān)聯(lián)可能存在滯后,需結(jié)合PubMed文獻(xiàn)補(bǔ)充驗(yàn)證。
六、PharmGKB:藥物基因組學(xué)知識(shí)庫(kù)(個(gè)體化用藥參考)

核心定位:聚焦遺傳變異對(duì)藥物反應(yīng)的影響,提供臨床用藥指導(dǎo),適合藥物基因組學(xué)相關(guān)研究。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):搜索框輸入基因名稱(chēng)、藥物名稱(chēng)或疾病名稱(chēng)。
2.瀏覽條目:搜索結(jié)果列出相關(guān)基因、藥物或疾病條目,選擇感興趣的條目進(jìn)入詳情頁(yè),包含詳細(xì)的基因型-表型信息(如基因變異對(duì)藥物代謝的影響)。
3.獲取藥物-基因關(guān)聯(lián):藥物條目查看“相關(guān)基因列表”,了解哪些基因變異會(huì)影響藥物療效或毒性;基因條目查看“相關(guān)藥物列表”及臨床用藥建議(如劑量調(diào)整指導(dǎo))。
4.導(dǎo)出數(shù)據(jù):進(jìn)入“Data”或“Download”欄目,選擇XML或JSON格式下載完整數(shù)據(jù)庫(kù),或僅下載基因-藥物關(guān)聯(lián)列表;常用數(shù)據(jù)也可通過(guò)Web服務(wù)(如API)獲取。
【技巧與注意事項(xiàng)】
? 區(qū)分“藥物作用靶點(diǎn)”和“藥物代謝/轉(zhuǎn)運(yùn)基因”:前者直接作用于靶點(diǎn),后者影響藥物在體內(nèi)的代謝過(guò)程。
? 信息來(lái)源于臨床指南和研究,可信度高,適合指導(dǎo)個(gè)體化用藥或藥物篩選;尋找全新靶點(diǎn)時(shí)需搭配DrugBank、TTD等數(shù)據(jù)庫(kù)。
七、GEO:基因表達(dá)綜合數(shù)據(jù)庫(kù)(差異表達(dá)基因挖掘)

核心定位:全球最大的基因表達(dá)數(shù)據(jù)庫(kù),收錄高通量實(shí)驗(yàn)數(shù)據(jù),適合篩選疾病與健康組織的差異表達(dá)基因。
實(shí)操步驟:
1.訪問(wèn)官網(wǎng):可通過(guò)數(shù)據(jù)瀏覽器或PubMed檢索數(shù)據(jù)集。
2.檢索數(shù)據(jù)集:數(shù)據(jù)瀏覽器中輸入疾病名稱(chēng)+組織類(lèi)型(如“l(fā)ung cancer”+“l(fā)ung tissue”),返回的數(shù)據(jù)集包含標(biāo)題、摘要、實(shí)驗(yàn)設(shè)計(jì)等信息。
3.選擇數(shù)據(jù)集:優(yōu)先選擇樣本量充足、實(shí)驗(yàn)設(shè)計(jì)清晰、包含臨床信息的數(shù)據(jù)集,點(diǎn)擊進(jìn)入詳情頁(yè)查看樣本分組、平臺(tái)信息及數(shù)據(jù)矩陣鏈接。
4.下載與分析:點(diǎn)擊“Download”按鈕,下載Series Matrix文件(.txt格式,日常分析夠用)或原始數(shù)據(jù)(如CEL文件);下載后可用R(limma包)或Python進(jìn)行差異表達(dá)分析,識(shí)別疾病樣本中顯著上調(diào)或下調(diào)的基因。
【技巧與注意事項(xiàng)】
? 不同數(shù)據(jù)集可能存在批次效應(yīng),合并分析前需進(jìn)行標(biāo)準(zhǔn)化或批次校正。
? 結(jié)合數(shù)據(jù)集的元數(shù)據(jù)(如患者預(yù)后信息),可篩選與疾病預(yù)后相關(guān)的基因。
? 建議參考文獻(xiàn)了解數(shù)據(jù)集背景和質(zhì)量,部分論文補(bǔ)充材料會(huì)提供相關(guān)分析結(jié)果,可作為驗(yàn)證參考。
結(jié)語(yǔ)
寶子們!這篇把 7 個(gè)核心數(shù)據(jù)庫(kù)的實(shí)操步驟拆得明明白白,從檢索到導(dǎo)出再到避坑,跟著走就能避開(kāi) “找數(shù)據(jù)難、篩信息亂” 的問(wèn)題~ 其實(shí)靶點(diǎn)預(yù)測(cè)的核心就是 “選對(duì)庫(kù) + 找對(duì)步驟”,先用這些數(shù)據(jù)庫(kù) “廣撒網(wǎng)” 收集候選線索,但光有線索還不夠,想讓 “候選靶點(diǎn)” 真正成為有價(jià)值的研究對(duì)象,還需要靠譜的技術(shù)幫你進(jìn)一步篩選和驗(yàn)證!
熱蛋白組分析(TPP)就是超適配的 “好幫手”,剛好能補(bǔ)上數(shù)據(jù)庫(kù) “重關(guān)聯(lián)、輕驗(yàn)證” 的短板:
1.適配病理樣本,真實(shí)還原疾病狀態(tài)下的靶點(diǎn)結(jié)合特征,不搞 “紙上談兵”;
2.同步完成篩選與驗(yàn)證,直接鎖定能與配體特異性結(jié)合的靶點(diǎn),省去多輪試錯(cuò);
3.區(qū)分特異性 / 非特異性結(jié)合,排除假陽(yáng)性,還能直接關(guān)聯(lián)靶點(diǎn)的疾病功能。
先用數(shù)據(jù)庫(kù) “廣撒網(wǎng)” 找候選靶點(diǎn),再用 TPP“精篩選、嚴(yán)把關(guān)” 鎖定真實(shí)有效的靶點(diǎn),就能形成 “預(yù)測(cè) - 篩選” 的閉環(huán),讓你的疾病靶點(diǎn)研究效率翻倍!
下一篇咱們?cè)賮?lái)講 “數(shù)據(jù)整合與篩選技巧”,教大家把不同數(shù)據(jù)庫(kù)的結(jié)果融會(huì)貫通,精準(zhǔn)鎖定高價(jià)值靶點(diǎn)!趕緊關(guān)注碼住~
參考資料
[1] Home - OMIM - (OMIM.ORG).https://www.omim.org/
[2] GeneCards - Human Genes | Gene Database | Gene Search.https://www.genecards.org/
[3] DisGeNET - a database of gene-disease associations.https://disgenet.com/
[4] Drugbank.https://go.drugbank.com/
[5] Therapeutic Target Database.https://lib.cpu.edu.cn/64/37/c1197a156727/page.htm
[6] Home - GEO - NCBI.https://www.ncbi.nlm.nih.gov/geo/
[7] PharmGKB.https://www.drugsnav.com/detail/tuijian/674.html
[8] Stelzer G, Rosen N, Plaschkes I, et al. The GeneCards Suite: From Gene Data Mining to Disease Genome Sequence Analyses. Curr Protoc Bioinformatics. 2016;54:1.30.1-1.30.33. Published 2016 Jun 20. doi:10.1002/cpbi.5
[9] Zhou Y, Zhang Y, Zhao D, et al. TTD: Therapeutic Target Database describing target druggability information. Nucleic Acids Res. 2024;52(D1):D1465-D1477. doi:10.1093/nar/gkad751
[10] Hamosh A, Scott AF, Amberger J, Bocchini C, Valle D, McKusick VA. Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders. Nucleic Acids Res. 2002;30(1):52-55. doi:10.1093/nar/30.1.52
首個(gè)蛋白質(zhì)組水平無(wú)偏倚藥物靶點(diǎn)篩選方法——TPP藥物靶點(diǎn)篩選解決方案
?全面直接篩選真實(shí)藥靶組合:蛋白質(zhì)組水平篩選藥物結(jié)合的蛋白靶點(diǎn),全面覆蓋治療靶點(diǎn)與脫靶靶點(diǎn);使用藥物分子本體進(jìn)行試驗(yàn),無(wú)需設(shè)計(jì)合成分子探針,藥靶結(jié)合更真實(shí)
?多種數(shù)據(jù)分析策略:結(jié)合蛋白熱變性曲線分析和非參數(shù)分析方法(NPARC),全面捕獲潛在藥物靶點(diǎn)
?多種生信分析數(shù)據(jù)庫(kù)挖掘輔助篩選:對(duì)潛在藥物靶點(diǎn)進(jìn)行生信分析與數(shù)據(jù)庫(kù)挖掘,輔助最終藥物靶點(diǎn)的確認(rèn)
?多種衍生技術(shù)可選:除常規(guī)溫度范圍(TPP-TR)、藥物濃度范圍(TPP-CCR)、兩者結(jié)合(2D-TPP)的常規(guī)熱蛋白組分析方法外,還可進(jìn)行單溫度點(diǎn)(ITSA)、多溫度點(diǎn)混合(PISA)等高通量熱蛋白組分析方法