文獻(xiàn)學(xué)習(xí)日記

文獻(xiàn): Stoeger T , Gerlach M , Morimoto R I , et al. Large-scale investigation of the reasons why potentially important genes are ignored[J]. PLoS Biology, 2018, 16(9).


result:

一. 滿足預(yù)測(cè)出版物的基因內(nèi)部特征

1.目的:檢驗(yàn)測(cè)量基因的內(nèi)在化學(xué),物理,生物學(xué)特征以及基因產(chǎn)物是否單獨(dú)滿足每個(gè)基因的出版物數(shù)量。

方法:從基因的已知序列或者先前全基因組實(shí)驗(yàn)計(jì)算并聚集了每個(gè)基因的430個(gè)特征。

但是發(fā)現(xiàn)大約有33%攜帶官方基因明稱的蛋白質(zhì)編碼基因缺乏完整的特征目錄。主要原因有以下幾點(diǎn):

①.最近的成簇的規(guī)律間隔的短回文重復(fù)序列(CRISPR)功能缺失篩選中沒(méi)有報(bào)道的插入(約13%的基因,取決于測(cè)定)。

②.被人類蛋白質(zhì)圖譜研究的所有組織和細(xì)胞系中缺乏可檢測(cè)到的RNA(6%的基因)。

③.RNA分子的Genbank參考數(shù)據(jù)庫(kù)的中缺乏經(jīng)過(guò)驗(yàn)證的RNA分子(5%的基因)。

④.Uni-Prot數(shù)據(jù)庫(kù)的蛋白質(zhì)分子中的缺乏報(bào)道的蛋白質(zhì)分子(3%的基因)。

?這個(gè)初步結(jié)果說(shuō)明了實(shí)驗(yàn)方法的局限性,以及人類基因及其基因產(chǎn)物存在的驚人程度的不確定性。

由于實(shí)驗(yàn)方法的局限性,因此導(dǎo)致上面幾個(gè)原因的產(chǎn)生。

資料來(lái)源:

①.從Blomen和他的同事,Hart和他的同事,以及Wang和他的同事那里獲得了人類細(xì)胞系功能缺失的信息

②.基因組RNA和驗(yàn)證RNA序列的基因和編碼序列均來(lái)自Genbank (Genome version GRCh38.p10) (ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)。

對(duì)應(yīng)的Github中的文件:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_genbank_features.ipynb

③.從Uniprot 獲得SwissProt和TrEMBL 蛋白質(zhì)序列和Entrez GeneIDs映射表(ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz,ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz,ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping_selected.tab.gz).

對(duì)應(yīng)的Github中的文件:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\templates\virtualexchange


④.從?NHGRI-EBI?目錄v1.0中獲得全基因組關(guān)聯(lián)研究

對(duì)應(yīng)的Github中的文件:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_ebi_gxa

⑤.從www.ebi.ac.uk/ GXA下載EBI基因表達(dá)圖譜(GXA)。

對(duì)應(yīng)的是GitHub中的文件為:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gtx_atlas.py

⑥.從 NCBI NIH (https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2pubmed.gz)獲得基因與出版物的聯(lián)系。

對(duì)應(yīng)的是GitHub中的文件為:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_publications_vs_go_vs_rif.ipynb



2019.3.20

2.目的:使用具有完整特征的12,948個(gè)基因來(lái)評(píng)估這些特征(上文所說(shuō)的430個(gè)特征)是否能夠定量地反應(yīng)單個(gè)基因的出版物數(shù)量。(機(jī)器學(xué)習(xí)訓(xùn)練模型之后,給定一個(gè)基因,然后讓模型根據(jù)該基因的特征來(lái)預(yù)測(cè)其出版物的數(shù)量。)

方法:梯度增強(qiáng)回歸與樣本外蒙特卡羅交叉驗(yàn)證,該方法可以在很大程度上預(yù)測(cè)任何給定基因的出版物數(shù)量。

結(jié)果:發(fā)現(xiàn)430個(gè)特征中有15個(gè)特征對(duì)模型的準(zhǔn)確性貢獻(xiàn)最大(S3A圖),這些特征分為六類,分別為:

⑴列舉了跨多個(gè)組織的基因編碼的RNA和蛋白質(zhì)分子的豐度(腎上腺,闌尾,腦和肝臟的RNA豐度;部分組織可以檢測(cè)到RNA的表達(dá),以及HeLa細(xì)胞的蛋白質(zhì)豐度)

⑵蛋白質(zhì)的陽(yáng)性電荷

⑶蛋白質(zhì)的疏水性

⑷基因?qū)ν蛔兊拿舾行裕ㄈ巳褐绣e(cuò)義突變的發(fā)生率,人群中功能缺失突變的發(fā)生率,對(duì)人群中純合或隱性功能缺失突變的耐受性,KBM7細(xì)胞中的CRISPR評(píng)分)

⑸轉(zhuǎn)錄物和基因的相應(yīng)的長(zhǎng)度

⑹促進(jìn)新生蛋白質(zhì)轉(zhuǎn)運(yùn)到內(nèi)質(zhì)網(wǎng)中的信號(hào)序列

這15個(gè)特征分別為:

①信號(hào)肽

②蛋白質(zhì)GRAVY

③純合子和雜合子對(duì)功能缺失突變的種群耐受

④KBM7細(xì)胞功能缺失突變(CRISPR Score)

⑤肝臟中的RNA表達(dá)

⑥大腦中的RNA表達(dá)

⑦腎上腺中的RNA表達(dá)

⑧闌尾中RNA的表達(dá)

⑨RNA>=1的組織部分

⑩種群錯(cuò)義突變

?基因長(zhǎng)度

?種群缺失突變

?RNA長(zhǎng)度

?HeLa細(xì)胞的蛋白質(zhì)濃度

?蛋白質(zhì)堿度


圖1b

圖中黃色代表基因簇,每一個(gè)圈為一個(gè)基因簇。上述的15個(gè)特征的序號(hào)對(duì)應(yīng)著熱圖中每個(gè)特征的順序。(我認(rèn)為特征①-?在熱圖中的順序從左往右,每一列對(duì)應(yīng)一個(gè)特征)


圖1b的右上角的放大的熱圖

這15個(gè)特征足以說(shuō)明模型的準(zhǔn)確性,因?yàn)槭褂镁哂羞@15個(gè)特征的模型預(yù)測(cè)具有完整特征目錄的12948個(gè)基因的出版物數(shù)量的準(zhǔn)確率(Spearman:0.61,S3B)與預(yù)測(cè)已經(jīng)報(bào)道具有這15個(gè)特征的所有15056個(gè)基因的出版物的數(shù)量的準(zhǔn)確率相當(dāng)。


圖S3的a:擁有完整特征目錄的12948個(gè)基因的發(fā)表數(shù)量的預(yù)測(cè);b:已報(bào)告15個(gè)特征的所有15056個(gè)基因的發(fā)表數(shù)量的預(yù)測(cè)

因此,使用這15個(gè)特征為15056個(gè)基因定義了15維空間,該空間反映了出版物和單個(gè)特征之間的相關(guān)性以及不同特征的組合。該空間內(nèi)的基因簇由于不同的Gene Ontology注釋而被富集并因此知道其生物學(xué)作用(圖1B,S4圖)。 這一初步發(fā)現(xiàn)表明,基因出版物的數(shù)量在很大程度上僅歸因于它們的一小部分物理,化學(xué)和生物學(xué)特征。


圖S4.物理、化學(xué)和生物特征映射到單個(gè)基因。


2019.3.21

圖S4的理解:圖中的每一個(gè)點(diǎn)代表一個(gè)基因,而每個(gè)小圖代表一個(gè)特征并由具有該特征的基因富集而成。如第一個(gè)小圖為具有信號(hào)肽特征的基因富集而成。顏色越深,基因的富集分?jǐn)?shù)越高。根據(jù)該熱圖,基因富集到哪一個(gè)特征的熱圖,就表示該基因具有該特征的功能。

數(shù)據(jù)來(lái)源:

①專利數(shù)據(jù)來(lái)自Rosenfeld和Mason。映射到Entrez Gene ID的Gene Ontologies于2017年初從NCBI獲得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2go.gz)

對(duì)應(yīng)于Github中的文件為:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\nanotation


②從NCBI NIH中獲得了Entrez Gene IDs 與 Ensembl Gene IDs之間的連鎖表(https://ftp.ncbi.nlm.nih.gov/gene/data/gene2bl.gz)。

對(duì)應(yīng)于Github中的文件為:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gene_mapper.py

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\src\geisen\mapper.py

③基因和染色體的名稱于2017年初從NCBI NIH獲得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)

該部分使用到的數(shù)據(jù)資源對(duì)應(yīng)于GitHub中的文件:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data。




2019.3.22

二.過(guò)去研究的優(yōu)先權(quán)強(qiáng)烈反映了目前的積極性。

1.上述15個(gè)特征都被懷疑會(huì)影響用傳統(tǒng)方法研究特定基因的能力。在這一事實(shí)和對(duì)科學(xué)的大量社會(huì)學(xué)觀察的推動(dòng)下“富人”可以變得“更富”,該研究接下來(lái)詳細(xì)介紹了每個(gè)基因的出版物總數(shù)與過(guò)去的研究之間的一致性。根據(jù)先前關(guān)于每個(gè)基因出版物數(shù)量差異的報(bào)告的相似性,發(fā)現(xiàn)了:

①發(fā)現(xiàn)自2000年以來(lái),目前出版物數(shù)量的不平衡一直保持不變(S5A和S5B圖)

a:基因在medline中累積發(fā)表的文章份額; b:隨著時(shí)間的推移,出版物中基因的基尼系數(shù)

基尼系數(shù):用來(lái)衡量不平等程度的指標(biāo)。基尼系數(shù)最大為“1”,最小等于“0”?;嵯禂?shù)越接近0表明收入分配越是趨向平等。國(guó)際慣例把0.2以下視為收入絕對(duì)平均,0.2-0.3視為收入比較平均;0.3-0.4視為收入相對(duì)合理;0.4-0.5視為收入差距較大,當(dāng)基尼系數(shù)達(dá)到0.5以上時(shí),則表示收入懸殊。一般以0.4作為分界點(diǎn),超過(guò)0.5表示差距懸殊。

b圖中基尼系數(shù)一直都0.5,表明了基因研究分配的不平等。

②每個(gè)基因的出版物數(shù)量在當(dāng)前十年和之前時(shí)間段的研究之間高度相關(guān)(圖2A,Spearman:0.84),并確定了目前正在經(jīng)歷其出版物數(shù)量大幅增加的六個(gè)基因,這可以追溯到最近其對(duì)醫(yī)學(xué)重要性的認(rèn)可(表4)。


Fig.2A過(guò)去和最近研究的每個(gè)基因出版物的數(shù)量


表4.對(duì)2011年至2015年期間基因的關(guān)注度增加的文獻(xiàn)調(diào)查。

與備擇假設(shè)相反,人類基因的研究將更加具有動(dòng)態(tài)性。對(duì)早期對(duì)兩個(gè)基因家族和在大腦中特異表達(dá)的基因的研究之外進(jìn)行概括,發(fā)現(xiàn)早期報(bào)道的人類基因——如基因或其編碼基因產(chǎn)物的早期最初發(fā)表日期所指示——目前也進(jìn)行了更多的研究(圖S5C)(也就是說(shuō)以前研究過(guò)的基因,目前任然在在進(jìn)行研究)。如1991年報(bào)告的所有基因(相當(dāng)于所有基因的16%)占2015年文獻(xiàn)的49%(S5D圖)

圖S5c:基因首次發(fā)表年份與2006 - 2015年發(fā)表數(shù)量的相關(guān)性。d:2015年MEDLINE發(fā)表的按初始發(fā)表年份排序的基因研究累計(jì)份額

圖S5c中,初始報(bào)告年份為2000年之前的基因出版物,在2006年-2015年期間其出版物的數(shù)量在增加,說(shuō)明了先前研究過(guò)的基因,目前仍然在被研究。

這一結(jié)果表明了初始報(bào)告進(jìn)一步增加了出版物數(shù)量的可預(yù)測(cè)性,且因?yàn)榘顺霭嫖锏哪攴萏岣吡四P偷臏?zhǔn)確性。(Spearman系數(shù)從圖1a中的0.64增加到了圖2b中的0.75,說(shuō)明了增加了出版物年份之后,增加了模型預(yù)測(cè)出版物數(shù)量的準(zhǔn)確性)


圖2b:通過(guò)包括特定人類基因的第一次出版年份來(lái)預(yù)測(cè)圖1A模型的研究出版物的數(shù)量


圖1a:利用430個(gè)基因的物理、化學(xué)和生物特征信息對(duì)單個(gè)基因建模方法和預(yù)測(cè)研究出版物數(shù)量的說(shuō)明

2.目的:確定與初始報(bào)告相關(guān)的因素

方法:創(chuàng)建了具有上述430個(gè)特征的獨(dú)立模型,并訓(xùn)練他們,用以預(yù)測(cè)初始出版物的年份

結(jié)果:預(yù)測(cè)初始出版物的年份的準(zhǔn)確性比預(yù)測(cè)出版物數(shù)量稍差(圖2C)(因?yàn)槭鞘褂眠@430個(gè)特征的模型預(yù)測(cè)出版物的數(shù)量的Spearman為0.64,見(jiàn)上文圖1a,而使用該模型來(lái)預(yù)測(cè)初始出版物的年份的Spearman為0.48)


圖2C:使用圖1A的特征預(yù)測(cè)發(fā)現(xiàn)年份

但是基礎(chǔ)模型再次選擇了高度相似的特征——最顯著的是,信號(hào)肽,轉(zhuǎn)錄物和蛋白質(zhì)分子的豐度,以及對(duì)突變的敏感性的存在(圖S5E)。 這表明,對(duì)于基因的初步發(fā)現(xiàn)起著重要作用的基因特征,仍然部分與關(guān)于這些基因的現(xiàn)有出版物數(shù)量相關(guān)。


圖S5E:預(yù)測(cè)出版物數(shù)量和預(yù)測(cè)發(fā)現(xiàn)年份的重要特征中位數(shù)的比較

同樣,該研究還觀察到雖然出版物的數(shù)量在基因家族的第一次分錄(例如,AKT1)和第二次分錄(例如,AKT2)之間相關(guān)(S5F圖,Spearman:0.69),但是第一次分錄具有更多的出版物(Mann-Whitney U檢驗(yàn):p值<10-24)。這表明了即使在進(jìn)化和化學(xué)上高度相關(guān)的基因,早期的初始報(bào)告也與更多的出版物一致。(這也許說(shuō)明了基因被發(fā)現(xiàn)得越早,其具有的出版物數(shù)量就越高,也就是被研究更充分)。



2019.3.23

數(shù)據(jù)來(lái)源:

①文章類型和出版物標(biāo)題于2017年初從MEDLINE https://www.nlm.nih.gov/databases/download/pubmed_medline.html)

對(duì)應(yīng)得Github中的文件夾為:

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_literature_data


access_literature_data文件夾中的詳細(xì)文件

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_load_scientists_and_medline.ipynb

③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_medline_wos_query.ipynb

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\quest\170904f_features_vs_knowledge\170904f_predict_year_of_initial_publication.ipynb(預(yù)測(cè)初始出版物的年份)

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170909_prediction_of_year_of_discovery_2CE.ipynb(預(yù)測(cè)發(fā)現(xiàn)出版物的年份)

.來(lái)自模式生物的知識(shí)推動(dòng)了人類基因的研究

1.由于預(yù)測(cè)初始報(bào)告年份的預(yù)測(cè)準(zhǔn)確度降低可能暗示著存在另外一個(gè)或多個(gè)因素,這些因素未包括在我們的430基因內(nèi)在特征中。因此該研究為了探索這些因素,使用PubMed進(jìn)行了文獻(xiàn)計(jì)量分析,以比較各個(gè)出版物及其引用的出版物中包含的基因。

通過(guò)關(guān)注報(bào)道新的人類基因發(fā)現(xiàn)的出版物,該研究發(fā)現(xiàn)引用非人類基因研究的出版物比例過(guò)高(圖2D和S6A)


圖2D:引用含有非人類基因的出版物的比例高于引用含有人類基因的出版物的比例


圖S6A

由于引用非人類基因出版物的比例過(guò)高,因此該研究對(duì)這些基因的生物種類進(jìn)行了分析,并將其分為兩類:

①第一類基因優(yōu)先與人類基因共同發(fā)生,由Mus musculus(小家鼠),Rattus norvegicus(褐家鼠),Bos taurus(家牛)和Gallus gallus(野雞)組成(引用率分別為37%,9.1%,2.6%,2.5%)。

②第二類有傾向性的發(fā)生在沒(méi)有人類基因的出版物中,由黑腹果蠅,釀酒酵母,大腸桿菌,非洲爪蟾,秀麗隱桿線蟲和粟酒裂殖酵母組成(引用比例分別為:22%,10%,4.0%,2.5%,1.6%,1.5%)(圖S6B)


圖S6B:人類基因的初始出版物引用的部分非人類生物

假設(shè)引文是科學(xué)影響的一個(gè)代表,這一發(fā)現(xiàn)表明人類基因的初始報(bào)告特別受到模式生物研究的影響并且多種模式生物在人類基因的發(fā)現(xiàn)中起到了補(bǔ)充作用。

2.通過(guò)上文的發(fā)現(xiàn),通過(guò)包含關(guān)于模式生物同源基因的初始報(bào)告的年份之后,該研究顯著提高了人類基因初始報(bào)告年份的預(yù)測(cè)準(zhǔn)確性(圖2E,Spearman系數(shù)從0.48至0.71)。此外,同源基因初始報(bào)告年份比人類基因初始報(bào)告年份提高了預(yù)測(cè)出版物數(shù)量的準(zhǔn)確率(圖S7A Spearman: 0.81)。


圖2E:使用圖1A的特征和關(guān)于非人模型生物的同源基因的初始出版年份來(lái)預(yù)測(cè)關(guān)于單個(gè)基因的初始出版物的年份


使用圖1A模型預(yù)測(cè)研究出版物的數(shù)量,擴(kuò)展到包括非人類同源基因首次發(fā)表年份


圖2b:通過(guò)包含特定人類基因的第一次出版年份后使用圖1A的模型預(yù)測(cè)研究出版物的數(shù)量

圖S7a(使用圖1A模型預(yù)測(cè)研究出版物的數(shù)量,擴(kuò)展到包括非人類同源基因首次發(fā)表年份Spearman:0.81)和圖2b(通過(guò)包含特定人類基因的第一次出版年份后使用圖1A的模型預(yù)測(cè)研究出版物的數(shù)量,Spearman:0.75)相比,前者的預(yù)測(cè)準(zhǔn)確率增加了。

同樣,未被研究的人類基因的同源基因同樣在模式生物中未被研究,并且包含關(guān)于同源基因的出版物的數(shù)量對(duì)個(gè)體人類基因的出版物數(shù)量產(chǎn)生了幾乎完美的預(yù)測(cè)(圖2F,Spearman:0.87),而沒(méi)有同源基因的人類特定基因保持顯著較少的研究(S7B Fig,Mann- Whitney U檢驗(yàn):p值<10-32)


圖2F:使用圖1A的特征和同源基因的出版物數(shù)量預(yù)測(cè)研究出版物的數(shù)量


圖S7B:在非人類模式生物(人類專有)中,以同源基因的存在為條件的單個(gè)基因的發(fā)表數(shù)量

也就是說(shuō):

①使用包含了同源基因出版物數(shù)量的圖1A的模型來(lái)預(yù)測(cè)人類基因出版物的數(shù)量準(zhǔn)確率非常高,幾乎接近完美。

②在人類基因中沒(méi)有被研究的同源基因在模式生物中也沒(méi)有被研究。

③沒(méi)有同源基因的人類基因較少被研究。

這些結(jié)果都表明了模式生物的研究影響獲得關(guān)于人類生物學(xué)的知識(shí)—— 這個(gè)假設(shè)已經(jīng)被提出來(lái),但是在之前并沒(méi)有被證明。



2019.3.24

數(shù)據(jù)來(lái)源:

①同源基因第68版獲自NCBI NIH(https://ftp.ncbi.nlm.nih.gov/pub/HomoloGene)

對(duì)應(yīng)的Github中的文件為:

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_obtain_featuers_from_homologene.ipynb

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_tier2_misc.ipynb

③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\relations

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\ana170508f_human_citations(根據(jù)出版物的年份計(jì)算引文)

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar171107f_citation_network

⑥E:\Literature\holiday work\plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar170902_discovery_year(返回medile中文章所涵蓋的最早的出版年份)



四.基因的特征影響重要生物學(xué)的研究

1.目的:鑒于觀察到科學(xué)事業(yè)的歷史連續(xù)性,該研究想知道生物醫(yī)學(xué)研究是否已經(jīng)確定了所有特別重要的人類基因,因此分配相應(yīng)出版物的產(chǎn)生。

方法:研究人員將他們的注意力平均分配到同一出版物中包含的所有基因(S8圖)


?圖S8 .出版物關(guān)注度密切跟蹤出版物數(shù)量

結(jié)果:雖然這是一個(gè)簡(jiǎn)化的假設(shè),但是通過(guò)該假設(shè)能夠可靠地觀察到,在出版物中受到最多關(guān)注的基因大約是功能缺失突變的敏感性的基因或者全基因組研究協(xié)會(huì)(GWAS)中鑒定的基因的3到5倍(圖3A)。而且這種富集度最大的基因已經(jīng)被幾個(gè)獨(dú)立研究中重復(fù)鑒定,其中關(guān)于人類表型性狀研究的頻率最高。然而,在將那些受到最少關(guān)注的基因與那些受到最高關(guān)注的基因進(jìn)行比較時(shí),觀察到平均關(guān)注度極度增加了13倍富集(圖3A)。


圖3a:遺傳功能缺失(LoF)不耐受基因存在,具有GWAS特性基因的存在以及出版物中基因的關(guān)注度的相對(duì)富集。

黑色的線(出版物中基因受到的關(guān)注度)的最大值分別是紅色的線(Frequent GWAS)和藍(lán)色線(功能缺失突變不耐受)的最大值的3-5倍。受到關(guān)注度最少的基因(橙色的線) 和受到關(guān)注度最高的基因(黑色線)相比較時(shí),黑色線(出版物中的基因受到的關(guān)注度)的最大值是橙色線(Any GWAS)最大值的13倍。

這些結(jié)果表明了當(dāng)生物醫(yī)學(xué)研究確實(shí)關(guān)注重要基因時(shí),不成比例的大量研究工作集中在已經(jīng)充分研究的基因上。

對(duì)應(yīng)于Github中的文件為:

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\phenotype_collections

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gwas_studies

2.在檢測(cè)美國(guó)國(guó)立衛(wèi)生研究院(NIH)作為另一個(gè)重要的代理進(jìn)行資金分配時(shí),我們觀察到類似的模式(類似于關(guān)注度的分配模式)。鑒于每個(gè)基因的出版物數(shù)量與NIH的資金分配數(shù)量之間的相關(guān)性(S9A和S9B圖,Spearman:0.95)


圖S9A和B。A:基因的資助金數(shù)目與基因出版物數(shù)量的函數(shù)關(guān)系。B:美國(guó)國(guó)立衛(wèi)生研究院資助的研究出版物的關(guān)注度與國(guó)家衛(wèi)生研究院分配給個(gè)別基因的預(yù)算數(shù)額之間的相關(guān)性

出版物數(shù)量越多,得到的資助越多。得到的資助越多,受到的關(guān)注度越高。

而且,上述所建的模型準(zhǔn)確地預(yù)測(cè)了數(shù)十億研究資金的分配(圖3B,Spearman 0.70)。并且這種方法特別適用于多種補(bǔ)助支持的基因(S9C圖)


圖3B:預(yù)測(cè)與實(shí)際NIH預(yù)算支出的單個(gè)基因(點(diǎn))


圖S9C:撥款總額達(dá)到規(guī)定水平的基因補(bǔ)助金數(shù)目。x軸顯示非重疊箱的上限


并且通過(guò)另外考慮詳細(xì)描述基因和疾病之間的已知注釋的3,176個(gè)特征(FigS9D ,Spearman:0.73),預(yù)測(cè)準(zhǔn)確性僅略微提高,但是如果僅考慮后者(S9E圖,Spearman 0.43)則極大但未完全受損。


igS9D :在圖3B所考慮的特征中加入基因與疾病之間的聯(lián)系,預(yù)測(cè)NIH在單個(gè)基因(dots)上的預(yù)算支出。黑線表示lowess擬合和虛線表示預(yù)測(cè)(S1數(shù)據(jù))的兩種不同的狀態(tài)


S9E圖:僅考慮基因與疾病之間的關(guān)聯(lián)時(shí),預(yù)測(cè)NIH在單個(gè)基因(dots)上的預(yù)算支出,黑線表示lowess擬合和虛線表示預(yù)測(cè)的兩種不同的狀態(tài)

這些結(jié)果表明了以前發(fā)現(xiàn)的基因內(nèi)在特征和同源基因首次報(bào)告的年份不僅與研究資助有關(guān),而且在更大程度上與目前存在的基因在疾病中的作用的知識(shí)有關(guān)。同樣,如果只考慮報(bào)告疾病中具有作用的基因,發(fā)現(xiàn)預(yù)測(cè)了基因首次發(fā)表年份的同一個(gè)模型(圖2E)還預(yù)測(cè)了批準(zhǔn)和臨床前藥物的存在的可能性(圖3C,圖9F)。


圖3C:根據(jù)圖2B中所示的模型,用至少一種疾病相關(guān)基因的實(shí)驗(yàn)藥物分?jǐn)?shù)為條件預(yù)測(cè)大約的發(fā)現(xiàn)


圖9F:如圖3C所示,但適用于已批準(zhǔn)的藥

這些研究結(jié)果表明,基因的少數(shù)特征和模式生物的可用性對(duì)人類疾病的基礎(chǔ)和應(yīng)用的研究產(chǎn)生了強(qiáng)烈影響,并且由此導(dǎo)致了研究可能顯著偏離個(gè)別基因的實(shí)際的生物學(xué)重要性。



2019.3.25

數(shù)據(jù)來(lái)源:

①藥物及其靶標(biāo)獲自DrugBank(版本5.0.7)

②基因和疾病之間的相關(guān)性從Genecard的GeneALaCart service 服務(wù)(https://genealacart.genecards.org)通過(guò)所有官方人類(HUGO)基因符號(hào)的連續(xù)批次查詢獲得的。

對(duì)應(yīng)Github中的文件:

①\plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_economic_data


②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_reagent_data


③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_genbank_features.ipynb

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar170605f_funding(獲取NIH論文的資助信息)

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170721_per_gene_funding_S9B.ipynb(每個(gè)基因的資助)

⑥plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170902_grant_category_and_fame_bins_S10B.ipynb(資助種類)


五.替代發(fā)現(xiàn)策略的可行性

1.發(fā)現(xiàn)的強(qiáng)相關(guān)性,以及早期關(guān)于試劑可用性的研究表明,研究人員可能面臨非常實(shí)際的限制,阻礙他們探索研究很少的基因,并且可能需要替代發(fā)現(xiàn)策略為了支持這種可能性,并超越上述對(duì)大量積累知識(shí)的發(fā)現(xiàn),該研究觀察到在重點(diǎn)單基因研究中描述的基因部分僅以恒定速率增加(圖4A)。

圖4A:如果科研單位繼續(xù)遵循上述報(bào)告的趨勢(shì),則對(duì)所有基因研究之前的年份進(jìn)行估計(jì)。每年至少有n個(gè)重點(diǎn)(單基因)出版物的基因數(shù)量。虛線顯示了近年來(lái)線性回歸界限的延申

n:代表基因的數(shù)目

2.僅僅研究少數(shù)基因可能不是很有用,可能會(huì)暴露出初級(jí)科學(xué)家職業(yè)風(fēng)險(xiǎn)的增加(S10A圖)


圖S10 A:初級(jí)科學(xué)家的職業(yè)前景與以前對(duì)基因的關(guān)注度有關(guān)

A:初級(jí)科學(xué)家的職業(yè)前景與以前對(duì)基因的關(guān)注度有關(guān):根據(jù)這些出版物中基因的關(guān)注度的中值,出版物作者轉(zhuǎn)變?yōu)轫?xiàng)目負(fù)責(zé)人(PI)地位的可能性。如果,在之前的幾年里,這種注意力落在所有最不受關(guān)注的基因的五分位數(shù)中,作者就有更低的經(jīng)驗(yàn)觀察機(jī)會(huì)成為PI。當(dāng)將作者出版物的關(guān)注度變成所有基因的中心五分位數(shù)(對(duì)應(yīng)于最受關(guān)注的40%-60%的基因)與這些作者的出版物的關(guān)注度中位值變成最受關(guān)注的基因的關(guān)注度中位值相比時(shí),這種降低大大減少了.

3.與此同時(shí),美國(guó)國(guó)立衛(wèi)生研究院(NIH)專門用于探索性研究的撥款類別也不需要原始數(shù)據(jù),用于創(chuàng)新研究或科學(xué)家培訓(xùn)的資助類別都與生物醫(yī)學(xué)文獻(xiàn)中觀察到的不平衡密切相關(guān),其中5%的人類蛋白編碼基因占了一半的出版物(圖S10B和S10C)


圖S10B:在指定年份內(nèi)發(fā)表的MEDLINE的份額涵蓋了在指定年份之前研究最多的5%的基因。


圖S10C:美國(guó)國(guó)立衛(wèi)生研究院(NIH) 2015年探索性撥款支持的大多數(shù)出版物中出現(xiàn)的1000個(gè)基因的說(shuō)明

鑒于最近的一項(xiàng)文獻(xiàn)計(jì)量學(xué)研究表明,如果結(jié)合已有的研究背景,新穎性可能有利于科學(xué)出版物的影響,因此該研究建議建立一種資源,為探索研究較少的基因提供背景。



2019.3.26

4.通過(guò)對(duì)研究較少的基因檢查現(xiàn)有出版物的特性,我們發(fā)現(xiàn)這些基因往往發(fā)生在包括大多數(shù)基因在內(nèi)的大規(guī)模研究中(S11A和S11B圖),這暗示了大規(guī)模研究的能力支持研究較少基因的研究。該研究觀察到這些研究是其他出版物的常用參考(圖4B,S11C圖),并且涉及它們的單基因研究比那些涉及單基因研究的單基因研究中包含的那些基因傾向于關(guān)注研究較少的基因。(S11D圖)

我的理解:也就是說(shuō)大規(guī)模的研究能夠支持研究那些很少被研究的基因,并且這些研究很少被研究的基因的出版物是其他出版物的常用參考,而且涉及到大規(guī)模研究的單基因研究比那些涉及單基因研究的單基因研究中所包含的那些基因更加傾向于關(guān)注不被或是很少被研究得基因。


a:具有一定數(shù)量出版物的基因的比例與各自出版物中同時(shí)出現(xiàn)的基因的中位數(shù)之間的核密度估計(jì);b:(B)作為與出版物相關(guān)的基因數(shù)量的函數(shù)的出版物的中度注意力百分比

在圖S11b中,出版物中的基因數(shù)量越多,在出版物中所受到的注意力越少。


圖4b:出版后8年內(nèi)被高度引用的研究(引用次數(shù)排名前5%)的百分比。誤差條顯示95%置信區(qū)間。

圖4b中可以看到出版物中包含的基因數(shù)量越多,被引用的百分比越高。


圖S11c:高度引用出版物的百分比(前5%,用虛線顯示)與BioGRID中與出版物相關(guān)的基因數(shù)量的函數(shù);d:給予單個(gè)基因出版物的關(guān)注度中位數(shù),作為與其引用的出版物相關(guān)的基因數(shù)量的函數(shù)。

從圖S11c中可以看到,BioGRID的出版物中的基因數(shù)量越高,被引用的百分比就越高。

5.目的:為了確定大規(guī)模生物信息收集在多大程度上已可以作為對(duì)大多數(shù)基因進(jìn)行詳細(xì)描述的潛在起點(diǎn)

方法:我們接下來(lái)用數(shù)據(jù)庫(kù)擴(kuò)展了我們的資源。如公共RNA干擾(RNAi)實(shí)驗(yàn)的集合,人類蛋白質(zhì)復(fù)合物的目錄,以及公共差異基因表達(dá)實(shí)驗(yàn)的目錄——這些都可能受到偏倚實(shí)驗(yàn)選擇的影響。

結(jié)果:發(fā)現(xiàn)27%的從未被完整出版物研究的基因(S12A圖)在大規(guī)模實(shí)驗(yàn)的公開現(xiàn)有數(shù)據(jù)中較少被鑒定,并且它們不太可能具有與大量出版物相關(guān)的特征(圖4C,圖S12B)。還發(fā)現(xiàn)83%的可能實(shí)驗(yàn)已經(jīng)存在的基因特異性數(shù)據(jù),并且對(duì)于其中25%,存在至少三種定性不同類型的數(shù)據(jù)(S12C圖)


圖4C:(上圖中每一組柱狀圖分別表示)具有強(qiáng)RNAi表型的基因的百分比,至少有一個(gè)組織具有中等的RNA豐度,存在黑腹果蠅同系物,或?qū)儆诰哂懈叨妊芯炕虻膹?fù)合體。高度研究的基因在所有這些特征中都顯示出更高的百分比,但許多未研究的基因也具有這些特征





圖S12a:在給定基因在出版物中關(guān)注度的分布(以部分出版物衡量)。關(guān)注度水平低于1的基因?yàn)槲囱芯炕?藍(lán)色),而關(guān)注度水平高于1的基因?yàn)檠芯炕?橙色)。b:具有特定特征的基因百分比

在圖S12b中,藍(lán)色柱狀圖表示具有某相應(yīng)的特征但未被研究的基因百分比,如:RNA干擾的頻繁程度這個(gè)特征中,藍(lán)色的柱狀圖表示具有這個(gè)特征,但是并未被研究的基因所占的百分比。而橙色表示具有這個(gè)特征且已經(jīng)被研究的基因所占的百分比。

圖S12c:如同B,但按B的至少一項(xiàng)特征進(jìn)行分組,與B的順序相同

這有力地表明,阻止其早期發(fā)現(xiàn)的基因和同源基因的特征將不再阻止其更詳細(xì)的研究。

6.為了促進(jìn)探索和假設(shè)生成,我們提供了一個(gè)策劃指南,專門指導(dǎo)基因特異性初步數(shù)據(jù)的適當(dāng)來(lái)源。

進(jìn)一步分析表明,不同的大規(guī)模方法覆蓋了15維空間的不同區(qū)域,高通量相互作用研究中鑒定的基因在包含大量表達(dá)基因的區(qū)域中得到強(qiáng)烈富集(藍(lán)色的點(diǎn)表示基因,顏色的深淺表示相對(duì)命中,顏色越深表示相對(duì)命中越高),通過(guò)差異表達(dá)研究鑒定的基因富集在含有基因的區(qū)域,這些基因的轉(zhuǎn)錄本通過(guò)現(xiàn)有技術(shù)在成體組織中普遍檢測(cè)到。相比之下,在功能缺失的RNAi篩選中,通過(guò)表型識(shí)別出的基因更均勻地覆蓋了15維空間(從圖4D中可以看到顏色比較深的藍(lán)色均勻的覆蓋在基因集中)(圖4D)類似地,與遺傳性狀高度復(fù)制相關(guān)的基因覆蓋15維空間的多個(gè)區(qū)域,一些預(yù)測(cè)大量出版物,另一些預(yù)測(cè)少量出版(圖4E,圖S4)


圖4D:用不同的大規(guī)模實(shí)驗(yàn)方法鑒定命中目標(biāo)時(shí)的偏倚說(shuō)明;E:利用圖1A中使用的模型中最重要的15個(gè)特征,通過(guò)t-SNE可視化對(duì)基因進(jìn)行分組

圖4E中大的圓圈突出了經(jīng)常發(fā)現(xiàn)GWAS的特征的基因(每一個(gè)點(diǎn)表示一個(gè)基因)。熱圖顯示了強(qiáng)有力的遺傳證據(jù)(G),實(shí)驗(yàn)可能(E), 與無(wú)脊椎動(dòng)物模型生物同源性(M)。注意GEM特性與研究關(guān)注度之間缺乏很強(qiáng)的相關(guān)性。E,實(shí)驗(yàn)性的潛能;FPKM,每千堿基轉(zhuǎn)錄本片段每百萬(wàn)次映射讀取;G,有力的遺傳支持;GEM,有力的遺傳支持和實(shí)驗(yàn)可能和與無(wú)脊椎模式生物的同源性; GWAS:全基因組相關(guān)研究。M,模式生物; RNAi:RNA干擾;t-SNE:t分布隨機(jī)鄰居嵌入。

該研究舉了三個(gè)例子:

①首先我們來(lái)看看被大量研究的基因TERT(在15維空間圖的右上角)的RNA。TERT是端粒酶的催化亞基,在大多數(shù)成人組織中是檢測(cè)不到的。雖然我們的分析表明,這種生物學(xué)特性通常與少量的出版物有關(guān),但TERT的缺失限制了細(xì)胞過(guò)度增殖,這一因素克服了異常激活后的研究困難。(也就是說(shuō)若基因異常激活導(dǎo)致細(xì)胞過(guò)度增殖,則可考慮TERT基因并將其敲除,雖然它在大多數(shù)成人組織中是檢測(cè)不到的,因而無(wú)法研究其生物學(xué)作用,但是該基因的另外一種生物學(xué)作用被發(fā)現(xiàn),也就是其能夠限制細(xì)胞的過(guò)度增殖)。

②另一個(gè)例子是研究較少的乳腺癌基因CCDC170,該基因編碼一種最帶電荷和酸性的人類蛋白質(zhì),而且在維持高爾基相關(guān)微管的組裝中具有某種結(jié)構(gòu)性作用。

③最后一個(gè)例子是C1orf106,它是與潰瘍性結(jié)腸炎相關(guān)的第二大基因,在差異基因表達(dá)實(shí)驗(yàn)中,它是最常被識(shí)別關(guān)聯(lián)的前20%的基因之一,但C1orf106最近才被跟蹤,當(dāng)時(shí)基因特異性下拉實(shí)驗(yàn)揭示了其在調(diào)節(jié)上期黏附連接的穩(wěn)定性中的作用。

這些例子說(shuō)明了:功能研究仍然是發(fā)現(xiàn)新生物學(xué)的有力策略,這種生物學(xué)不復(fù)制過(guò)去的研究偏倚。



3019.3.27

7.目的:為了對(duì)進(jìn)一步探索的戰(zhàn)略選擇提供更廣闊的視角

方法:該研究還介紹了遺傳支持和實(shí)驗(yàn)可接近性的存在以及無(wú)脊椎動(dòng)物模式生物中同源基因的存在的綜合措施。

雖然一些初始鑒定的簇(圖1B)似乎在實(shí)驗(yàn)室上可以很好地用于人類或模式生物體,但其他簇似乎對(duì)這些方法具有彈性(圖4E)。(也就是說(shuō)圖1B中根據(jù)圖1A中的模型所使用的最重要的15個(gè)特征鑒定出來(lái)的這些基因簇,被分到同一個(gè)簇的基因,說(shuō)明他們具有某些相同的特征。但是某些簇中包含的基因或許都不具有相同的特征)




圖1B:使用圖1A中使用的模型中最重要的15個(gè)特征,通過(guò)t-SNE可視化對(duì)單個(gè)基因的研究出版物分組

例如:對(duì)轉(zhuǎn)錄共激活因子活性富集的簇(圖4E中左上角單獨(dú)被圈出來(lái)的那個(gè)簇)。它包含幾個(gè)進(jìn)化上保守的基因,這些基因?qū)δ苋笔蛔兎浅C舾胁⑶以趯?shí)驗(yàn)上是可接近。該簇包含多個(gè)高度研究的細(xì)胞生理學(xué)調(diào)節(jié)因子,例如基因MTOR,CLTC,TAF1和CREBBP。
但該簇還包含了DICER1,它催化microRNA的成熟,并且是最近地研究熱點(diǎn),在長(zhǎng)期缺乏對(duì)非蛋白質(zhì)介導(dǎo)的基因調(diào)控的關(guān)注之后,DICER1的發(fā)現(xiàn)被認(rèn)為是一個(gè)巨大的驚喜。 而且,這一簇還包含了兩個(gè)仍未被鑒定的大基因家族成員IPO9和ANKRD52。這種關(guān)注度地缺乏表明了,即使那些看起來(lái)很有前途特征的基因,大部分也可能被忽視。為了便于鑒定這些基因,該研究還提供了這些基因的列表(S8表)和在自定義基因集附近識(shí)別這些的圖譜(S9表)。還進(jìn)一步添加了另一個(gè)圖,它允許探測(cè)上述綜合措施的自定義基因集(S10表)。


表S8:可獲得的研究少于預(yù)期重要基因。與圖1A模型預(yù)測(cè)相比,在較少的出版物中出現(xiàn)的具有特征的基因,并具有圖4E所描述的三個(gè)有利的策略特性(強(qiáng)的功能丟失敏感性和GWAS關(guān)聯(lián)、實(shí)驗(yàn)可接近性、以及15維特征空間中基因的無(wú)脊椎動(dòng)物模型生物的存在)。 GWAS,全基因組關(guān)聯(lián)研究。


表S9:附近可獲得的研究少于預(yù)期的重要基因。在圖1B的15維特征空間中,S8表中的基因與其他各基因最接近的基因。


表S10:可獲得的重要性基因。具有強(qiáng)烈的功能喪失敏感性和GWAS關(guān)聯(lián),實(shí)驗(yàn)可接近性,以及基因在15維特征空間中無(wú)脊椎動(dòng)物模型生物體的存在的基因列表。全基因組關(guān)聯(lián)研究

Github中各個(gè)文件夾的作用:

access_science_data_v1_1_lite:用于訪問(wèn)科學(xué)數(shù)據(jù)的儲(chǔ)存庫(kù),該儲(chǔ)存庫(kù)包含了訪問(wèn)科學(xué)數(shù)據(jù)的函數(shù),但是這些函數(shù)不能處理這些科學(xué)數(shù)據(jù)。

geisen:用于收集和準(zhǔn)備有關(guān)生物學(xué)的各種公共信息的工具。該儲(chǔ)存庫(kù)可以下載公共數(shù)據(jù)并對(duì)其進(jìn)行整理,以進(jìn)一步分析。整理可能包含清理和重新格式化。

geisen_manual:支持手工收集生物信息的工具。

rbusa_main:與科學(xué)或生物學(xué)相關(guān)的文化數(shù)據(jù)的整理。

resci:包含針對(duì)單個(gè)圖形面板的高級(jí)分析

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容