湯森路透是如何玩轉(zhuǎn)轉(zhuǎn)化醫(yī)學(xué)大數(shù)據(jù)的

湯森路透(Thomson Reuters,圖1)于2008年4月17日成立,是由加拿大湯姆森公司(Thomson Corporation)與英國路透集團(tuán)(Reuters Group)合并組成,總部設(shè)在美國紐約。

圖1. 湯森路透公司標(biāo)志

提起湯森路透,很多人第一反應(yīng)是這是一家信息和媒體公司, 大多是由于其旗下大名鼎鼎的的路透社所致。湯森路透的業(yè)務(wù)主要集中在金融、法律、稅務(wù)、會計、知識產(chǎn)權(quán)與科技等領(lǐng)域。對于它在科技領(lǐng)域的影響,可能最著名的就是每年它會搞個論文引用率影響力之類的排行榜了。每年湯森路透都會利用其Web of Knowledge中的數(shù)據(jù)來分析和預(yù)測最有影響力的研究人員,根據(jù)其發(fā)表的研究成果的總被引頻次來預(yù)測將來的諾貝爾獎得主。對于目前火熱的生物醫(yī)學(xué)信息,你可能會很好奇,這家搞情報和新聞媒體的公司也會提供這方面的情報和分析服務(wù)嗎?實際上,湯森路透在生物醫(yī)學(xué)大數(shù)據(jù)方面早已經(jīng)是一個頂級的玩家。它利用其在情報信息領(lǐng)域的優(yōu)勢,發(fā)展出了一套獨特而又強(qiáng)大,且種類豐富的信息平臺和分析管線。不同的信息產(chǎn)品涵蓋了從基因到藥物幾乎整個下游的信息和分析服務(wù),為客戶的研發(fā)決策提供情報分析和理論依據(jù)。到目前,湯森路透以近乎壟斷的地位,已經(jīng)成為各大制藥公司研發(fā)中心的主要信息提供商。

湯森路透作為一家媒體和信息服務(wù)起家的公司,一不做基礎(chǔ)實驗,二不給病人看病,卻能獲得跟各大制藥廠商的合作資格,是什么讓它在這方面做得如此出色呢?筆者認(rèn)為這源于它在情報和信息方面的優(yōu)勢。湯森路透將人類已有的知識進(jìn)行收集和總結(jié),然后反過來應(yīng)用到科研醫(yī)療和制藥研發(fā)上來。這便是成功地將生物醫(yī)學(xué)界的學(xué)術(shù)知識應(yīng)用到工業(yè)界開發(fā)上的例子,即轉(zhuǎn)化醫(yī)學(xué)的典型代表。以下讓我們來看看它是如何成為轉(zhuǎn)化醫(yī)學(xué)大數(shù)據(jù)的專業(yè)玩家和領(lǐng)先者的。

首先筆者認(rèn)為,一個好的生物信息和大數(shù)據(jù)公司,必須要做好兩點:一是具有專業(yè)的大數(shù)據(jù)基礎(chǔ)和平臺,這包括有足夠多且有效的情報和數(shù)據(jù)來源,并且能夠應(yīng)對各類數(shù)據(jù)的采集、整合、標(biāo)準(zhǔn)化以及質(zhì)量保證。此外還涉及到大數(shù)據(jù)庫平臺的架構(gòu)設(shè)計、數(shù)據(jù)查詢和可視化產(chǎn)品的開發(fā)等諸多挑戰(zhàn)。另外一個便是要有足夠完善的數(shù)據(jù)分析和解決方案。例如經(jīng)典的數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等算法,并且能夠供給客戶方便使用(圖2)。

圖2. 好的大數(shù)據(jù)平臺包括各種高質(zhì)量的數(shù)據(jù)來源,高質(zhì)量的整合以及經(jīng)典的數(shù)據(jù)分析方法

對于前者,很多公司采用對跟醫(yī)院或研究機(jī)構(gòu)合作獲得數(shù)據(jù),或者直接對用戶進(jìn)行采集完成,如Foundation Medicine公司,23andme公司和蘋果公司等等。不同于這些數(shù)據(jù)來源模式,湯森路透對于各類大數(shù)據(jù)的收集和累積,一般并不直接從實驗或病人身上采集獲得。正所謂專業(yè)的人做專業(yè)的事,湯森路透有其自身獨特的優(yōu)勢,它的數(shù)據(jù)來源于其傳統(tǒng)深厚的信息和情報積淀。例如,湯森路透建立了一個極其強(qiáng)大的情報網(wǎng)絡(luò)和信息來源渠道。除了各類新聞媒體外,它還是各個文獻(xiàn)數(shù)據(jù)庫,知識產(chǎn)權(quán)局,專利局的合作者。因此它能獲得各種文檔和情報的第一手資料。這些資料除了各種科技文獻(xiàn),還包括藥物報告,臨床試驗報告,專利報告,新聞報告,會議報告等。當(dāng)然有了這些原始文檔之后還遠(yuǎn)遠(yuǎn)不夠,還必須把文檔中有用的信息提取出來整合到數(shù)據(jù)庫中。這是個比較耗費精力和資源的工作,沒有太多的捷徑可走。

對于這個挑戰(zhàn)湯森路透做了很多有意義的工作。一方面,湯森路透邀請一批專業(yè)的有生物和醫(yī)學(xué)背景人士進(jìn)行文檔的研讀,比如文獻(xiàn)中提到的基因、蛋白、疾病和藥物的關(guān)系,這批科學(xué)家會利用他們的專業(yè)的背景判斷文獻(xiàn)中所表達(dá)的含義,比如X藥物能治療Y,基因A能影響基因B的表達(dá)等,經(jīng)過確認(rèn)后把這些知識錄入到數(shù)據(jù)庫,從而保證數(shù)據(jù)的可靠性。另外一方面,湯森路透也使用自然語言處理技術(shù)來從文檔中提取信息。如此便可以加速文檔知識的錄入,從海量的文檔中快速提取到大量的有用知識。當(dāng)然用人工智能處理出來的數(shù)據(jù)會有其局限性,對于不同的處理方法來源的數(shù)據(jù),湯森路透會標(biāo)注其可靠程度,以供研究者自行選擇使用。

湯森路透為什么要通過這種方法建立起這樣的大數(shù)據(jù)庫呢?筆者以為,現(xiàn)在的生物醫(yī)學(xué)的研究已經(jīng)進(jìn)入一個矛盾和瓶頸狀態(tài),雖然現(xiàn)在每30秒鐘就有一篇新論文發(fā)表,但總體在轉(zhuǎn)化醫(yī)學(xué)和新治療方法的進(jìn)展上還是很緩慢,一部分原因是由于很多文章都是集中在某幾個基因或某一兩個疾病的研究,如此便形成了一個個知識的孤島,并不能對生物系統(tǒng)的研究構(gòu)建一個總體畫面,以至于一些有效的知識遲遲得不到發(fā)現(xiàn)。然而生物體是如此復(fù)雜,很多疾病機(jī)制和治療手段實際上不是孤立的,它們之間存在千絲萬縷的關(guān)系。兩個看似毫不相關(guān)的東西很可能就通過某種方式聯(lián)系著,如果發(fā)現(xiàn)這種聯(lián)系,就會產(chǎn)生質(zhì)的飛躍,為治療疾病發(fā)展新藥提供新思路(圖3)。例如,若不是某位生物信息分析師不辭辛勞花費大量時間搜索看上去并不相關(guān)的海量技術(shù)文獻(xiàn),研究人員或許永遠(yuǎn)不會去測試魚油能緩解一種循環(huán)系統(tǒng)疾病——雷諾綜合征的可能性。


圖3. 轉(zhuǎn)化醫(yī)學(xué)大數(shù)據(jù)的一大挑戰(zhàn)便是如何將碎片化的知識整合連接起來,從而發(fā)現(xiàn)隱含的信息

可惜并不是每種發(fā)現(xiàn)都能夠這樣的方式去獲得。沒有一種標(biāo)準(zhǔn)化,集成化的可用知識平臺,尋找這些關(guān)聯(lián)就變的像是大海撈針一樣困難。但如果能把這些已知的知識碎片全部整合起來,再加以合適的數(shù)據(jù)挖掘手段,那么尋找隱藏的信息就變得容易許多,這會極大的加速疾病的研究和新藥的開發(fā)。因此湯森路透所做的這些工作,便是從人類已有的知識庫中提取精華知識做成大數(shù)據(jù)平臺,提供一個可供大數(shù)據(jù)科學(xué)家和生物信息科學(xué)家盡情發(fā)揮的舞臺。

如果說前者的數(shù)據(jù)架構(gòu)是基礎(chǔ),那后者完善的數(shù)據(jù)分析和解決方案就是實現(xiàn)手段了,這是數(shù)據(jù)到知識的關(guān)鍵一環(huán)。如同做菜一樣,采集到了原材料食材之后,還需要有經(jīng)典的烹飪方法才能做出美味的菜肴。對于“烹飪”方法的選用,這也是一項有趣的挑戰(zhàn)?,F(xiàn)在的數(shù)據(jù)種類是如此繁雜,而每年新發(fā)表的科學(xué)計算方法又是如此之多,如何根據(jù)不同研究目的去選擇最有效最合適的方法對這些數(shù)據(jù)進(jìn)行挖掘呢?這方面不要忘記湯森路透在文獻(xiàn)和情報學(xué)中的優(yōu)勢,它當(dāng)然知道哪些論文被引用最多且影響最大的,甚至通過這些信息還可以預(yù)測出未來方法的趨勢和熱點。聯(lián)想到它能夠根據(jù)它的情報來預(yù)測未來的諾貝爾獎得主,據(jù)此能挑選出經(jīng)典的挖掘方法也不在話下了。

通過對科技文獻(xiàn)影響力的查閱以及它旗下或跟客戶的生物信息專家的合作,他們篩選出最為先進(jìn)和經(jīng)典的方法納入分析管線,為客戶提供挖掘分析服務(wù)。例如,隨著組學(xué)數(shù)據(jù)的積累及系統(tǒng)生物學(xué)的方法論發(fā)展,運用聚類或分類等數(shù)據(jù)挖掘算法可以在不同組學(xué)層面(包括基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、功能基因組等)進(jìn)行挖掘應(yīng)用。研究者還可將生物學(xué)網(wǎng)絡(luò)與藥物作用網(wǎng)絡(luò)整合,利用網(wǎng)絡(luò)拓?fù)渌惴ǚ治鏊幬镌诰W(wǎng)絡(luò)中與節(jié)點或網(wǎng)絡(luò)模塊的關(guān)系,這使得藥物發(fā)現(xiàn)由傳統(tǒng)的尋找單一靶點轉(zhuǎn)向綜合網(wǎng)絡(luò)分析(圖4)。根據(jù)此,很多經(jīng)典的網(wǎng)絡(luò)拓?fù)鋵W(xué)的算法便引入分析流程中。某些經(jīng)典算法原先用于分析社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)絡(luò)的模式識別,現(xiàn)在被應(yīng)用于生物醫(yī)學(xué)網(wǎng)絡(luò)的分析來幫助科學(xué)家尋找出有效的轉(zhuǎn)化醫(yī)學(xué)知識。各種交叉學(xué)科知識的融合在一塊產(chǎn)生新的火花,原來轉(zhuǎn)化信息學(xué)還可以這么玩!

圖4. 各種網(wǎng)絡(luò)算法已經(jīng)成為挖掘生物醫(yī)學(xué)大數(shù)據(jù)的重要手段(來源:Diaz-Beltran et al., Behav. Sci. 2013)

湯森路透在大數(shù)據(jù)分析平臺的一個代表產(chǎn)品便是MetaCore。MetaCore上的數(shù)據(jù)內(nèi)容均經(jīng)過專業(yè)人員審閱,并集成數(shù)據(jù)挖掘、系統(tǒng)生物學(xué)算法和可視化工具,可用于芯片、代謝、蛋白質(zhì)組學(xué)、siRNA、microRNA和篩選工作的數(shù)據(jù)進(jìn)行功能性分析。例如它可提供基因、蛋白、轉(zhuǎn)錄本或化合物列表,找出與之相關(guān)的重要通路圖、網(wǎng)絡(luò)關(guān)系、疾病關(guān)系;還可以結(jié)合通路圖和網(wǎng)絡(luò)關(guān)系,分析高通量篩選試驗數(shù)據(jù);在同一個通路和網(wǎng)絡(luò)圖上,展示/交叉驗證不同類型的分子數(shù)據(jù)等。圖5顯示MetaCore一個比較有趣的應(yīng)用:科學(xué)家將試驗所得的數(shù)據(jù)(如基因表達(dá)變化)放入到MetaCore中做基因網(wǎng)絡(luò)和通路的富集測試,并將結(jié)果可視化。這樣便能非常直觀地觀察到某組基因是如何相互關(guān)聯(lián)影響的,哪些基因在通路中對其他基因的表達(dá)起關(guān)鍵作用,從而幫助科學(xué)家們更好的尋找藥物靶點。

圖5. 利用MetaCore中的Pathway Map尋找藥物靶點(來源:Stephens et al., J. Cancer 2012)

湯森路透另外幾個很有特色的產(chǎn)品是Cortellis和Integrity。Cortellis為湯森路透的藥物情報平臺。這個平臺收錄各類藥物開發(fā)的當(dāng)前及歷史狀況,各種信息包括從參與藥物發(fā)現(xiàn)及開發(fā)的公司、專利保護(hù)、化學(xué)結(jié)構(gòu)、基于靶標(biāo)的作用機(jī)制及在研適應(yīng)癥,乃至到研發(fā)階段、臨床前數(shù)據(jù)及臨床試驗(包括進(jìn)行中和已完成的臨床試驗)等。此類信息非常適合于制藥公司負(fù)責(zé)制定研究戰(zhàn)略的高層人員,從這些信息中使用者可以獲得藥物開發(fā)最新動態(tài),發(fā)現(xiàn)新的藥品開發(fā)機(jī)遇,據(jù)此制定領(lǐng)先對手的商業(yè)決策。

如果說Cortellis是為醫(yī)藥工業(yè)項目決策者和分析人員定制的藥物情報平臺,Integrity則是湯森路透的藥物研發(fā)信息平臺,是從科學(xué)家的角度為研究人員提供可靠、翔實、整合的藥物研發(fā)信息平臺。平臺收錄有海量的生物活性的化藥和生物藥、藥理\毒理實驗數(shù)據(jù)、臨床實驗方案結(jié)果、藥物靶標(biāo)信息、專利以及文獻(xiàn)會議記錄等。Integrity對這些豐富的數(shù)據(jù)資源做了全面的標(biāo)引和強(qiáng)大的相互鏈接功能,科研人員只需要通過一個結(jié)構(gòu)式、一個靶標(biāo)、一條專利或一個臨床試驗,就能獲得與其相關(guān)的所有藥物研發(fā)信息。此外,湯森路透還提供很多有特色的信息服務(wù)產(chǎn)品,在此不一一列出。

信息時代,情報和數(shù)據(jù)的威力是巨大的。高質(zhì)量的大數(shù)據(jù)和分析平臺,再加上一群才華橫溢的科學(xué)家,便可產(chǎn)生如虎添翼的效果,最終產(chǎn)生造福人類的新發(fā)現(xiàn)。湯森路透在這方面的工作,為我們在如何玩轉(zhuǎn)轉(zhuǎn)化醫(yī)學(xué)大數(shù)據(jù)提供了一個非常優(yōu)秀的例子。在生物醫(yī)學(xué)信息知識爆發(fā)的背景下,轉(zhuǎn)化醫(yī)學(xué)大數(shù)據(jù)的分析正在成為一項越來越有趣的工作。如何利用人類已有的線索,去解開復(fù)雜的新知識,這正是大數(shù)據(jù)科學(xué)家所面臨的最大挑戰(zhàn)。在過去有這么一群科學(xué)家--圖靈和他的小組利用他們的才華和收集到的情報,破解了德軍的密碼。而現(xiàn)在這群生物醫(yī)學(xué)信息科學(xué)家現(xiàn)在所在做的,便是在利用大數(shù)據(jù)破解上帝的密碼。

作者:朱成博士,現(xiàn)為美國健贊(賽諾菲)公司信息研究科學(xué)家,文章所涉內(nèi)容均代表個人觀點。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容