人工智能時(shí)代的科學(xué)研究

最近幾年,以深度學(xué)習(xí)為代表的人工智能技術(shù)迎來了一次革命。目前,人工智能最為熱門的方向在圖像識別、自動(dòng)駕駛、語音識別等領(lǐng)域。和這些領(lǐng)域?qū)映霾桓F的明星初創(chuàng)公司相比,人工智能技術(shù)在科研領(lǐng)域的應(yīng)用則相對少有人關(guān)注。然而,在這一領(lǐng)域,其實(shí)是有不少非常有趣的研究成果,本文將嘗試進(jìn)行一些總結(jié)。

科研領(lǐng)域人工智能技術(shù)的應(yīng)用前景

科研可以說是人類探索未知的最前沿戰(zhàn)場,然而,和很多人所想象的不同的是,科研領(lǐng)域的生產(chǎn)力發(fā)展水平其實(shí)是相當(dāng)?shù)偷?。這一方面是由于科研領(lǐng)域眾多,研究方向分散,沒法規(guī)?;?;另一方面是作為科研主體的研究生們價(jià)格十分低廉,采用手工作坊模式比較具有性價(jià)比。

但是科研發(fā)展到今天,尋找更有效率的工具既是美好的期望也是刻不容緩的現(xiàn)實(shí)需求。這是因?yàn)樵诖蠹业牟恍腹嗨?,現(xiàn)在科研論文的產(chǎn)出速度已經(jīng)非常快了。即使是一個(gè)非常小眾的領(lǐng)域,一個(gè)人閱讀文獻(xiàn)的速度也很難跟上新文獻(xiàn)的產(chǎn)出速度。當(dāng)然,我們可以通過個(gè)人經(jīng)驗(yàn)篩選出其中有價(jià)值的那些,但是這就像手工作坊依賴?yán)蠋煾狄粯?,這樣抽象的經(jīng)驗(yàn)是否合理,能否傳承是一個(gè)大問題。

那么,科學(xué)研究的哪些流程可以做的更好一點(diǎn)呢?這里我們可以列舉一些:

  1. 檢索。我們通常的搜索方式是在各個(gè)搜索引擎的搜索框里輸出文字,獲得返回的網(wǎng)頁、圖片等信息。但是對于科研來說,除了文字之外,我們還希望能夠檢索公式、專有名詞、圖片等等。這些檢索內(nèi)容在通常的搜索引擎中很難獲得有效的結(jié)果。
  2. 引文網(wǎng)絡(luò)。對于一篇文獻(xiàn)來說,它引用的文獻(xiàn)和引用它的文獻(xiàn)都是很重要的參考信息。雖然很多出版商的網(wǎng)站提供了獲取文獻(xiàn)引文的選項(xiàng),但是文獻(xiàn)通常是以PDF的形式傳播,我們希望能直接從離線存儲(chǔ)的PDF文件中還原出它的引文信息。此外,如果能夠從一片文獻(xiàn)出發(fā),描繪出相關(guān)的引文網(wǎng)絡(luò),我們就能夠找到該領(lǐng)域的重要文獻(xiàn),非常有利于我們快速的掌握一個(gè)領(lǐng)域的核心信息。
  3. 知識記錄。一篇文獻(xiàn)的細(xì)節(jié)往往是非常之多的,一般情況下,我們只能通過在PDF文件或者引文管理軟件中標(biāo)注來記錄重要的信息,可是,這樣的記錄方式顯然是不夠有效的,不僅很難講零散記錄的信息集中整理,時(shí)間一長也很容易遺忘當(dāng)初標(biāo)記的初衷。

問題的根源

為什們會(huì)有這些問題呢?究其根本,這是因?yàn)楝F(xiàn)在的科研出版體系還停留在紙質(zhì)時(shí)代,然而我們的工作方式早已邁入了互聯(lián)網(wǎng)時(shí)代。令人悲觀的是,這些問題雖然引起了一些人的關(guān)注,但是可能很難在短期內(nèi)解決。因?yàn)楣ぷ餍实牡拖潞馁M(fèi)的只是研究生們的青春,而這個(gè)行業(yè)并不缺源源不斷涌入的勤勞的學(xué)生。而且,科研是一個(gè)壟斷行業(yè),幾大國際出版商把持了絕對的話語權(quán),如果他們沒有變革的動(dòng)力,行業(yè)本身并不會(huì)發(fā)生根本的變化。

但是對于學(xué)生們來說,時(shí)間是寶貴的財(cái)富。工作效率是贏得時(shí)間的根本手段,因此我們非常有必要關(guān)注一些能提高效率的工具。這里,我將列舉一些最新的工具,他們也許能在你的日常工作中派上用場。需要注意的是,這里的很多工具具有實(shí)驗(yàn)性質(zhì),他們的功能可能還相當(dāng)不完善,因此需要你自己使用之后來判斷它的價(jià)值。

科研工具的搜索引擎——LabWorm

LabWorm是一個(gè)用來搜索科研工具的搜索引擎,這里有著各種五花八門的科研相關(guān)工具。

檢索工具

更具深度的文獻(xiàn)搜索引擎

AMiner是由清華大學(xué)的團(tuán)隊(duì)開發(fā)的文獻(xiàn)檢索引擎,相比傳統(tǒng)的文獻(xiàn)檢索引擎,它提供了更多更具深度的內(nèi)容,比如,按照h-index排序檢索結(jié)果,給出作者的常見合作者,文章或者領(lǐng)域的歷年引用趨勢等等,同時(shí)它還提供一定的社交功能,可以對作者投票或者評論。可以說AMiner代表了文獻(xiàn)搜索引擎的未來。但是它主要側(cè)重計(jì)算機(jī)領(lǐng)域的文獻(xiàn),其它領(lǐng)域的文獻(xiàn)信息不是非常完善。

用公式來搜索維基百科

Koala能夠讓你通過輸入Latex表達(dá)式形式的公式來檢索維基百科,它會(huì)自動(dòng)分析相近形式的公式,給出相關(guān)維基百科條目的鏈接。

用公式來搜索網(wǎng)頁

uniquation,如果你希望用公式來搜索所有網(wǎng)頁結(jié)果,可以試試這個(gè),同樣需要以Latex形式輸入公式,也會(huì)給出相近形式的公式。如果你對Latex表達(dá)式的寫法不熟悉,可以搜索一些在線的Latex公式轉(zhuǎn)換器。

用圖片來搜索論文

Viziometrics是一個(gè)完全基于圖片的搜索引擎。其實(shí)論實(shí)用性,它估計(jì)比不上谷歌圖片搜索。它是直接提取論文中的圖片和圖片標(biāo)題來生成相關(guān)搜索項(xiàng),是一個(gè)非常有意思的工具,雖然打開速度很慢。

引文相關(guān)工具

自動(dòng)提取PDF中的文獻(xiàn)信息

cermine是一個(gè)開源項(xiàng)目,它提供一個(gè)在線工具,能夠?qū)⒛闵蟼鞯腜DF格式的文獻(xiàn)中的關(guān)鍵信息提取出來,這些信息包括作者、單位、摘要、參考文獻(xiàn)等等。

引用文獻(xiàn)的逆向格式化

CitationFinder是一個(gè)相當(dāng)神奇的實(shí)用工具。我們知道,文獻(xiàn)管理軟件可以將數(shù)據(jù)庫導(dǎo)出成各種專有格式,這些格式可以轉(zhuǎn)換成txt??墒牵催^來把TXT還原成文獻(xiàn)管理軟件能夠識別的格式卻是一個(gè)難題。這個(gè)網(wǎng)站可以將大段TXT格式的參考文獻(xiàn)列表轉(zhuǎn)換成常用的文獻(xiàn)管理軟件能夠識別的格式,正確率相當(dāng)高。

公式自動(dòng)識別

InftyReader是一個(gè)OCR軟件,它的強(qiáng)大之處在于它能夠?qū)df文件中的公式轉(zhuǎn)換成Word或者Latex格式,準(zhǔn)確率是目前最高的。

引文網(wǎng)絡(luò)分析

理論上來說,引文網(wǎng)絡(luò)分析是科學(xué)研究中的重要內(nèi)容,但是實(shí)際上卻很少有人去做這樣的事情。原因是多方面的,一是:引文網(wǎng)絡(luò)本身涉及的方面非常多,比如作者之間的引用關(guān)系,期刊權(quán)重的排序等等;二是,一旦涉及到較深的層次,引文的數(shù)量將會(huì)非常龐大,導(dǎo)致獲取、分析和展示文獻(xiàn)信息都將變得非常緩慢;三是,如何將復(fù)雜的網(wǎng)絡(luò)清晰的展現(xiàn)出來,并從中發(fā)掘有用的信息也是一個(gè)難題。所以,雖然現(xiàn)在已經(jīng)有一些工具能夠?qū)崿F(xiàn)引文網(wǎng)絡(luò)的分析,但是學(xué)習(xí)成本相當(dāng)高,普及率很低。目前,常用的引文分析軟件包括:CiteSpace、SCI2和HistCite,有興趣的人自行嘗試。需要注意的是,官方的HistCite版本有一些Bug,如果需要可以用這里的版本。

科研知識管理

用思維導(dǎo)圖管理文獻(xiàn)

如果將數(shù)量繁多的文獻(xiàn)中有用的信息組織起來是一個(gè)難題,將文獻(xiàn)以思維導(dǎo)圖的形式組織起來是一個(gè)可供嘗試的方向。Docear就是為這一目的而生的軟件。它的功能比較完善,但是使用起來有些復(fù)雜。

與PDF閱讀器集成的文獻(xiàn)管理軟件

與思維導(dǎo)圖這一本身并不太普及的形式相比,直接在PDF文件上標(biāo)注信息則實(shí)用的多,然而,如何將標(biāo)注的信息組織起來呢?Mac和iOS上有一款國人開發(fā)的軟件MarginNote就是為這一目的量身打造,它不僅可以將PDF文件中的信息用思維導(dǎo)圖組織起來,還可以生成記憶卡片,用作背誦之用,因而廣受醫(yī)學(xué)、法律專業(yè)的學(xué)生歡迎。遺憾的是,這一軟件并沒有Windows版本。

Windows用戶可以使用文獻(xiàn)管理軟件Citavi,在提供常用的文獻(xiàn)管理,Word引文插入功能之外,它還提供了一個(gè)Adobe PDF 閱讀器的插件,可以直接在PDF文件上標(biāo)注,這些標(biāo)注的信息可以單獨(dú)組織管理,也可以導(dǎo)出到思維導(dǎo)圖軟件。這個(gè)軟件的另外一個(gè)亮點(diǎn)是,在Word中不僅可以插入文獻(xiàn)庫中的文獻(xiàn),也可以檢索插入標(biāo)注的文獻(xiàn)中的信息。

除了文獻(xiàn)管理軟件之外,還有一類更專業(yè)的文件標(biāo)注工具,學(xué)名叫質(zhì)性分析軟件,在心理學(xué)、社會(huì)學(xué)等學(xué)科比較常用。這類軟件能夠標(biāo)注的文件類型更為廣泛,以常用的atlas.ti軟件為類,它除了可以標(biāo)記PDF、Word之外,還可以標(biāo)記音頻、視頻,標(biāo)注的信息以節(jié)點(diǎn)方式組織,可以注釋、組合、鏈接。這類軟件適合分析含有大量文本、音視頻數(shù)據(jù),需要提取抽象信息的項(xiàng)目。

幻想未來

科學(xué)研究有著理論上的巨大價(jià)值,但是對于身在其中的從業(yè)者,個(gè)中甘苦,唯有己知。本文介紹了很多具有實(shí)驗(yàn)性質(zhì)的工具,它們中到底哪些能夠真的普及,尚未可知。趁著人工智能的東風(fēng),不妨讓我們暢想一下科學(xué)研究的未來,想象一下,人工智能在科學(xué)研究中有哪些應(yīng)用前景。

  1. 自動(dòng)提取PDF格式文獻(xiàn)的核心信息,識別其中的各個(gè)區(qū)域,生成結(jié)構(gòu)化文件。這涉及到版面識別,文本OCR等方面?,F(xiàn)在已經(jīng)有一些相對成熟的工作。
  2. 內(nèi)容感知檢索。將PDF文件中的公式、專有名字、圖片加入針對性的檢索選項(xiàng),可以一鍵搜索相關(guān)內(nèi)容。
  3. 學(xué)術(shù)專用的網(wǎng)絡(luò)爬蟲。針對作者、單位,通過網(wǎng)絡(luò)爬蟲搜索到課題組主頁、作者職稱、單位排名等信息。
  4. 試劑、儀器識別。針對文獻(xiàn)中提到的試劑、儀器信息,自動(dòng)給出相應(yīng)的購買鏈接和參考價(jià)格。
  5. 合作式的標(biāo)注和社交化評論。不同地點(diǎn)的作者可以共同標(biāo)記同一篇文獻(xiàn),并且可以相互查閱。同時(shí)可以建立一個(gè)問答平臺,作者和讀者可以直接交流。讀者可以點(diǎn)贊,也可以質(zhì)疑。
  6. 引文網(wǎng)絡(luò)生成和文獻(xiàn)推薦。自動(dòng)生成文獻(xiàn)的引用和被引網(wǎng)絡(luò),同時(shí)根據(jù)文獻(xiàn)的關(guān)鍵詞和相關(guān)文獻(xiàn),自動(dòng)推薦相關(guān)論文。
  7. 知識鏈接。對于文獻(xiàn)中提到的知識,可以自動(dòng)鏈接教科書中對應(yīng)的內(nèi)容。
  8. 語義分析。自動(dòng)分析文獻(xiàn)中語句含義,歸納提取關(guān)鍵信息,生成邏輯關(guān)系圖。
  9. 語言翻譯。將英文自動(dòng)翻譯成其他語言。
  10. 鏈接企業(yè)。根據(jù)文獻(xiàn)信息,鏈接到關(guān)注或者從事相關(guān)技術(shù)的公司。
  11. 團(tuán)隊(duì)管理和流程控制。 引入企業(yè)中的團(tuán)隊(duì)管理體系和流程化工作方式,便于課題組績效考核和效率控制。
    。。。。
    可以想象的地方還有很多,但是要想完全實(shí)現(xiàn)上面的設(shè)想,恐怕需要一個(gè)堪比BAT規(guī)模的企業(yè)。
    但是再完善的工具也只是工具,最核心的仍然是人類自身的創(chuàng)造力。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 街上有一個(gè)年過花甲的老人,手上拿著一個(gè)白色的洋瓷碗,在人來人往,車如流水的地方端著洋瓷碗,見人就說:“行行好吧?!?..
    孤星一城閱讀 322評論 0 0
  • 伊麗莎白與達(dá)西的愛情中就像書名那樣充斥著傲慢與偏見,達(dá)西的傲慢,伊麗莎的偏見。我們的生活中并不總是遇到簡那樣善良或...
    高玉慧閱讀 482評論 1 6
  • 現(xiàn)在是2017年7月7日12:51,據(jù)說我是中午一點(diǎn)多出生的,那么,再過十幾分鐘,我就滿19歲了。一字開頭的最后一...
    肆玖兮閱讀 537評論 0 0
  • 這幾日,照鏡子看著因便秘而新出爐的小痘痘尤其郁悶。每天念念叨叨。有一日繼續(xù)煩叨,母親在一旁接上茬:“讓你每天...
    Kilimanjaroh閱讀 292評論 0 0

友情鏈接更多精彩內(nèi)容