CiteSpace入門教程

在科研工作中,我們常常需要面對海量的文獻,如何在這些文獻當中找出值得精讀、細讀的關鍵文獻,挖掘學科前沿,找到研究熱點就成為了開展研究之前首先需要解決的問題。CiteSpace作為一款優(yōu)秀的文獻計量學軟件,能夠將文獻之間的關系以科學知識圖譜的方式可視化的展現在操作者面前,既能幫助我們梳理過去的研究軌跡,也能使得我們對未來的研究前景有一個大概的認識。

CiteSpace 又翻譯為“引文空間”,是一款著眼于分析科學分析中蘊含的潛在知識,是在科學計量學、數據可視化背景下逐漸發(fā)展起來的引文可視化分析軟件。由于是通過可視化的手段來呈現科學知識的結構、規(guī)律和分布情況,因此也將通過此類方法分析得到的可視化圖形稱為“科學知識圖譜”。摘自 李杰.CiteSpace中文版指南

正如科學計量學界的權威專家劉則淵教授對CiteSpace知識圖譜形態(tài)的概括一樣,“一圖展春秋,一覽無余;一圖勝萬言,一目了然”。近年來,使用CiteSpace開展的研究、發(fā)表的論文呈現不斷上升的趨勢。根據中國知網的統計,2017年相關論文已經達到388篇;到2018年預測將達到423篇。

使用CiteSpace開展的研究、發(fā)表的論文數目變化情況

在如此多同質化的文章面前,我們應當如何做好自己的研究才能夠不落入俗套,進而脫穎而出呢?我認為,在深入的把握CiteSpace的原理的基礎上,熟稔相關操作背后的含義,對CiteSpace軟件的應用達到游刃有余,這樣才能知道自己的研究需要什么,做到“知己”。同時了解相關文章的研究套路,清晰他們的研究內容和研究思路,取其精華,規(guī)避其錯誤,做到“知彼”。下面根據我個人的一些學習的體會和實際使用的情況對CiteSpace使用過程來跟大家做一個基礎性的介紹。

一、CiteSpace的下載與界面介紹

訪問http://cluster.ischool.drexel.edu/~cchen/citespace/download/下載CiteSpace,一般下載最新版。當前(2018年10月14日)最新版為5.3.R4,新版本在原來版本的基礎上增加了引文級聯引用功能。

使用CiteSpace需要先安裝JAVA 8,安裝教程參考jdk 8下載和安裝步驟

各個版本的下載列表

下載完成后解壓,打開StartCiteSpace_Windows.bat。一般選擇英文。

進入下一個界面,提醒使用者在使用這個軟件開展研究的發(fā)表論文的時候,別忘了把軟件開發(fā)者的論文引用上,不同意就用不了,那我們當然選擇同意。

CiteSpace的功能區(qū)域很質樸,分為執(zhí)行操作區(qū)、時間選擇區(qū)、文本處理功能區(qū)和網絡配置功能區(qū)等。在隨后的論述中,再對這些功能區(qū)進行逐一展開。

二、CiteSpace的數據來源與下載:分析的原料在哪里

使用CiteSpace分析某一主題的研究歷史與研究前沿,第一步就是要從文獻數據庫上下載到一定數量的文獻信息。外文文獻信息一般在web of science(WoS)上下載得到,中文文獻信息一般在中國知網(CNKI)上下載。CiteSpace是基于WoS的數據格式進行開發(fā)的,可以根據下載得到的數據進行合作網絡分析、共現分析和共被引分析,在非WoS數據庫下載得到的數據都需要先轉化為WoS的數據格式,根據相應數據庫的數據維度各有其相對應的適用范圍。就數據庫的深度看,外文數據庫我們一般使用WoS,中文數據庫一般使用CNKI。

另外,中文的文獻數據庫還有CSSCI數據庫、CSCD數據庫等,外文的文獻數據庫還包括Scopus數據庫、Derwent專利數據和其他專業(yè)領域的數據庫等,下載方法參考《CiteSpace:科技文本挖掘及可視化》第2講。

CiteSpace可以處理的數據源及可用功能

在數據檢索時,一般有兩種檢索策略,分別是:

  1. 按照關鍵詞檢索
  2. 按照期刊檢索

我們以按照關鍵詞檢索為例,說明如何從文獻數據庫中,下載得到我們所需要的文獻數據。

1、在WoS上下載數據

在WoS上下載數據,訪問WoS的官網http://apps.webofknowledge.com。操作的第一步是登錄,假如沒有賬號,需要先行注冊一個。沒有登錄的話,是無法下載數據的。

以關鍵詞“學習成果評價”為例,鍵入其英文“l(fā)earning outcome assessment”,數據庫選擇“Web of Science核心合集”,檢索類型選擇“主題”,時間跨度選擇“所有年份”。我所在的學校購買到的數據庫是從1985年開始的,時間跨度可能對有些朋友而言不夠長。當前國內購買WoS數據庫跨度最長的地方是中科院文獻情報中心,是從20世紀初期就開始的,有需要的朋友可以到那里進行數據下載。

得到如下頁面。從頁面中可以看出,該主題詞下的索引結果有10054條。下一步,需要對檢索結果進行精煉。

文獻類型選擇“文章”,點擊精煉。得到的最終檢索結果為7050條,這些文獻數據使我們最終想要的。

隨后,滑到底部,將記錄改成每頁顯示50條。

回到頂部,按照下圖步驟,分別點擊“選擇頁面”,“添加到標記結果列表”,就完成了這一頁面的數據添加。最后點擊“下一頁”,循環(huán)這個過程。WoS最多支持500條數據保存一次。

在標記完500條數據后,選擇“保存為其他文件格式”。

隨后,記錄內容選擇“全紀錄與引用的參考文獻”,文件格式選擇“純文本”,點擊“發(fā)送”,就可以得到剛才我們標記過的500條文獻信息了。

下載得到的內容包括論文標題、作者、資助基金、關鍵詞、來源期刊、所屬領域、論文摘要、參考文獻等等。對余下文獻信息做相同的操作,即可以得到所需要的數據全集。

Tips

  • 關鍵詞的翻譯,例如“學習成果評價”,找出幾篇以“學習成果評價”為關鍵詞的引用率較高的文獻,中外比較類(例如比較教育學)的研究最好。參考其下的英文對照翻譯,綜合選擇即可以得到我們需要的英文關鍵詞。
  • 查看相關數據時,最好時候Notepad++、sublimetext等編輯器。格式更加醒目、清晰。
2、在CNKI上下載數據

在CNKI上,同理,訪問www.cnki.net,鍵入檢索詞“學習成果評價”,每頁顯示選擇“50”,勾選“全部選中”按鈕,點擊到下一頁,同樣以500條數據為一次下載。

在選擇完畢后,點擊“導出/參考文獻”。

選擇Refworks,點擊“導出”,就完成了本次下載。

得到的數據維度比WoS得到的數據維度要少一下,僅包括作者、標題、來源期刊、關鍵詞、摘要等。對余下數據做同樣的操作,就可以得到中文的數據集。

在得到數據集后,需要將這些數據集轉化為CiteSpace可以識別、讀取的數據格式。參考如下tips即可完成轉換。

Tips:

  • CiteSpace自帶有數據轉換的功能,但不太好用,容易出現一些問題。推薦下載使用格式轉換器。轉換器下載鏈接
  • 轉換后會將原本集合在一個txt文件中的數據打散,生成一條數據一個txt的形式,txt文件過多會極大的降低了CiteSpace的運算速度。為了解決這個問題,打開命令行工具(cmd),輸入下面的代碼,將這些TXT合并成一個。 引自:將多個txt文件合并成一個
cd F:\study\citespace\data(改成自己的數據存儲路徑)
type *.txt > allData.txt

二、CiteSpace的分析原理:我們如何挖掘現有數據

在獲取特定主題的數據后,自然而言我們會冒出一個問題:“我們拿這些數據用來做什么?”CiteSpace的最大的作用,就是能夠在這些枯燥乏味、機械重復的數據中挖掘出我們想要的東西。那么,這是依靠什么原理實現的呢?

1、共被引分析

在了解共被引分析前我們需要對引文分析有個概念,引文就是論文后面的參考文獻。有學者認為,引文分析就是對科學期刊、論文、作者等分析對象的引用和被引用現象進行分析,以揭示其數量特征和內在規(guī)律的一種信息計量研究方法。在了解引文分析法之前我們首先要知道,學者為什么要在其論文中印證前人的研究成果。

為什么要引證:

  1. 為了對先驅者表示崇敬。
  2. 為了對相關工作表示贊賞,同時表示對同行的尊敬。
  3. 為了對方法或儀器設備表示認同。
  4. 為了向讀者提供閱讀背景。
  5. 為了糾正自己的工作。
  6. 為了糾正別人的工作。
  7. 為了批評前人的工作。
  8. 為了支持某種論斷。
  9. 為了提醒人們注意即將發(fā)表的工作。
  10. 為了找到那些傳播不廣、索引很差又未被引證的文獻而提供線索。
  11. 為了驗證科學事實和數據,例如援引物理常數等。
  12. 為了鑒別曾討論過某個思想或概念的原始文獻。
  13. 為了鑒別某個時代的某個概念或術語的原始文獻或其他著作。
  14. 為了對別人的工作或思想提出反證-否定性論斷。
  15. 為了與別人論爭某個觀點的優(yōu)先權。

引自:引證論文的理由

從上面這么多引用原因我們不難看出,被引文獻與當前文獻在內容上是相關的。論文引用其他論文的行為可以看做是知識從不同的研究主題流動到當前所進行的研究,是知識單元從游離狀態(tài)到重組產生新知識的過程。發(fā)表的論文被其他論文引用是這個過程的持續(xù)。由于這種引證行為的客觀存在,隨著科學研究的不斷推進,引文網絡也就自然而然的形成了。一篇特定的論文,引用的文獻稱為引用文獻(即后向引證關系),這篇論文發(fā)表后,引用這篇文章的論文稱為施引文獻(前向引證關系)。在引證網絡的基礎上,延伸出兩個重要的概念,一個是共被引分析,另一個是耦合分析。共被引分析挖掘參考文獻之間的關系,耦合分析挖掘施引文獻之間的關系,這里著重講共被引分析。

共被引分析(Co-Citation analysis)是指兩篇文獻共同出現在第三篇施引文獻的參考文獻目錄中,則這兩篇文獻形成共被引關系。通過對一個引文網絡進行文獻共被引關系挖掘的過程,就可以認為是文獻共被引分析的過程。例如下圖文獻pb1和文獻pb4在三篇論文中共同引用,那么他們的共被引次數為3次,通過一定的計算方式可以得到他們的關聯強度。共被引次數越多,這說明這兩篇文獻相似之處越大,關聯強度也越大。分析的步驟為:先從文獻信息中歸納得到引證矩陣,在引證矩陣的基礎上生成共被引矩陣。使用可視化技術,將共被引矩陣可視化為網絡。

共被引分析原理圖
2、共詞分析

在進行共詞分析之前,首先需要先了解詞頻分析。詞頻是指所分析的文檔中詞語出現的次數。詞頻分析就是在文獻信息中提取能夠表達文獻核心內容的關鍵詞和主題詞頻次高地分布,來研究該領域發(fā)展動向和研究熱點的方法。

在詞頻分析的基礎上,對詞頻網絡進行的更高層次的分析稱為共詞分析。共詞分析的基本原理是對一組詞兩兩統計它們在同一組文獻中出現的次數,通過這種共現次數來測度他們之間的親疏關系。它需要滿足以下幾個方面的假設。

共詞分析的假設前提

  • 作者都是很認真的選擇他們的技術術語的;
  • 當在同一篇文章中使用不同的術語時,就意味著這些不同的術語之間的關系并不是微不足道,它們一定是被作者認可和認同的;
  • 如果有足夠多的作者對同一種關系認可,那么可以認為這種關系在他們所關注的科學領域中具有一定意義;
  • 當針對關鍵詞時,經過專業(yè)學習的學者,在其論文中標引出來的關鍵詞時能夠反映文章的內容的,是值得信賴的指標。在作者標引關鍵詞時,通常也會受到其他學者成果的影響而在論文中使用相同或類似的關鍵詞標引自己的論文。

分析的步驟與共被引分析相近:先從文獻信息中歸納得到關鍵詞矩陣,在關鍵矩陣的基礎上生成共詞矩陣。使用可視化技術,將共詞矩陣可視化為網絡。

共詞分析原理圖
3、突現分析

CiteSpace提供Burst detection的功能來探測在某一時段引用量有較大變化的情況。用以發(fā)現某一個主題詞、關鍵詞衰落或者興起的情況。

參考文章 CiteSpace中的Burst Detection

4、聚類分析

聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,以分析對象的相似性為基礎。聚類分析有許多不同的算法,CiteSpace提供的算法有3個,3個算法的名稱分別是:LSI淺語義索引、LLR對數極大似然率、互信息。對不同的數據,3種算法表現一樣,可在實踐中多做實踐。

關于這3種算法,可以參考如下文章做進一步了解:

5、CiteSpace其他功能區(qū)

對于共被引分析,CiteSpace提供了引文共被引、作者共被引和期刊共被引3種不同類型的分析方法。對于共現分析,CiteSpace提供了術語、關鍵詞、來源、領域4種不同的共現分析。

功能區(qū)圖例

無論是共被引分析還是共現分析,在生成網絡時都需要根據共被引次數或共現次數計算網絡節(jié)點之間的連接強度。CiteSpace提供了4種網絡節(jié)點強度計算的方法,一般不做改動,選擇默認方法。


節(jié)點連接強度計算

三、CiteSpace挖掘的三個方面:知識基礎、學科結構、研究前沿

CiteSpace能夠在海量的文獻數據中,能夠以較為簡單的操作步驟挖掘出我們所需要的特定主題的三個方面的信息,包括該研究主題的知識基礎、相應的學科結構和最新的研究前沿。在進行進一步的論述之前,我們先來簡單介紹CiteSpace這個軟件的操作步驟。

1、知識基礎的獲取

任何一個研究主題,背后都會有一個較為完整的知識體系作為支撐。這個研究主題越成熟,這個知識體系越完整,越豐富。我們知道共被引網絡是由參考文獻組成的網絡。我們獲取的這一主題的論文,其知識構成在很大程度上是由其參考文獻的知識流動匯集得來的。那么由參考文獻組成的共被引網絡則能夠很好的揭示某一個研究主題的“先驗知識”,即我們可以通過獲取參考文獻的共被引網絡的方式,得到某一研究主題的知識基礎。
以關鍵詞“高等教育”為檢索對象,得到2.5萬余條數據,得到的共被引網絡如下:

國際高等教育研究的共被引網絡

顏色的冷暖代表了時間的遠近,顏色越暖,時間越近;顏色越冷,時代越久遠。那么通過對網絡進行分析,對其中關鍵節(jié)點(即關鍵文獻)進行研究,就可以知道,支撐支撐高等教育發(fā)展的知識基礎在時間上的發(fā)展演進情況。那么我們需要研究哪一個階段的高等教育歷史,就得找到相應時段高等教育知識基礎的書籍進行研讀、瀏覽和整理。

對這個結果網絡進行聚類分析,可以看到各個階段知識基礎的主題的變化情況,方便我們進行主題聚焦。可以看到,在最近的研究中,知識基礎為“反饋”類的文獻,此時研究也許會以這個為出發(fā)點展開研究。

國際高等教育研究的共被引網絡的聚類分析

在了解整體的知識基礎的框架和演進趨勢后,我們如何對關鍵文獻進行定位?我們主要關注2個方面:

  • 高頻節(jié)點:代表高被引的文獻,是某個領域或多個領域的重要知識基礎。
  • 高中介中心性節(jié)點:代表與多篇文獻形成共被引關系的文獻,與多篇文獻均有關系,起到“交通樞紐”的作用。相對而言,是本領域內的關鍵文獻;同時,也是這段時期內的關鍵文獻,在一定程度上代表著這段時期的研究熱點主題。

中介中心性是指:一個結點擔任其它兩個結點之間最短路的橋梁的次數。一個結點充當“中介”的次數越高,它的中介中心度就越大。引自:度中心性(degree)、接近中心性(closeness)和中介中心性(betweenness)的理解

那么我們可以知道,同時具備高中介中心性高頻特性的節(jié)點,就是本領域內的關鍵文獻,也是這段時期內的關鍵文獻,代表著這段時期的研究熱點主題。

關鍵文獻列表

如何根據文獻簡略信息得到文獻完整信息?

2、學科結構的獲取

一篇論文的關鍵詞代表著這篇論文的論述重點,在一定程度上反映了這篇論文的學科結構。使用關鍵詞共現網絡,能夠將數據全集中的學科結構清晰的展示出來。每一個節(jié)點代表一篇文獻,節(jié)點越大,說明該關鍵詞詞頻越大,與主題的相關性越大。同樣,節(jié)點的顏色代表時間:顏色越暖,時間越近;顏色越冷,時代越久遠。

中國高等教育學科結構
3、研究前沿的獲取

使用前面提到的burst detection,可以獲取到相關研究主題的研究前沿。在獲取研究前沿前,需要先點擊Noun Phrases,選擇Create POS Tags。

然后把Burst Terms選中,點擊detect Bursts。

在彈出框中選擇noun phrases。

在知識圖譜的界面,旁邊有個Control Panel,點擊Burstness,點擊Refresh,就可以生成我們所需要的關鍵詞圖片圖。

中國高等教育研究前沿演進情況
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容