Knowledge Graph技術(shù)架構(gòu)
圖片.png
Knowledge Graph繪制
圖片.png
文獻(xiàn)計(jì)量方法
科學(xué)知識(shí)圖譜屬于科學(xué)計(jì)量學(xué),因此必然文獻(xiàn)計(jì)量學(xué)的方法,主要包括:
- 引文分析方法
引文分析是利用各種數(shù)學(xué)、統(tǒng)計(jì)學(xué)方法和比較、歸納、抽象、概括等邏輯方法,對(duì)科學(xué)期刊、論文、著者等各種分析對(duì)象的引用與被引用現(xiàn)象進(jìn)行分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計(jì)量分析方法。引文分析大致有三種類型:
1、引文數(shù)量研究,主要用于對(duì)科學(xué)家、出版物和科學(xué)機(jī)構(gòu)的定性和定量評(píng)估。
2、 引文結(jié)構(gòu)(網(wǎng)狀或鏈狀關(guān)系)研究,主要用于揭示科學(xué)的發(fā)展與聯(lián)系。
3、 引文主題(相關(guān)性)研究,主要用于揭示科學(xué)的結(jié)構(gòu)以及進(jìn)行信息檢索。- 共引分析方法。
共引分析是1973年斯莫爾等人就提出把文獻(xiàn)共引分析作為計(jì)量文獻(xiàn)之間關(guān)系的一種方法。共引(co-citation)又稱被共引,即兩篇文獻(xiàn)同時(shí)被一篇或多篇文獻(xiàn)說(shuō)引用,同時(shí)把共同引用這兩篇文獻(xiàn)的文獻(xiàn)數(shù)稱為共引強(qiáng)度(或共引頻率),共引強(qiáng)度越大這兩篇文獻(xiàn)關(guān)系越密切。在共引圖譜中,點(diǎn)表示文獻(xiàn),當(dāng)相關(guān)文獻(xiàn)對(duì)的共被引強(qiáng)度等于或大于某個(gè)閾值時(shí),兩點(diǎn)就被連接起來(lái)。共引分析多用于作者共引分析和期刊共引分析。- 耦合分析方法
與共引分析相對(duì)應(yīng)的是耦合分析。幾篇文獻(xiàn)具有相同的參考文獻(xiàn)就形成了文獻(xiàn)耦合關(guān)系。具有相同參考文獻(xiàn)的文獻(xiàn)數(shù)稱為耦合強(qiáng)度。耦合分析包括文獻(xiàn)耦合分析、期刊耦合分析、作者耦合分析、學(xué)科耦合分析等,分別表示文獻(xiàn)、期刊、作者、學(xué)科之間具有主題和內(nèi)容相似性,可做為相關(guān)文獻(xiàn)分析、作者群體分析和科學(xué)演化分析等的依據(jù)。- 詞頻分析方法
詞頻分析是是齊普夫定律為理論基礎(chǔ)進(jìn)行文獻(xiàn)內(nèi)容分析方法。詞頻分析可分為標(biāo)題關(guān)鍵詞詞頻分析、摘要詞頻分析、內(nèi)容詞頻分析、引文詞頻分析和混合詞頻分析等。詞頻分析大量應(yīng)用于科學(xué)前沿主題領(lǐng)域和發(fā)展趨勢(shì)等研究。- 共詞分析
共詞分析屬于內(nèi)容分析法的一種。它的原理主要是對(duì)一組詞兩兩統(tǒng)計(jì)它們?cè)谕黄墨I(xiàn)中出現(xiàn)的次數(shù), 以此為基礎(chǔ)對(duì)這些詞進(jìn)行聚類分析, 生成共詞文獻(xiàn)簇, 進(jìn)而分析這些詞所代表的學(xué)科和主題的結(jié)構(gòu)變化。利用共詞分析法及其相關(guān)的可視化方法可以進(jìn)行深入的主題分析, 系統(tǒng)而直觀地了解學(xué)科結(jié)構(gòu)和發(fā)展?fàn)顩r, 并進(jìn)行學(xué)科發(fā)展預(yù)測(cè)。- 鏈接分析方法
鏈接分析,利用圖計(jì)算、拓?fù)鋵W(xué)和文獻(xiàn)計(jì)量學(xué)等方法,對(duì)網(wǎng)絡(luò)連接文檔、自身屬性、連接對(duì)象、連接網(wǎng)絡(luò)等進(jìn)行分析。鏈接分析涉及文檔包括:頁(yè)面、目錄、域名和站點(diǎn)。在理論上,連接分析與文獻(xiàn)計(jì)量學(xué)中的引文分析有高度的相似。
鏈接分析運(yùn)用拓?fù)鋵W(xué)知識(shí)通過(guò)分析鏈接網(wǎng)絡(luò)來(lái)研究網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合社會(huì)網(wǎng)絡(luò)分析可以分析研究和繪制網(wǎng)絡(luò)信息知識(shí)圖譜,展示網(wǎng)絡(luò)信息、知識(shí)分布結(jié)構(gòu)和演化規(guī)律等。
統(tǒng)計(jì)分析方法
科學(xué)知識(shí)圖譜構(gòu)建實(shí)用的統(tǒng)計(jì)分析方法主要是多元統(tǒng)計(jì)分析[12]。多元統(tǒng)計(jì)分析是經(jīng)典統(tǒng)計(jì)學(xué)的分支,在多個(gè)對(duì)象或指標(biāo)相互關(guān)聯(lián)的情況下分析其統(tǒng)計(jì)規(guī)律?!熬S度降低技術(shù)”是多元統(tǒng)計(jì)分析的一個(gè)特征,從幾何學(xué)看這個(gè)過(guò)程是講高維空間的目標(biāo)投影到低維空間。主要的其中包括:
- 因子分析(主成分分析)
因子分析是用少數(shù)幾個(gè)因子來(lái)描述許多指標(biāo)之間的關(guān)系,即將較密切的幾個(gè)變量歸為同一類,每一類變量成為一個(gè)因子,以較少的幾個(gè)因子來(lái)反應(yīng)原資料的大部分信息。- 多維尺度分析(MDS)
通過(guò)低維空間展示作者(文獻(xiàn))之間聯(lián)系,并利用平面距離來(lái)反映作者(文獻(xiàn))之間的相似度。多維尺度分析的圖形顯示結(jié)果更加直觀和形象,因子分析則更容易確定各個(gè)學(xué)術(shù)群體的邊界和數(shù)目,因此需要同時(shí)借助因子分析的結(jié)果, 進(jìn)行知識(shí)圖譜的繪制。
數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法提取、挖掘未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程??茖W(xué)知識(shí)圖譜的繪制使用了很多數(shù)據(jù)挖掘方法,常用的方法有聚類分析、數(shù)據(jù)可視化和社會(huì)網(wǎng)絡(luò)分析等。
- 聚類分析
聚類分析將物理或抽象的對(duì)象集合分成相似的對(duì)象類的過(guò)程。簇是數(shù)據(jù)對(duì)象的集合,同一個(gè)簇中的對(duì)象彼此相似,而不同的簇彼此相異。文獻(xiàn)聚類分析是聚類分析技術(shù)在引文分析中的具體應(yīng)用。處理方法是將文獻(xiàn)通過(guò)分詞、去停詞等方法轉(zhuǎn)化為詞向量,并將每個(gè)詞條賦予不同的權(quán)重,這樣一篇文獻(xiàn)就可以由詞條權(quán)重值組成的特征向量來(lái)表示,所有文獻(xiàn)將組成了特征向量空間模型,在該模型中使用聚類分析技術(shù)進(jìn)行引文分析。- 數(shù)據(jù)可視化
數(shù)據(jù)可視化,也成為信息可視化是指將抽象數(shù)據(jù)用圖形圖像等可視化形式表示出來(lái),以利于分析數(shù)據(jù)、發(fā)現(xiàn)規(guī)律和支持決策。常用的可視化算法有:
1 、自組織特征映射網(wǎng)絡(luò)SOM(Self-organizaing Feature Map)是一種基于神經(jīng)網(wǎng)絡(luò)的算法,它通過(guò)把高維數(shù)據(jù)映射到低維空間進(jìn)行聚類,并保持一定的拓?fù)溆行蛐浴?br> 2 、尋徑網(wǎng)絡(luò)圖譜PFNET(PathFinder Network)是對(duì)不同的概念或?qū)嶓w間聯(lián)系的相似或差異程度進(jìn)行評(píng)估,應(yīng)用圖論中原理和方法生成的一類特殊的網(wǎng)狀模型。- 社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis)也稱為結(jié)構(gòu)分析,是將社會(huì)結(jié)構(gòu)界定為一個(gè)網(wǎng)格,這個(gè)網(wǎng)格由成員之間的聯(lián)系進(jìn)行連接。社會(huì)網(wǎng)絡(luò)分析聚焦于成員之間的聯(lián)系而非個(gè)體特征,并把共同體視為“個(gè)體的共同體”,即視為人們?cè)谌粘I钪兴ⅰ⒕S護(hù)并應(yīng)用的個(gè)人關(guān)系的網(wǎng)絡(luò)。社會(huì)網(wǎng)絡(luò)分析方法被證明可以成功的研究科學(xué)合作網(wǎng)絡(luò)和互聯(lián)網(wǎng)絡(luò)所得到的可視化網(wǎng)絡(luò),并被用于展示科學(xué)計(jì)量學(xué)的合作網(wǎng)絡(luò)結(jié)構(gòu)與發(fā)展。
數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法提取、挖掘未知的、有價(jià)值的模式或規(guī)律等知識(shí)的復(fù)雜過(guò)程??茖W(xué)知識(shí)圖譜的繪制使用了很多數(shù)據(jù)挖掘方法,常用的方法有聚類分析、數(shù)據(jù)可視化和社會(huì)網(wǎng)絡(luò)分析等。
- 聚類分析
聚類分析將物理或抽象的對(duì)象集合分成相似的對(duì)象類的過(guò)程。簇是數(shù)據(jù)對(duì)象的集合,同一個(gè)簇中的對(duì)象彼此相似,而不同的簇彼此相異[13]。文獻(xiàn)聚類分析是聚類分析技術(shù)在引文分析中的具體應(yīng)用。處理方法是將文獻(xiàn)通過(guò)分詞、去停詞等方法轉(zhuǎn)化為詞向量,并將每個(gè)詞條賦予不同的權(quán)重,這樣一篇文獻(xiàn)就可以由詞條權(quán)重值組成的特征向量來(lái)表示,所有文獻(xiàn)將組成了特征向量空間模型,在該模型中使用聚類分析技術(shù)進(jìn)行引文分析。- 數(shù)據(jù)可視化
數(shù)據(jù)可視化,也成為信息可視化是指將抽象數(shù)據(jù)用圖形圖像等可視化形式表示出來(lái),以利于分析數(shù)據(jù)、發(fā)現(xiàn)規(guī)律和支持決策。常用的可視化算法有:
1 、自組織特征映射網(wǎng)絡(luò)SOM(Self-organizaing Feature Map)是一種基于神經(jīng)網(wǎng)絡(luò)的算法,它通過(guò)把高維數(shù)據(jù)映射到低維空間進(jìn)行聚類,并保持一定的拓?fù)溆行蛐浴?br> 2、 尋徑網(wǎng)絡(luò)圖譜PFNET(PathFinder Network)是對(duì)不同的概念或?qū)嶓w間聯(lián)系的相似或差異程度進(jìn)行評(píng)估,應(yīng)用圖論中原理和方法生成的一類特殊的網(wǎng)狀模型。- 社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)分析(Social Network Analysis)也稱為結(jié)構(gòu)分析,是將社會(huì)結(jié)構(gòu)界定為一個(gè)網(wǎng)格,這個(gè)網(wǎng)格由成員之間的聯(lián)系進(jìn)行連接。社會(huì)網(wǎng)絡(luò)分析聚焦于成員之間的聯(lián)系而非個(gè)體特征,并把共同體視為“個(gè)體的共同體”,即視為人們?cè)谌粘I钪兴?、維護(hù)并應(yīng)用的個(gè)人關(guān)系的網(wǎng)絡(luò)。社會(huì)網(wǎng)絡(luò)分析方法被證明可以成功的研究科學(xué)合作網(wǎng)絡(luò)和互聯(lián)網(wǎng)絡(luò)所得到的可視化網(wǎng)絡(luò),并被用于展示科學(xué)計(jì)量學(xué)的合作網(wǎng)絡(luò)結(jié)構(gòu)與發(fā)展。
知識(shí)圖譜繪制的步驟
科學(xué)知識(shí)圖譜繪制過(guò)程可分為8個(gè)步驟【國(guó)外知識(shí)圖譜繪制工具,楊洛斯】(如圖所示)即:
1、樣本數(shù)據(jù)檢索(對(duì)期刊數(shù)據(jù)WOS、Science Direct或網(wǎng)絡(luò)數(shù)據(jù)庫(kù)Google Scholar、CitSeer等);
2、數(shù)據(jù)預(yù)處理(分詞、去停用詞、去重、勘誤等);
3、選擇知識(shí)單元(作者、關(guān)鍵詞、機(jī)構(gòu)、期刊和文獻(xiàn));
4、構(gòu)建單元關(guān)系(引文分析、共現(xiàn)分析、共引分析、耦合分析、詞頻分析等);
5、數(shù)據(jù)標(biāo)準(zhǔn)化(Cosine、Jaccard、Equivalence、Association Strength等);
6、數(shù)據(jù)分析(因子分析、多維尺度分析、自組織映射圖、尋徑網(wǎng)絡(luò)圖譜、聚類分析和潛在語(yǔ)義分析等)
7、知識(shí)可視化(幾何圖、主題河圖、星團(tuán)圖、沖積圖、地形圖等);
8、圖譜解讀(歷時(shí)分析、突變分析、空間分析、網(wǎng)絡(luò)分析、地理分布、瀏覽查詢、放大縮小、過(guò)濾關(guān)聯(lián)等)。
目前這8個(gè)步驟還都是針對(duì)中小型數(shù)據(jù)集,而且步驟之間多以手工過(guò)渡為主,缺少對(duì)海量文獻(xiàn)數(shù)據(jù)處理過(guò)程和全自動(dòng)完成知識(shí)圖譜繪制方面的研究。
圖片.png
知識(shí)圖譜繪制的工具
對(duì)于知識(shí)圖譜的繪制工具可分為專用工具如Bibexcel、HiteCite、CiteSpace、NWB Tools和TDA;通用工具如統(tǒng)計(jì)分析軟件如SPSS和SAS,詞頻分析工具Word Smith和Word Cat,社交網(wǎng)絡(luò)分析工具如Pajek和Ucinet,可視化工具如VOSviewer、Net Draw等。
本文是對(duì)在知識(shí)圖譜的整理,借鑒轉(zhuǎn)載自http://www.360doc.com/content/15/0403/15/13987479_460345596.shtml。


