知識(shí)圖譜資源匯總

awesome-knowledge-graph

整理知識(shí)圖譜相關(guān)學(xué)習(xí)資料,提供系統(tǒng)化的知識(shí)圖譜學(xué)習(xí)路徑。

  • https://github.com/husthuke/awesome-knowledge-graph

目錄

理論及論文

整體概念架構(gòu)

隨著知識(shí)圖譜的發(fā)展,與之相關(guān)的概念也越來(lái)越多,在閱讀論文時(shí)先準(zhǔn)確的把握該論文所要解決問(wèn)題處于的層級(jí)或者位置對(duì)于更好的理解論文也比較有幫助,在此對(duì)知識(shí)圖譜的概念進(jìn)行了總結(jié)整理,整體概念架構(gòu)圖如下圖所示,后面的論文分類(lèi)也按照該整體架構(gòu)概念圖從頂向下,從整體到細(xì)節(jié)的方式組織。

綜述綜合

大綜述

Knowledge-Augmented LMs(知識(shí)增強(qiáng)語(yǔ)言模型)

知識(shí)圖譜增強(qiáng)語(yǔ)言模型是最近兩年比較流行,主要發(fā)生在BERT出來(lái)之后,將知識(shí)先驗(yàn)信息融入到語(yǔ)言模型,可以說(shuō)是知識(shí)圖譜助力NLP十分關(guān)鍵的一環(huán),將該專(zhuān)題放在比較靠前的位置。

常識(shí)圖譜(Commonsense)

目前人工智能在很多方面表現(xiàn)的比較智障的原因,很多學(xué)者仍為是由于AI缺乏基本常識(shí)知識(shí)的原因,因此,從感知智能到認(rèn)知智能常識(shí)知識(shí)起著很重要的作用,而常識(shí)圖譜作為常識(shí)知識(shí)的一個(gè)重要表示手段也越來(lái)越受到重視。

  • KILT: a Benchmark for Knowledge Intensive Language Tasks(2020)[facebook 針對(duì)知識(shí)集中型的語(yǔ)言任務(wù)設(shè)計(jì)的baenchmark,其中包括設(shè)計(jì)常識(shí)的任務(wù)。]
  • TransOMCS: From Linguistic Graphs to Commonsense Knowledge(ICJAI 2020)[基于語(yǔ)言圖譜構(gòu)建常識(shí)知識(shí),采用ConceptNet中子集作為常識(shí)種子,從語(yǔ)言圖譜中挖掘滿(mǎn)足種子(h,r,t)的模式,然后再基于這些模式從語(yǔ)言圖譜中找常識(shí),同時(shí)為了避免錯(cuò)誤模式帶來(lái)的影響,引入一個(gè)打分機(jī)制篩選模式,并且對(duì)找出來(lái)的常識(shí)進(jìn)行可信度排序。]
  • ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning (AAAI 2019)[將常識(shí)信息抽象成一系列if then表示的框架,并基于詞框架設(shè)計(jì)眾包任務(wù)獲得數(shù)據(jù)集,通過(guò)encoder(ELMo)+decoder結(jié)構(gòu)的model進(jìn)行訓(xùn)練,最后采用BLEU score來(lái)評(píng)價(jià)機(jī)器在指定指令下的推斷輸出。]
  • COMET: Commonsense Transformers for Automatic Knowledge Graph Construction (ACL 2019)[結(jié)合預(yù)訓(xùn)練模型提出了一種常識(shí)知識(shí)圖譜構(gòu)建框架,并在ATOMIC和ConceptNet常識(shí)知識(shí)圖譜上進(jìn)行實(shí)驗(yàn),同時(shí)也驗(yàn)證了模型參數(shù)采用預(yù)訓(xùn)練之后的參數(shù)比隨機(jī)初始化效果明顯要好。]

知識(shí)應(yīng)用

對(duì)話(huà)系統(tǒng)

知識(shí)圖譜落地應(yīng)用最為廣泛的一個(gè)方向,研究人數(shù)也眾多,個(gè)人覺(jué)得在工業(yè)界可發(fā)揮的空間比較大。

知識(shí)庫(kù)問(wèn)答-KBQA

推薦系統(tǒng)

  • Multi-modal Knowledge Graphs for Recommender Systems(CIKM 2020)[將多模態(tài)信息引入知識(shí)圖譜推薦,整體結(jié)構(gòu)上包括多模態(tài)知識(shí)圖譜graph embedding和recommendation兩部分,其中g(shù)raph embedding包括entity encoder和attention,用于綜合表示節(jié)點(diǎn)以及其周?chē)?jié)點(diǎn)信息。]

知識(shí)計(jì)算

Representation(知識(shí)表示)

知識(shí)應(yīng)用的基礎(chǔ),目前分布式表示或者embedding大有一統(tǒng)江湖的意思,各種花式embedding眼花繚亂。

Reasoning(知識(shí)推理)

聽(tīng)起來(lái)高大上的方向,實(shí)際落地感覺(jué)很不容易,學(xué)術(shù)界發(fā)paper可能還行,但是在工業(yè)界容易跪,要推理也盡量離線(xiàn)展開(kāi),不要在線(xiàn)推理。

KG Completion(圖譜補(bǔ)全)

Coreference Resolution(指代消解)

知識(shí)獲取

NER(命名實(shí)體識(shí)別)

也是自然語(yǔ)言處理的基礎(chǔ)任務(wù),十分重要。

Entity aligning(實(shí)體對(duì)齊)

Coreference Resolution(指代消解)

知識(shí)建模

Taxonomy(本體構(gòu)建)

其他擴(kuò)展

Tracing(知識(shí)追蹤)

本類(lèi)別并不是傳統(tǒng)知識(shí)圖譜中的任務(wù),而是與教育領(lǐng)域結(jié)合的廣義上的知識(shí)圖譜任務(wù)。

圖譜及數(shù)據(jù)集

開(kāi)放知識(shí)圖譜

中文開(kāi)放知識(shí)圖譜(OpenKG.CN)

中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱(chēng)OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用,包括了眾多的數(shù)據(jù)集以及工具。

領(lǐng)域知識(shí)圖譜

學(xué)術(shù)知識(shí)圖譜AceKG

最新發(fā)布的Acemap知識(shí)圖譜(AceKG)描述了超過(guò)1億個(gè)學(xué)術(shù)實(shí)體、22億條三元組信息,涵蓋了全面的學(xué)術(shù)信息。具體而言,AceKG包含了61,704,089篇paper、52,498,428位學(xué)者、50,233個(gè)研究領(lǐng)域、19,843個(gè)學(xué)術(shù)研究機(jī)構(gòu)、22,744個(gè)學(xué)術(shù)期刊、1,278個(gè)學(xué)術(shù)會(huì)議以及3個(gè)學(xué)術(shù)聯(lián)盟(如C9聯(lián)盟)。

同時(shí),AceKG也為每個(gè)實(shí)體提供了豐富的屬性信息,在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上加上語(yǔ)義信息,旨在為眾多學(xué)術(shù)大數(shù)據(jù)挖掘項(xiàng)目提供全面支持。

數(shù)據(jù)集

SQuAD

YAGO

YAGO是由德國(guó)馬普研究所研制的鏈接數(shù)據(jù)庫(kù)。YAGO主要集成了Wikipedia、WordNet和GeoNames三個(gè)來(lái)源的數(shù)據(jù)。YAGO將WordNet的詞匯定義與Wikipedia的分類(lèi)體系進(jìn)行了融合集成,使得YAGO具有更加豐富的實(shí)體分類(lèi)體系。YAGO還考慮了時(shí)間和空間知識(shí),為很多知識(shí)條目增加了時(shí)間和空間維度的屬性描述。目前,YAGO包含1.2億條三元組知識(shí)。YAGO是IBM Watson的后端知識(shí)庫(kù)之一。由于完成的YAGO數(shù)據(jù)集過(guò)于龐大,在使用過(guò)程中經(jīng)常會(huì)選取其中一部分進(jìn)行,比如可以抽取中帶有時(shí)間注釋?zhuān)╰ime annotations)的部分形成YAGO11k數(shù)據(jù)集。

WikiData

WikiData的目標(biāo)是構(gòu)建一個(gè)免費(fèi)開(kāi)放、多語(yǔ)言、任何人或機(jī)器都可以編輯修改的大規(guī)模鏈接知識(shí)庫(kù)。WikiData由維基百科于2012年啟動(dòng),早期得到微軟聯(lián)合創(chuàng)始人Paul Allen、Gordon Betty Moore基金會(huì)以及Google的聯(lián)合資助。WikiData繼承了Wikipedia的眾包協(xié)作的機(jī)制,但與Wikipedia不同,WikiData支持的是以三元組為基礎(chǔ)的知識(shí)條目(Items)的自由編輯。一個(gè)三元組代表一個(gè)關(guān)于該條目的陳述(Statements)。

NLPCC 2017 KBQA

該任務(wù)來(lái)自NLPCC 2017評(píng)測(cè)任務(wù),開(kāi)放域問(wèn)答評(píng)價(jià)任務(wù)主要包括三項(xiàng)子任務(wù),基于知識(shí)庫(kù)的問(wèn)答(kbqa),基于文檔的問(wèn)答(dbqa),和基于表的問(wèn)答(tbqa)。kbqa的任務(wù)是基于知識(shí)庫(kù)的中文問(wèn)題回答。dbqa的任務(wù)是通過(guò)選擇一個(gè)或多個(gè)句子從一個(gè)給定的文檔,作為答案回答中文問(wèn)題。tbqa的任務(wù)是一個(gè)全新的QA任務(wù),旨在通過(guò)從收集的表格中抽取一個(gè)或多個(gè)表回答英語(yǔ)問(wèn)題。

下載鏈接

GDELT

GDELT(Global Database of Events, Language, and Tone)是最大的綜合人類(lèi)社會(huì)關(guān)系數(shù)據(jù)庫(kù),以100多種語(yǔ)言監(jiān)控來(lái)自每個(gè)國(guó)家?guī)缀趺總€(gè)角落的廣播、印刷和網(wǎng)絡(luò)新聞,并確定推動(dòng)我們?nèi)蛏鐣?huì)的人、地點(diǎn)、組織、主題、來(lái)源、情感、計(jì)數(shù)、報(bào)價(jià)、圖像和事件每天的每一秒,它的全球知識(shí)圖將世界的人,組織,地點(diǎn),主題,計(jì)數(shù),圖像和情感連接到整個(gè)地球上的單一整體網(wǎng)絡(luò)。為整個(gè)世界的計(jì)算創(chuàng)建一個(gè)免費(fèi)的開(kāi)放平臺(tái)。

下載鏈接

ICEWS

ICEWS(Integrated Crisis Early Warning System)捕獲和處理來(lái)自數(shù)字化新聞媒體,社交媒體和其他來(lái)源的數(shù)百萬(wàn)條數(shù)據(jù),以預(yù)測(cè),跟蹤和響應(yīng)世界各地的事件,主要用于早期預(yù)警。該數(shù)據(jù)集在知識(shí)圖譜領(lǐng)域主要用于動(dòng)態(tài)事件預(yù)測(cè)等動(dòng)態(tài)圖譜方面。

下載鏈接

OAG

OAG(Open Academic Graph包含來(lái)自MAG的166,192,182篇論文和來(lái)自AMiner的154,771,162篇論文,并生成了兩個(gè)圖之間的64,639,608個(gè)鏈接(匹配)關(guān)系。它可以作為研究引文網(wǎng)絡(luò),論文內(nèi)容等的統(tǒng)一大型學(xué)術(shù)圖表,也可以用于研究多個(gè)學(xué)術(shù)圖表的整合。

下載鏈接

工具

根據(jù)知識(shí)圖譜的通用基本構(gòu)建流程為依據(jù),每個(gè)階段都整理部分工具。

知識(shí)建模

知識(shí)抽取

Deepdive

知識(shí)推理

知識(shí)表示

OpenKE

清華大學(xué)NLP實(shí)驗(yàn)室基于TensorFlow開(kāi)發(fā)的知識(shí)嵌入平臺(tái),實(shí)現(xiàn)了大部分知識(shí)表示學(xué)習(xí)方法。

知識(shí)融合

白皮書(shū)及報(bào)告

機(jī)構(gòu)及人物

本部分介紹在知識(shí)圖譜領(lǐng)域前沿研究或者有一定影響力的機(jī)構(gòu)以及個(gè)人。

機(jī)構(gòu)

人物

視頻課程

小象學(xué)院知識(shí)圖譜課程

貪心學(xué)院知識(shí)圖譜課程

煉數(shù)成金知識(shí)圖譜課程

CSDN視頻課

專(zhuān)欄合集

知乎集合

簡(jiǎn)書(shū)集合

評(píng)測(cè)競(jìng)賽

會(huì)議交流及講座

AICon

BDTC

其他

項(xiàng)目案例

教育領(lǐng)域知識(shí)圖譜

金融領(lǐng)域知識(shí)圖譜

利用網(wǎng)絡(luò)上公開(kāi)的數(shù)據(jù)構(gòu)建一個(gè)小型的證券知識(shí)圖譜/知識(shí)庫(kù)

  • https://github.com/lemonhu/stock-knowledge-graph.git

上市公司高管圖譜

  • https://github.com/Shuang0420/knowledge_graph_demo

醫(yī)療領(lǐng)域知識(shí)圖譜

農(nóng)業(yè)領(lǐng)域知識(shí)圖譜

使用爬蟲(chóng)獲取Wikidata數(shù)據(jù)構(gòu)建

  • https://github.com/CrisJk/Agriculture-KnowledgeGraph-Data.git

知識(shí)工程領(lǐng)域知識(shí)圖譜

其他知識(shí)圖譜

紅樓夢(mèng)人物關(guān)系圖譜

  • https://github.com/chizhu/KGQA_HLM

通用領(lǐng)域知識(shí)圖譜

  • https://github.com/Pelhans/Z_knowledge_graph

免費(fèi)1.5億實(shí)體通用領(lǐng)域知識(shí)圖譜

  • https://github.com/ownthink/KnowledgeGraph

簡(jiǎn)易電影領(lǐng)域知識(shí)圖譜及KBQA系統(tǒng)

  • https://github.com/SimmerChan/KG-demo-for-movie

推廣技術(shù)文章

2020

2019

2018

2017

2016

本文使用 文章同步助手 同步

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容