美團大腦——百科全書式知識圖譜(Encyclopedia Knowledge Graph)
給大家介紹一下 Encyclopedia Knowledge Graph。這是美團的知識圖譜項目——美團大腦。
美團大腦是什么?美團大腦是我們正在構(gòu)建中的一個全球最大的餐飲娛樂知識圖譜。我們希望能夠充分地挖掘關(guān)聯(lián)美團點評各個業(yè)務(wù)場景里的公開數(shù)據(jù),比如說我們有累計 40 億的用戶評價,超過 10 萬條個性化標簽,遍布全球的 3000 多萬商戶以及超過 1.4 億的店菜,我們還定義了 20 級細粒度的情感分析。
我們希望能夠充分挖掘出這些元素之間的關(guān)聯(lián),構(gòu)建出一個知識的“大腦”,用它來提供更加智能的生活服務(wù)。
我們簡單地介紹一下美團大腦是如何進行構(gòu)建的。我們會使用 Language Model(統(tǒng)計語言模型)、Topic Model(主題生成模型) 以及 Deep Learning Model(深度學(xué)習(xí)模型) 等各種模型,希望能夠做到商家標簽的挖掘,菜品標簽的挖掘和情感分析的挖掘等等。
為了挖掘商戶標簽,首先我們要讓機器去閱讀評論。我們使用了無監(jiān)督和有監(jiān)督的深度學(xué)習(xí)模型。
無監(jiān)督模型我們主要用了LDA,它的特點是成本比較低,無需標注的數(shù)據(jù)。當然,它準確性會比較不可控,同時對挖掘出來的標簽我們還需要進行人工的篩選。至于有監(jiān)督的深度學(xué)習(xí)模型,那么我們用了 LSTM,它的特點是需要比較大量的標注數(shù)據(jù)。
通過這兩種模型挖掘出來的標簽,我們會再加上知識圖譜里面的一些推理,最終構(gòu)建出商戶的標簽。
如果這個商戶有很多的評價,都是圍繞著寶寶椅、帶娃吃飯、兒童套餐等話題,那么我們就可以得出很多關(guān)于這個商戶的標簽。比如說我們可以知道它是一個親子餐廳,它的環(huán)境比較別致,服務(wù)也比較熱情。
下面介紹一下我們?nèi)绾螌Σ似愤M行標簽的挖掘?我們使用了 Bi-LSTM 以及 CRF 模型。比如說從這個評論里面我們就可以抽取出這樣的 Entity,再通過與其他的一些菜譜網(wǎng)站做一些關(guān)聯(lián),我們就可以得到它的食材、烹飪方法、口味等信息,這樣我們就為每一個店菜挖掘出了非常豐富的口味標簽、食材標簽等各種各樣的標簽。
下面再簡單介紹一下,我們?nèi)绾芜M行評論數(shù)據(jù)的情感挖掘。我們用的是 CNN+LSTM 的模型,對于每一個用戶的評價我們都能夠分析出他的一些情感的傾向。同時我們也正在做細粒度的情感分析,我們希望能夠通過用戶短短的評價,分析出他在不同的維度,比如說交通、環(huán)境、衛(wèi)生、菜品、口味等方面的不同的情感分析的結(jié)果。值得一提的是,這種細粒度的情感分析結(jié)果,目前在全世界范圍內(nèi)都沒有很好的解決辦法,但是美團大腦已經(jīng)邁出非常重要的一步。
下面介紹一下我們的知識圖譜是如何進行落地的。目前業(yè)界知識圖譜已經(jīng)有非常多的成熟應(yīng)用,比如搜索、推薦、問答機器人、智能助理,包括在穿戴設(shè)備、反欺詐、臨床決策上都有非常好的應(yīng)用。同時業(yè)界也有很多的探索,包括智能商業(yè)模式、智能市場洞察、智能會員體系等等。
如何用知識圖譜來改進我們的搜索?如果大家現(xiàn)在打開大眾點評,搜索某一個菜品時,比如說麻辣小龍蝦,其實我們的機器是已經(jīng)幫大家提前閱讀了所有的評價,然后分析出提供這道菜品的商家,我們還會根據(jù)用戶評論的情感分析結(jié)果來改進這些搜索排序。
此外,我們也將它用在商圈的個性化推薦。當大家打開大眾點評時,如果你現(xiàn)在位于某一個商場或者商圈,那么大家很快就能夠看到這個商場或者商圈的頁面入口。當用戶進入這個商場和商戶頁面時,通過知識圖譜,我們就能夠提供“千人千面”的個性化排序和個性化推薦。
在這背后其實使用了一個“水波”的深度學(xué)習(xí)模型,關(guān)于這個深度學(xué)習(xí)模型更詳細的介紹,大家可以參見我們在 CIKM 上的一篇論文。
所有的這一切,其實還有很多的技術(shù)突破等待我們?nèi)ソ鉀Q。比如整個美團大腦的知識圖譜在百億的量級,這也是世界上最大的餐飲娛樂知識圖譜,為了支撐這個知識圖譜,我們需要去研究千億級別的圖存儲和計算引擎技術(shù)。我們也正在搭建一個超大規(guī)模的 GPU 集群,來支持海量數(shù)據(jù)的深度學(xué)習(xí)算法。未來,當所有的這些技術(shù)都成熟之后,我們還希望能夠為所有用戶提供“智慧餐廳”和“智能助理”的體驗。
最后,分享一下本次腦圖,如下:
