百度NLP是如何更懂中文的

17101212468?黃翊杰

轉(zhuǎn)載自http://www.zishu010.com/z/newdetail/9811935.html,原始文章來(lái)源于百度AI,由百度開發(fā)者中心發(fā)布。

【嵌牛導(dǎo)讀】:文字是我們作為人交流的一種極其重要的手段和媒介,在AI的發(fā)展設(shè)計(jì)中,對(duì)如何讓AI讀懂我們的文字是極其重要的也是非常復(fù)雜的一環(huán),今日,在百度的技術(shù)沙龍上,多位專攻NLP的資深工程師和產(chǎn)品經(jīng)理就這個(gè)問(wèn)題分享了自己的解決方案。

【嵌牛鼻子】:科技,大數(shù)據(jù),人工智能

【嵌牛提問(wèn)】:NLP(自然語(yǔ)言處理)技術(shù)目前應(yīng)用在了哪些方面?還有什么可期待的應(yīng)用?

【嵌牛正文】:

在 AI 時(shí)代,我們希望計(jì)算機(jī)能夠擁有視覺(jué)、聽覺(jué)、行動(dòng)以及語(yǔ)言的能力,而相對(duì)于聽和看以及行動(dòng),語(yǔ)言是我們?nèi)祟悈^(qū)別于其他動(dòng)物的最重要特征之一。語(yǔ)言是我們思維的載體,也因此我們對(duì)于語(yǔ)言的理解和處理,變得尤為重要。而在計(jì)算機(jī)領(lǐng)域,自然語(yǔ)言處理(NLP, Natural Language Processing)就是研究如何讓計(jì)算機(jī)理解并生成人類的語(yǔ)言,從而和人類平等流暢地溝通交流。

自然語(yǔ)言處理技術(shù)在百度已經(jīng)有悠久的歷史,早在百度誕生之時(shí)就成為搜索技術(shù)的重要組成部分,一直伴隨著百度的發(fā)展而進(jìn)步。從中文分詞、詞性分析、改寫,到機(jī)器翻譯、篇章分析、語(yǔ)義理解、對(duì)話系統(tǒng)等等,NLP 技術(shù)已成功應(yīng)用在百度各類產(chǎn)品中。

近期由百度開發(fā)者中心主辦、極客邦科技承辦的 75 期百度技術(shù)沙龍上,百度 NLP 和 AI 開放平臺(tái)的多位資深工程師和產(chǎn)品經(jīng)理,針對(duì)開發(fā)者如何利用百度 NLP 技術(shù),更好解決實(shí)際應(yīng)用問(wèn)題,進(jìn)行了具體分享。

百度 AI 技術(shù)生態(tài)部高級(jí)運(yùn)營(yíng)顧問(wèn)張揚(yáng),通過(guò)具體應(yīng)用案例,讓大家對(duì)百度 NLP 開放的核心技術(shù)有一個(gè)感性的認(rèn)知;自然語(yǔ)言處理部主任架構(gòu)師孫宇,針對(duì) NLP 語(yǔ)義計(jì)算技術(shù)的具體問(wèn)題深入分析;自然語(yǔ)言處理部資深研發(fā)工程師何伯磊,用大量場(chǎng)景詳細(xì)解釋了情感分析領(lǐng)域的技術(shù)應(yīng)用;自然語(yǔ)言處理部資深研發(fā)工程師姜迪,詳細(xì)闡述了概率圖模型技術(shù)如何應(yīng)用;百度 AI 技術(shù)生態(tài)部資深產(chǎn)品經(jīng)理張晶晶,為大家現(xiàn)場(chǎng)指導(dǎo)百度 AI 開放平臺(tái)的使用方法。

1、NLP 是什么?

NLP 是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科。NLP 由兩個(gè)主要的技術(shù)領(lǐng)域構(gòu)成:自然語(yǔ)言理解和自然語(yǔ)言生成。

自然語(yǔ)言理解方向,主要目標(biāo)是幫助機(jī)器更好理解人的語(yǔ)言,包括基礎(chǔ)的詞法、句法等語(yǔ)義理解,以及需求、篇章、情感層面的高層理解。

自然語(yǔ)言生成方向,主要目標(biāo)是幫助機(jī)器生成人能夠理解的語(yǔ)言,比如文本生成、自動(dòng)文摘等。

NLP 技術(shù)基于大數(shù)據(jù)、知識(shí)圖譜、機(jī)器學(xué)習(xí)、語(yǔ)言學(xué)等技術(shù)和資源,可以形成機(jī)器翻譯、深度問(wèn)答、對(duì)話系統(tǒng)的具體應(yīng)用系統(tǒng),進(jìn)而服務(wù)于各類實(shí)際業(yè)務(wù)和產(chǎn)品。

2、我們?yōu)槭裁葱枰?NLP?

在演講中,為了讓大家有更直觀的感受,張揚(yáng)首先舉了個(gè)生活中的例子:人們?cè)谟冒俣人阉饕粋€(gè)生僻字時(shí),不知道拼音的情況下會(huì)搜索:“4 個(gè)又念什么?”,我們發(fā)現(xiàn),搜索結(jié)果一定是告訴你這個(gè)“叕”字念什么,而不是“4 個(gè)又念什么”的這幾個(gè)詞表面的匹配結(jié)果,這其中已經(jīng)用到自然語(yǔ)言理解的能力了,它幫助搜索引擎理解用戶需要搜的是“由 4 個(gè)又組成的字”,而不是“4 個(gè)又是什么”這幾個(gè)孤零零的詞。由此可見,NLP 技術(shù)真正能夠知道你所說(shuō)的話的深層語(yǔ)義是什么,這項(xiàng)技術(shù)也把人工智能推向了一個(gè)新的高度。

那么 NLP 究竟能夠干什么,如何幫助業(yè)務(wù)實(shí)現(xiàn)?張揚(yáng)繼續(xù)介紹了百度 NLP 開放的幾項(xiàng)典型技術(shù):

情感傾向分析

針對(duì)帶有主觀描述的中文文本,可自動(dòng)判斷該文本的情感極性類別并給出相應(yīng)的置信度。情感極性分為積極、消極、中性。情感傾向分析能幫助企業(yè)理解用戶消費(fèi)習(xí)慣、分析熱點(diǎn)話題和危機(jī)輿情監(jiān)控,為企業(yè)提供有力的決策支持。

評(píng)論觀點(diǎn)抽取

自動(dòng)分析評(píng)論關(guān)注點(diǎn)和評(píng)論觀點(diǎn),并輸出評(píng)論觀點(diǎn)標(biāo)簽及評(píng)論觀點(diǎn)極性。目前支持 13 類產(chǎn)品用戶評(píng)論的觀點(diǎn)抽取,包括美食、酒店、汽車、景點(diǎn)等,可幫助商家進(jìn)行產(chǎn)品分析,輔助用戶進(jìn)行消費(fèi)決策。

詞義相似度計(jì)算

用于計(jì)算兩個(gè)給定詞語(yǔ)的語(yǔ)義相似度,基于自然語(yǔ)言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。詞義相似度是自然語(yǔ)言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、Query 改寫、詞性標(biāo)注等常用技術(shù)的基礎(chǔ)之一。

詞法分析

百度詞法分析向用戶提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三大功能。該服務(wù)能夠識(shí)別出文本串中的基本詞匯標(biāo)注和詞匯的詞性,并進(jìn)一步識(shí)別出命名實(shí)體,百度詞法分析的算法效果大幅領(lǐng)先已公開的主流中文詞法分析模型。

短文本相似度

能夠提供不同短文本之間相似度的計(jì)算,輸出的相似度是一個(gè)介于 -1 到 1 之間的實(shí)數(shù)值,越接近 1 則相似度越高。這個(gè)相似度值可以直接用于結(jié)果排序,也可以作為一維基礎(chǔ)特征作用于更復(fù)雜的系統(tǒng)。

DNN 語(yǔ)言模型

語(yǔ)言模型是通過(guò)計(jì)算給定詞組成句子的概率,從而判斷所組成的句子是否符合客觀語(yǔ)言表達(dá)習(xí)慣。在機(jī)器翻譯、拼寫糾錯(cuò)、語(yǔ)音識(shí)別、問(wèn)答系統(tǒng)、詞性標(biāo)注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。

詞向量表示

詞向量表示是通過(guò)訓(xùn)練的方法,將語(yǔ)言詞表中的詞映射成一個(gè)長(zhǎng)度固定的向量。詞表中所有的詞向量構(gòu)成一個(gè)向量空間,每一個(gè)詞都是這個(gè)詞向量空間中的一個(gè)點(diǎn),利用這種方法,實(shí)現(xiàn)文本的可計(jì)算。

依存句法分析

利用句子中詞與詞之間的依存關(guān)系來(lái)表示詞語(yǔ)的句法結(jié)構(gòu)信息 (如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系),并用樹狀結(jié)構(gòu)來(lái)表示整句的結(jié)構(gòu) (如主謂賓、定狀補(bǔ)等)。

3、百度語(yǔ)義計(jì)算技術(shù)是如何實(shí)現(xiàn)的?

在各個(gè) NLP 開放接口之中,語(yǔ)義計(jì)算是一個(gè)非常基礎(chǔ)的技術(shù)。百度 NLP 部門的主任架構(gòu)師孫宇主要圍繞 NLP 語(yǔ)義計(jì)算整體技術(shù)框架展開分析,核心介紹了語(yǔ)義表示技術(shù)和語(yǔ)義匹配技術(shù)。百度 NLP 語(yǔ)義計(jì)算整體框架主要分三大部分(如下圖),最底層依托于大數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)和用戶行為數(shù)據(jù),以及高性能集群(GPU、CPU 和 FPGA),打造了基于 DNN 和概率圖模型的語(yǔ)義計(jì)算引擎,通過(guò)文本輸入到語(yǔ)義計(jì)算引擎當(dāng)中,可以得到文本的語(yǔ)義表示,進(jìn)而基于這個(gè)語(yǔ)義表示,進(jìn)行語(yǔ)義層面的計(jì)算,包括語(yǔ)義匹配、語(yǔ)義檢索、文本分類、序列生成以及序列標(biāo)注。

目前,百度在語(yǔ)義方面開放了四個(gè)技術(shù),囊括了詞匯和句子兩個(gè)層面的語(yǔ)義技術(shù)。詞匯層面包括了詞語(yǔ)義向量表示,詞義相似度計(jì)算;句子層面的包括短文本語(yǔ)義相似度計(jì)算和 DNN 語(yǔ)言模型。孫宇對(duì)這些技術(shù)背后的原理進(jìn)行了詳細(xì)的介紹。

語(yǔ)義表示技術(shù)業(yè)界很早就開始研究,主要有兩種流派,一個(gè)是形式化的方法,一個(gè)是基于統(tǒng)計(jì)的方法。關(guān)于基于形式化的方法,在上世紀(jì)八十年代普林斯頓有科學(xué)家提出:基于語(yǔ)言學(xué)知識(shí)構(gòu)建一個(gè)詞圖,把知識(shí)通過(guò)詞與詞之間的關(guān)系構(gòu)建到這個(gè)圖里。九十年代又有人提出,將自然語(yǔ)言表示成一種邏輯的表達(dá)式,可以直接用于計(jì)算機(jī)計(jì)算和執(zhí)行。但這兩個(gè)技術(shù)都存在一個(gè)問(wèn)題:自動(dòng)化程度不高,適用性較差,因此,百度 NLP 主要采用基于統(tǒng)計(jì)的方法。

短文本語(yǔ)義相似度計(jì)算是百度重點(diǎn)打造且應(yīng)用廣泛的技術(shù)。其中的核心模型是利用 2013 年開始研發(fā)的 SimNet 語(yǔ)義匹配框架,在千億級(jí)別真實(shí)點(diǎn)擊數(shù)據(jù)訓(xùn)練得到。該框架的基礎(chǔ)匹配算法上包含兩種匹配范式,一種側(cè)重于表示層建模,另外一種則更側(cè)重于匹配層建模。這兩種模型各有優(yōu)勢(shì),可解決不同問(wèn)題。另外,針對(duì)不同應(yīng)用場(chǎng)景百度還擴(kuò)展研發(fā)了字符級(jí)別匹配和多視角匹配技術(shù),這些技術(shù)都廣泛應(yīng)用于百度內(nèi)部各產(chǎn)品中。

4、百度自然語(yǔ)言處理

在情感分析領(lǐng)域有哪些技術(shù)和應(yīng)用?

在演講中,何伯磊主要針對(duì)用戶日常的使用場(chǎng)景,分析了情感分析技術(shù)的原理和實(shí)際應(yīng)用。百度情感分析技術(shù)依托于評(píng)論大數(shù)據(jù)、深度學(xué)習(xí)、語(yǔ)義理解等基礎(chǔ)技術(shù),建立了一套完整情感分類與觀點(diǎn)挖掘的核心技術(shù)。在情感分類方面,我們研發(fā)了情感傾向性分析、情緒分析、情感對(duì)象識(shí)別以及句子的主客觀的分析。在觀點(diǎn)挖掘方面,我們通過(guò)情感搭配知識(shí)自動(dòng)構(gòu)建和觀點(diǎn)計(jì)算技術(shù),可以有效地進(jìn)行文本數(shù)據(jù)的觀點(diǎn)抽取。百度依托這些核心的技術(shù),進(jìn)行用戶產(chǎn)品開發(fā)。

這里重點(diǎn)介紹兩類核心技術(shù):

情感傾向性分析

情感傾向分析的任務(wù)目標(biāo)是能夠判斷用戶文本是積極、消極或是中性的情感。傳統(tǒng)方法有兩類:一類利用情感詞典進(jìn)行規(guī)則匹配的方法進(jìn)行判斷,另外一類基于情感詞典和文本特征建立一個(gè) 2 分類任務(wù)的方法 。百度情感傾向性分析基于深度學(xué)習(xí)的方法,分別建立了句子級(jí)、實(shí)體級(jí)、篇章級(jí)多粒度完整的分析任務(wù)。句子級(jí)粒度上,通過(guò)基于 Bi-LSTM 分類方法,系統(tǒng)更好地捕捉了情感極性在前后文表達(dá)的信息,效果上相對(duì)于傳統(tǒng)的方法有了很大的提升。實(shí)體級(jí)粒度的任務(wù)概念稍有晦澀,舉個(gè)例子:《成龍對(duì)戰(zhàn)狼 2 的看法》一篇文章可能有多個(gè)主題,這個(gè)任務(wù)就是希望能夠把這篇文章對(duì)于“吳京”的態(tài)度分析出來(lái)。在這個(gè)任務(wù)中,我們通過(guò)建立層次化的語(yǔ)義表達(dá)方法,讓整個(gè)系統(tǒng)更加精準(zhǔn)地進(jìn)行分析和判斷。

評(píng)論觀點(diǎn)抽取的技術(shù)

評(píng)論觀點(diǎn)抽取目標(biāo):給定一個(gè)文本,把其中表達(dá)觀點(diǎn)的信息抽取出來(lái)。舉個(gè)例子,用戶的評(píng)論:“這家旅店的服務(wù)還不錯(cuò),但是房間比較簡(jiǎn)陋”,我們目標(biāo)把“服務(wù)不錯(cuò)、房間簡(jiǎn)陋”這樣的關(guān)鍵觀點(diǎn)信息抽取出來(lái)。評(píng)論觀點(diǎn)抽取技術(shù)在當(dāng)前互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用十分廣泛,但是召回率一直不高,百度的評(píng)論觀點(diǎn)抽取技術(shù)將任務(wù)從應(yīng)用需求進(jìn)行細(xì)致分析拆解,通過(guò)基于情感搭配、語(yǔ)義計(jì)算、維度預(yù)測(cè)、以及維度預(yù)測(cè)加情感極性分類的方法,完美的解決了應(yīng)用中各種的問(wèn)題,這也是一個(gè)技術(shù)和應(yīng)用完美結(jié)合的經(jīng)典案例。

5、概率圖模型技術(shù)如何應(yīng)用?

姜迪分享的主題是《Familia 可配置的主題模型框架》,F(xiàn)amilia 是家族、家庭的意思。顧名思義,這個(gè)框架的特點(diǎn)就是涵蓋了一族具有較大的工業(yè)價(jià)值的主題模型,這樣一來(lái),一線的工程師就有很多靈活性,可以根據(jù)具體任務(wù),來(lái)選擇適用的模型。

百度有一個(gè)貝葉斯技術(shù)體系的框架,主要分三大類:第一類是主題模型,這個(gè)框架的特點(diǎn)就是它有一個(gè)自動(dòng)配置的功能;第二類是點(diǎn)擊模型,主要是應(yīng)用在搜索引擎的領(lǐng)域,來(lái)量化分析用戶的搜索行為以及搜索查詢和網(wǎng)頁(yè)的相關(guān)性;第三類是分類模型,包含最常見的基于貝葉斯網(wǎng)的分類器。

主題模型框架中有十幾個(gè)主流的主題模型,其中包含 LDA 模型、引入了句子結(jié)構(gòu)的 SentenceLDA 模型、引入了監(jiān)督信號(hào)的 SupervisedLDA,以及其他具有工業(yè)價(jià)值的主題模型,并且支持用戶根據(jù)具體任務(wù)設(shè)計(jì)對(duì)應(yīng)的模型。

那么,為什么要設(shè)計(jì) Familia 這個(gè)主題框架?業(yè)界大部分主題模型工具只支持 PLSA 和 LDA 兩種模型,這兩種模型非常類似,它們只支持一種數(shù)據(jù)假設(shè),也就是說(shuō),我們只能用一種模型來(lái)適用不同的場(chǎng)景,不能支持用戶的根據(jù)具體任務(wù)自定義擴(kuò)展。當(dāng)用戶的數(shù)據(jù)本身和這兩個(gè)模型的假設(shè)有較大差異時(shí),效果可想而知。另一方面,當(dāng)前的主題模型工具對(duì)下游的應(yīng)用并不太友好,這些工作往往只注重模型的訓(xùn)練,忽略了模型如何在具體任務(wù)中應(yīng)用。從模型的訓(xùn)練到應(yīng)用之間有很長(zhǎng)的距離,如何消除這個(gè)距離是我們這個(gè)工作的重點(diǎn)。Familia 在百度的應(yīng)用場(chǎng)景其實(shí)非常多,包含了大家耳熟能詳?shù)陌俣人阉?、百度新聞、糯米、貼吧這些平臺(tái),也部署到了百度自然語(yǔ)言的云處理平臺(tái)上,這個(gè)工具目前每天有 3000 萬(wàn)次的響應(yīng)需求。

Familia 框架是怎么在工業(yè)級(jí)場(chǎng)景進(jìn)行應(yīng)用的?

第一步,數(shù)據(jù)預(yù)處理,這里可以支持多種類型的數(shù)據(jù),包括常見的網(wǎng)頁(yè)數(shù)據(jù)、新聞數(shù)據(jù)和糯米數(shù)據(jù),在內(nèi)部將數(shù)據(jù)預(yù)處理步驟和百度的分詞進(jìn)行了一個(gè)深度的融合。在分詞的前和后我們還有多種多樣的過(guò)濾器,用戶可以根據(jù)自己的需求,來(lái)選擇什么信息要過(guò)濾掉,什么信息可以保留。

第二步,概率圖模型配置,F(xiàn)amilia 支持多種主流的已有的主題模型,同時(shí)用戶也可以自定義自己的主題模型。這個(gè)過(guò)程是通過(guò)一種數(shù)據(jù)組織抽象存儲(chǔ)多種圖模型的信息來(lái)實(shí)現(xiàn)的。

第三步,采樣公式自動(dòng)推導(dǎo),F(xiàn)amilia 中的參數(shù)推導(dǎo)引擎可以自動(dòng)推導(dǎo)出采樣公式,降低了主題模型應(yīng)用的數(shù)學(xué)門檻。

第四步,模型的后期處理,F(xiàn)amilia 進(jìn)一步對(duì)訓(xùn)練好的主題模型進(jìn)行優(yōu)化和壓縮操作。

第五步,F(xiàn)amilia 抽象了語(yǔ)義表示和語(yǔ)義匹配兩個(gè)應(yīng)用范式,用戶可以根據(jù)具體任務(wù)來(lái)使用對(duì)應(yīng)的范式。

目前 Familia 已經(jīng)在 Github 上完成開源(https://github.com/baidu/familia),第一期提供網(wǎng)頁(yè)、新聞、小說(shuō)等多個(gè)垂直類語(yǔ)料訓(xùn)練的工業(yè)級(jí)主題模型,并提供語(yǔ)義表示、語(yǔ)義匹配兩類應(yīng)用范式的大量應(yīng)用場(chǎng)景指導(dǎo)。

6、對(duì)開發(fā)者而言,如何更好地使用百度 AI 開放平臺(tái)?

張晶晶主要就自然語(yǔ)言使用的相關(guān)問(wèn)題及整個(gè)百度 AI 開放平臺(tái)的使用方法進(jìn)行了介紹:目前百度自然語(yǔ)言處理技術(shù)開放 8 項(xiàng)語(yǔ)言處理的基礎(chǔ)技術(shù),基于這些基礎(chǔ)的能力,百度對(duì)外開放了很多感知層和認(rèn)知層的技術(shù),在上面搭建了一個(gè)開放平臺(tái),在這個(gè)平臺(tái)上百度把我們所有成熟的 AI 技術(shù)統(tǒng)一對(duì)外開放,使大家能夠通過(guò)接口的方式,直接調(diào)用、直接使用,比如語(yǔ)音識(shí)別、語(yǔ)音合成、文字識(shí)別的各種模板、端口、人臉識(shí)別等。另外,百度也將開放個(gè)性化的定制服務(wù),主要是有詞法分析、評(píng)論觀點(diǎn)抽取和情感傾向分析。詞法分析的定制,可以幫助我們的行業(yè)客戶實(shí)現(xiàn)個(gè)性化需求,若有識(shí)別不了的詞匯,可以通過(guò)上傳詞表的方式,來(lái)把模型訓(xùn)練得更適合自己。

百度 AI 平臺(tái)為開發(fā)過(guò)程提供了三方面的支持,首先是開發(fā)組建,其次是管理功能和配套資源。開發(fā)組建方面,每個(gè)技術(shù)領(lǐng)域里都以標(biāo)準(zhǔn)的方式提供了 API 和 SDK,有些方向上還提供了參考代碼。有一些需要獨(dú)立去配置的模塊單獨(dú)做了配置系統(tǒng),讓開發(fā)者可以先在平臺(tái)上做好配置之后就可以直接調(diào)用。在后臺(tái)管理上,既有基礎(chǔ)的應(yīng)用管理,也能支持很多與企業(yè)業(yè)務(wù)相關(guān)的個(gè)性化配置,并隨時(shí)查看調(diào)用的統(tǒng)計(jì)信息。開發(fā)者還可以在產(chǎn)品上使用百度 LOGO,標(biāo)識(shí)出百度 AI 技術(shù)。開發(fā)者如果應(yīng)用百度的 AI 技術(shù)解決了行業(yè)中的典型問(wèn)題,百度也會(huì)擔(dān)任伯樂(lè)的角色,將其案例進(jìn)行宣傳推廣。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容