本論壇是2018中國計(jì)算機(jī)大會(CNCC)的分論壇之一:自然語言生成,讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)。涉及自然語言生成目前成果總結(jié)、產(chǎn)業(yè)應(yīng)用及前景展望。包括微軟小冰、阿里小蜜、高考議論文自動生成、騰訊新聞推薦系統(tǒng)、財(cái)經(jīng)及體育新聞生成等應(yīng)用案例及背后的優(yōu)化算法模型。
作者:張子豪(同濟(jì)大學(xué)在讀研究生)
微信公眾號:人工智能小技巧
發(fā)布于2018-10-31
隨著深度計(jì)算的發(fā)展,自然語言生成獲得了新的發(fā)展機(jī)遇。從2015年開始,騰訊、今日頭條、南方都市報(bào)等先后采用寫稿機(jī)器人,單篇成文的速度可達(dá)到0.5秒。2014年以來,自然對話也被認(rèn)為是下一代人機(jī)交互的關(guān)鍵技術(shù)獲得了長足發(fā)展,開放域聊天機(jī)器人(如微軟小冰)和客服型機(jī)器人(如阿里小蜜)均有上線的產(chǎn)品和海量的用戶。對話生成近年來也在自然語言處理會議上逐漸升溫。除此之外,研究人員對其他問題也做出嘗試。2017年人類歷史上第一本百分之百人工智能創(chuàng)作的詩集《陽光失了玻璃窗》正式出版,作者正是微軟小冰。在2018年中國計(jì)算機(jī)大會(CNCC)“自然語言生成:讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)”分論壇,自然語言處理領(lǐng)域的頂尖學(xué)者齊聚一堂,共話機(jī)器文本處理的“芯”挑戰(zhàn)。

時(shí)間:2018年10月26日 下午13:30-17:30
地點(diǎn):杭州國際博覽中心會議區(qū) 二層新聞發(fā)布廳 A
分論壇主席為北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍、微軟(亞洲)互聯(lián)網(wǎng)工程院小冰首席科學(xué)家宋睿華。分享嘉賓可謂大牛云集:哈工大計(jì)算機(jī)學(xué)院教授秦兵、騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān)范欣、微軟亞洲研究院自然語言計(jì)算組首席科學(xué)家武威、清華大學(xué)計(jì)算機(jī)系副教授黃民烈。
[TOC]
報(bào)告一 萬小軍:NLG自然語言生成目前成果總結(jié)及前瞻展望

嘉賓簡介:萬小軍,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員,博士生導(dǎo)師,語言計(jì)算與互聯(lián)網(wǎng)挖掘研究室負(fù)責(zé)人。研究方向?yàn)樽匀徽Z言處理與文本挖掘,研究興趣包括自動文摘與文本生成、情感分析與語義計(jì)算等。擔(dān)任計(jì)算語言學(xué)頂級國際期刊Computational Linguistics編委,TACL常務(wù)評審,多次擔(dān)任自然語言處理與人工智能領(lǐng)域一流國際會議領(lǐng)域主席(Area Chair)或高級程序委員(SPC),包括ACL、NAACL、EMNLP、IJCAI、AAAI等。榮獲ACL2017杰出論文獎、IJCAI2018杰出論文獎、2017年吳文俊人工智能技術(shù)發(fā)明獎、CCF NLPCC青年新銳獎等多項(xiàng)榮譽(yù)或獎勵。
自然語言生成NLG的四種典型應(yīng)用場景:
自然語言生成的產(chǎn)業(yè)應(yīng)用主要包括四種場景:第一種是從文本到文本(模仿寫作風(fēng)格寫新作品) ,第二種是從結(jié)構(gòu)化數(shù)據(jù)到文本(財(cái)經(jīng)新聞、體育比賽新聞生成),第三種是由非結(jié)構(gòu)化數(shù)據(jù)的文本生成(給圖片或視頻打標(biāo)簽),第四種是原創(chuàng)與二次創(chuàng)作(根據(jù)文摘寫摘要,或創(chuàng)作劇本小說)。雖然已經(jīng)出現(xiàn)許多成功的應(yīng)用,比如微軟小冰、阿里小蜜、《南方周末》寫稿機(jī)器人,但目前NLG領(lǐng)域總體上還處于弱人工智能水平。
NLG未來發(fā)展趨勢與面對的挑戰(zhàn)
與計(jì)算機(jī)視覺、機(jī)器翻譯領(lǐng)域不同,自然語言生成領(lǐng)域缺少高質(zhì)量數(shù)據(jù)、人工標(biāo)注很困難,如何由少量數(shù)據(jù)生成可靠模型是未來的首要發(fā)展方向。
目前已經(jīng)有成熟的摘要寫作、財(cái)經(jīng)新聞寫作、體育比賽新聞寫作的寫稿機(jī)器人面世,但都沒有獨(dú)特的寫作風(fēng)格,如何實(shí)現(xiàn)不同寫作文本風(fēng)格轉(zhuǎn)換并能通過“圖靈檢測”,是NLG未來發(fā)展的一大趨勢。
另一個(gè)發(fā)展方向是讀取長文本生成短文本,比如將學(xué)術(shù)論文轉(zhuǎn)為簡潔易懂的科普文章,目前已有相關(guān)的需求,但尚無成熟的解決方案。
實(shí)時(shí)處理在NLG中也非常重要,比如世界杯足球賽實(shí)時(shí)解說、機(jī)器辯論,再到專家談判系統(tǒng),輸出實(shí)時(shí)語音流也會是NLG未來的熱點(diǎn)之一。
高考作文、小說劇本創(chuàng)作,是指定話題的長文本寫作,未來需求也會很旺盛。但目前,模板填充是主要方法,算法填充僅起輔助作用,仍然跳不出模板的框架。
跨模態(tài)文本生成(比如由音樂生成歌詞)作為NLG的一個(gè)分支,隨著多媒體數(shù)字化和人工智能作曲的發(fā)展,將會有更多應(yīng)用。
除此之外,自然語言生成領(lǐng)域缺乏統(tǒng)一的評價(jià)指標(biāo)體系,這也是未來一大缺口。
報(bào)告二 秦兵:高考作文中的議論文自動題意分析及生成

第二位報(bào)告人是哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院秦兵教授。分享題目是“高考作文中的議論文自動題意分析及生成”。高考議論文相比于其他文本生成任務(wù),更加側(cè)重于篇章的論點(diǎn)分析及篇章生成的內(nèi)容組織。本次討論重點(diǎn)關(guān)注高考作文中的立意分析、根據(jù)題意分析獲得的論點(diǎn)及分論點(diǎn)以及進(jìn)一步在此基礎(chǔ)上生成議論文技術(shù)。
嘉賓簡介:秦兵,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師。哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索中心副主任。中國中文信息學(xué)會理事、中國中文信息學(xué)會語言與知識計(jì)算專委會主任,中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專委會委員。主要研究方向:文本生成、知識圖譜、情感分析等。在ACL、IJCAI、AAAI、IEEE TKDE、IEEE TASLP等國內(nèi)外頂級會議及重要期刊上發(fā)表論文80余篇,主持多項(xiàng)國家基金委項(xiàng)目和國家科技部863項(xiàng)目,在NLPCC2018情感對話生成評測獲得第二名,主持開發(fā)了863項(xiàng)目語文卷答題系統(tǒng)。同時(shí)和多加互聯(lián)網(wǎng)企業(yè)開展合作,多項(xiàng)研究成果進(jìn)入企業(yè)產(chǎn)品。獲中文信息學(xué)會錢偉長中文信息處理科學(xué)技術(shù)獎一等獎、黑龍江省技術(shù)發(fā)明一等獎、黑龍江省技術(shù)發(fā)明二等獎
高考議論文作文的特點(diǎn)
高考議論文作文與一般的自然語言生成不同,因?yàn)樽h論文是題材性的長文本,且高質(zhì)量的訓(xùn)練集十分有限。高考作文分為三種類型:話題作文、半命題作文、根據(jù)材料自擬題目作文,難度依次增加。
議論文自動生成的思路
高考議論文寫作機(jī)器人的寫作方法與一般考生方法是類似的。都經(jīng)過了讀材料、搜索素材、整合論點(diǎn)、梳理框架、流暢表達(dá)的過程。即理解題意、立意分析、生成論點(diǎn)、分論點(diǎn)、擴(kuò)充話題詞并聚類、生成作文標(biāo)題、從素材庫中挑選句子并排序、生成作文全文。
議論文生成的主要難點(diǎn)
議論文是帶有特定題材的長文本,很難找到高質(zhì)量的訓(xùn)練集,而且要發(fā)動很多語文老師對訓(xùn)練集進(jìn)行打分,我們使用知乎語料作為訓(xùn)練集,并輔以科大訊飛作文自動打分系統(tǒng),從高贊的文章中采用遷移學(xué)習(xí)的方法提取高分文本特征,再針對指定命題材料進(jìn)行微調(diào)。
議論文生成結(jié)果評估
目前自動生成的作文,句子過于碎片化,句段之間缺乏銜接性和思維連貫性。針對連貫性和跑題問題,我們在深度學(xué)習(xí)模型中引入了注意力機(jī)制和動態(tài)覆蓋機(jī)制,保證主要論點(diǎn)和關(guān)鍵詞在全文都能得以體現(xiàn)。通過粗粒度到細(xì)粒度的文本生成框架優(yōu)化議論文生成的結(jié)構(gòu)和邏輯,并進(jìn)一步借鑒人類的寫作模式進(jìn)行探索。
報(bào)告三 范欣:資訊內(nèi)容理解和輔助創(chuàng)作
第三位報(bào)告人是騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān)范欣。分享題目是“資訊內(nèi)容理解和輔助創(chuàng)作”。
嘉賓簡介:范欣,騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān),專家研究員。目前負(fù)責(zé)騰訊新聞的內(nèi)容理解、個(gè)性化推薦和創(chuàng)新業(yè)務(wù)的算法。騰訊新聞寫稿機(jī)器人Dreamwriter的技術(shù)負(fù)責(zé)人。2007年畢業(yè)于中科大-微軟聯(lián)合培養(yǎng)博士項(xiàng)目,有多年的搜索和個(gè)性化推薦產(chǎn)品的研究經(jīng)驗(yàn)。

騰訊新聞平臺擁有每天十億級的用戶閱讀量,已經(jīng)超過了很多官方媒體。如何為每位用戶個(gè)性化推薦新聞成為了重要問題。騰訊新聞根據(jù)用戶畫像、興趣標(biāo)簽、內(nèi)容排序,構(gòu)建雙層的新聞知識圖譜系統(tǒng),對新聞內(nèi)容進(jìn)行結(jié)構(gòu)化組織。
二次創(chuàng)作的流程是這樣的:首先,機(jī)器對已有的新聞資訊或者原始新聞數(shù)據(jù)進(jìn)行自動摘要和改寫,同時(shí)自動搭配圖片和視頻,就形成了可讀的新聞稿。騰訊新聞產(chǎn)品技術(shù)部算法中心利用文本、圖像、視頻多模態(tài)內(nèi)容分析,簡化了新聞內(nèi)容生產(chǎn)流程,在報(bào)道、短視頻自動生成領(lǐng)域進(jìn)行了探索。
在未來,騰訊新聞將開發(fā)輔助編輯系統(tǒng)。包括基于財(cái)報(bào)、戰(zhàn)報(bào)的快速供稿、熱點(diǎn)素材挖掘、快速理解分析審核系統(tǒng)。輔助編輯系統(tǒng)將大大節(jié)省新聞校對審核時(shí)間,快速甄別出文章的輿情指數(shù)、敏感信息、正負(fù)能量、低俗惡俗、標(biāo)題黨和灌水等特征,同時(shí)通過圖像和視頻處理做到文章的自動配圖、選圖、裁剪、排版。
報(bào)告四 武威:開放域?qū)υ捝杉霸谖④浶”械膽?yīng)用
第四位報(bào)告人是微軟首席科學(xué)家武威,在微軟小冰項(xiàng)目擔(dān)任算法研究工作。分享題目是“開放域?qū)υ捝杉霸谖④浶”械膽?yīng)用”。
嘉賓簡介:武威,現(xiàn)任微軟首席科學(xué)家,他于2012年加入微軟亞洲研究院自然語言計(jì)算組,并于2016-2017年擔(dān)任主管研究員。他于2007年在北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院獲得理學(xué)學(xué)士學(xué)位,并于2012年于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院概率統(tǒng)計(jì)系獲得博士學(xué)位。他的研究興趣包括自然語言處理,機(jī)器學(xué)習(xí),以及信息檢索。武威博士在ACL、EMNLP、AAAI、IJCAI、WSDM、CIKM,以及JMLR等自然語言處理、人工智能、信息檢索,以及機(jī)器學(xué)習(xí)的頂級會議期刊上發(fā)表超過25篇文章,并長期擔(dān)任NIPS、ICML、AAAI、IJCAI、SIGIR、WWW、WSDM、KDD、ACL等頂級會議的程序委員會委員。他目前的研究重心是自然人機(jī)對話。他為微軟小冰第二代到第六代對話引擎貢獻(xiàn)了核心算法。他最近的成就是帶領(lǐng)團(tuán)隊(duì)研發(fā)了第五代小冰的生成模型以及第六代小冰的共感模型。
人機(jī)對話領(lǐng)域的挑戰(zhàn)
人機(jī)對話是自然語言生成的熱點(diǎn)領(lǐng)域,直接面對的需求就是人工智能客服與聊天機(jī)器人,目前的聊天機(jī)器人雖然能初步理解上下文,但在超長文本處理仍然很難把握。對話管理技術(shù)仍顯內(nèi)容性不足。在微軟小冰中,通過引入解碼器算法和層次循環(huán)注意力模型,顯著提升了對話生成效率。
通過觀察大量用戶和微軟小冰的交互案例,工程師總結(jié)了對話生成領(lǐng)域四個(gè)問題:萬能回復(fù)問題、上下文建模問題、回復(fù)解碼效率問題、對話管理問題。
萬能回復(fù)問題
萬能回復(fù)問題指的是在開放域?qū)υ捴校褂萌f能答案回復(fù)各種問題,模型學(xué)習(xí)出高頻萬能回復(fù)詞語,解決這個(gè)問題的關(guān)鍵在于引入外部信息和基于話題的注意力機(jī)制,生成相關(guān)概念的聯(lián)想,避免毫無信息量的萬能回復(fù)出現(xiàn)。還可以先由輸入內(nèi)容生成隱變量,聊天機(jī)器人的回復(fù)由輸入內(nèi)容和隱變量共同決定。
上下文建模問題
上下文建模問題指的是聊天機(jī)器人上下文內(nèi)容連貫一致性問題,上下文具有字、句、段、文分層的數(shù)據(jù)結(jié)構(gòu),具有大量與回復(fù)內(nèi)容無關(guān)的冗余信息,關(guān)鍵詞聯(lián)想可能與上下文根本無關(guān),上下文存在時(shí)序和遠(yuǎn)距離依賴關(guān)系等特點(diǎn)。
層次循環(huán)注意力模型
通過循環(huán)神經(jīng)網(wǎng)絡(luò)對上下文的每一個(gè)詞序列進(jìn)行建模,產(chǎn)生每一個(gè)句子的表示,采用詞級別的注意力機(jī)制,突出詞對回復(fù)生成的影響。再通過循環(huán)神經(jīng)網(wǎng)絡(luò)對上下文的句子進(jìn)行建模,產(chǎn)生上下文的表示,采用句子級別的注意力機(jī)制,突出重要句子對回復(fù)生成的影響。最后的回復(fù)生成由上下文表示、詞和句的注意力機(jī)制共同實(shí)現(xiàn)的。這個(gè)模型可以告訴我們機(jī)器是怎樣理解上下文的。通過“你為什么不能陪我去吃飯”的例子進(jìn)一步說明了
對話生成中的解碼效率問題
傳統(tǒng)對話生成模型效率低下,一個(gè)重要原因是在回復(fù)生成中每解碼一個(gè)詞,模型都要掃一遍全詞表,但實(shí)際上對于特定的輸入,全詞表中大部分內(nèi)容都與回復(fù)生成無關(guān)。微軟小冰團(tuán)隊(duì)開發(fā)了基于動詞表的對話生成模型,在原有的注意力機(jī)制和解碼器模型上加了過濾器,在保留功能性詞匯的基礎(chǔ)上篩選出最相關(guān)的內(nèi)容性詞匯。
這樣每次回復(fù)生成時(shí)只需要掃描一個(gè)小型動態(tài)詞表即可,經(jīng)過試驗(yàn)可提升40%的效率。
開放域?qū)υ捁芾韱栴}
在開放域的對話環(huán)境下,用戶的意圖非常分散,難以判定用戶具體需求。微軟小冰通過分析用戶的對話技巧,開發(fā)了基于上下文的策略預(yù)測模型,分析用戶對話技巧并預(yù)測用戶反饋,進(jìn)而通過回復(fù)預(yù)測模型,根據(jù)預(yù)測出的用戶反饋產(chǎn)生指定回復(fù)。這個(gè)模型還可以擴(kuò)展到基于話題策略的開放域?qū)υ?,也可以分析用戶情感狀態(tài)作為回復(fù)策略的依據(jù)進(jìn)行對話管理。
報(bào)告五 黃民烈:語言生成中的一致性和邏輯性問題
第五位報(bào)告人是清華大學(xué)計(jì)算機(jī)系副教授黃民烈,分享題目是“語言生成中的一致性和邏輯問題”。探討了在長文本對話生成中如何保持屬性一致、邏輯連貫。
嘉賓簡介:黃民烈,清華大學(xué)計(jì)算機(jī)系副教授,博士生導(dǎo)師,人工智能研究所副所長。研究興趣主要集中在自然語言處理如自動問答、對話系統(tǒng)、情感與情緒智能等。已超過60篇CCF A/B類論文發(fā)表在ACL、IJCAI、AAAI、EMNLP、ACM TOIS等國際頂級或主流會議及期刊上。獲得IJCAI-ECAI 2018杰出論文獎,獲得NLPCC 2015最佳論文,其關(guān)于情緒化聊天機(jī)器人的工作被MIT Technology Review、NVIDIA、英國衛(wèi)報(bào)(The Guardian)、參考消息、新華社等媒體廣泛報(bào)道。曾擔(dān)任多個(gè)國際頂級會議的領(lǐng)域主席或高級程序委員,如AAAI2019、IJCAI2018、IJCAI2017、ACL2016、EMNLP2014/2011等。

微軟小冰雖然是一款成功的產(chǎn)品,但尚有瑕疵,比如沒有上下文的記憶、關(guān)鍵屬性不明確、無自身獨(dú)特人格個(gè)性,如何保證風(fēng)格一致,用同樣的畫風(fēng)呈現(xiàn)在用戶面前。


蘋果的Siri也會遇到語義理解問題(目前這些bug已得到修復(fù))。

清華大學(xué)在交互性和邏輯一致性優(yōu)化方面做了大量工作。開發(fā)了ECM聊天機(jī)器人(Emotional Chatting Machine),首次將情感因素引入了基于深度學(xué)習(xí)的生成模型中。構(gòu)建圖注意力的常識知識圖譜編碼模型,建立上下文事件聯(lián)系和隱性邏輯線索關(guān)系。比如,當(dāng)用戶提到“萬圣節(jié)”,模型就可以自動給出這個(gè)事件與“糖果”、“扮鬼”、“裝扮”等關(guān)鍵詞的聯(lián)系。
ECM 的主要數(shù)據(jù)來源是新浪微博。但微博作為一個(gè)非?;钴S的社交媒體,也有非常多涉及網(wǎng)絡(luò)用語、反語、雙關(guān)的帖子或評論,目前有不少學(xué)者在做相關(guān)的研究,包括網(wǎng)絡(luò)新詞、反語檢測、雙關(guān)檢測等,黃民烈博士自己也有相關(guān)的研究工作。比如在自然語言處理領(lǐng)域頂級會議 ACL 2014 上,黃民烈博士有一篇第一作者的收錄論文《情感分析中的新詞發(fā)現(xiàn)》(New Word Finding for Sentiment Analysis),基于微博數(shù)據(jù)提出了一種數(shù)據(jù)驅(qū)動、不依賴知識、非監(jiān)督的新詞發(fā)現(xiàn)算法。2017年9月,黃民烈博士也帶領(lǐng)清華的兩位學(xué)生,聯(lián)合搜狗搜索團(tuán)隊(duì)一舉獲得了全球唯一開放域?qū)υ捲u測比賽 NTCIR-STC2 的冠軍。
在故事性長文本的續(xù)寫中也能做深層理解。比如下面這個(gè)例子:輸入“生火做晚飯”、“離開灶臺去睡覺”,人工智能就能理解出潛在的“誤事”語義,輸出“當(dāng)廚師回來的時(shí)候,爐子燒糊了”的續(xù)寫結(jié)果。


相關(guān)論文可查看《Emotional Chatting Machine:
Emotional Conversation Generation with Internal and External Memory》,作者周昊、黃民烈、張?zhí)鞊P(yáng)、朱小燕、劉兵。
作者介紹
張子豪,同濟(jì)大學(xué)在讀研究生。微信公眾號“人工智能小技巧”運(yùn)營者。致力于用人類能聽懂的語言向大眾科普人工智能前沿科技。目前正在制作《說人話的深度學(xué)習(xí)視頻教程》、《零基礎(chǔ)入門樹莓派趣味編程》等視頻教程。西南地區(qū)人工智能愛好者高校聯(lián)盟聯(lián)合創(chuàng)始人,重慶大學(xué)人工智能協(xié)會聯(lián)合創(chuàng)始人。充滿好奇的終身學(xué)習(xí)者、崇尚自由的開源社區(qū)貢獻(xiàn)者、樂于向零基礎(chǔ)分享經(jīng)驗(yàn)的引路人、口才還不錯的程序員。
說人話的零基礎(chǔ)深度學(xué)習(xí)、數(shù)據(jù)科學(xué)視頻教程、樹莓派趣味開發(fā)視頻教程等你來看!
微信公眾號:人工智能小技巧 Github代碼倉庫:TommyZihao
西南人工智能愛好者聯(lián)盟
重慶大學(xué)人工智能協(xié)會
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 前面的文章主要從理論的角度介紹了自然語言人機(jī)對話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章,甚至之后...
- 情書最后,藤井樹望著卡片背后自己中學(xué)時(shí)代的畫像竟無話可說……一切都猶如剛開始那樣,從懵懂到思念再到懵懂,愛情大抵...