本論壇是2018中國計(jì)算機(jī)大會（CNCC）的分論壇之一：自然語言生成，讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)。涉及自然語言生成目前成果總結(jié)、產(chǎn)業(yè)應(yīng)用及前景展望。包括微軟小冰、阿里小蜜、高考議論文自動生成、騰訊新聞推薦系統(tǒng)、財(cái)經(jīng)及體育新聞生成等應(yīng)用案例及背后的優(yōu)化算法模型。

作者：張子豪（同濟(jì)大學(xué)在讀研究生）

微信公眾號：人工智能小技巧

發(fā)布于2018-10-31

隨著深度計(jì)算的發(fā)展，自然語言生成獲得了新的發(fā)展機(jī)遇。從2015年開始，騰訊、今日頭條、南方都市報(bào)等先后采用寫稿機(jī)器人，單篇成文的速度可達(dá)到0.5秒。2014年以來，自然對話也被認(rèn)為是下一代人機(jī)交互的關(guān)鍵技術(shù)獲得了長足發(fā)展，開放域聊天機(jī)器人（如微軟小冰）和客服型機(jī)器人（如阿里小蜜）均有上線的產(chǎn)品和海量的用戶。對話生成近年來也在自然語言處理會議上逐漸升溫。除此之外，研究人員對其他問題也做出嘗試。2017年人類歷史上第一本百分之百人工智能創(chuàng)作的詩集《陽光失了玻璃窗》正式出版，作者正是微軟小冰。在2018年中國計(jì)算機(jī)大會（CNCC）“自然語言生成：讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)”分論壇，自然語言處理領(lǐng)域的頂尖學(xué)者齊聚一堂，共話機(jī)器文本處理的“芯”挑戰(zhàn)。

陽光失了玻璃窗

時(shí)間：2018年10月26日下午13:30-17:30

地點(diǎn)：杭州國際博覽中心會議區(qū) 二層新聞發(fā)布廳 A

分論壇主席為北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員萬小軍、微軟（亞洲）互聯(lián)網(wǎng)工程院小冰首席科學(xué)家宋睿華。分享嘉賓可謂大牛云集：哈工大計(jì)算機(jī)學(xué)院教授秦兵、騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān)范欣、微軟亞洲研究院自然語言計(jì)算組首席科學(xué)家武威、清華大學(xué)計(jì)算機(jī)系副教授黃民烈。

[TOC]

報(bào)告一萬小軍：NLG自然語言生成目前成果總結(jié)及前瞻展望

萬小軍

嘉賓簡介：萬小軍，北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員，博士生導(dǎo)師，語言計(jì)算與互聯(lián)網(wǎng)挖掘研究室負(fù)責(zé)人。研究方向?yàn)樽匀徽Z言處理與文本挖掘，研究興趣包括自動文摘與文本生成、情感分析與語義計(jì)算等。擔(dān)任計(jì)算語言學(xué)頂級國際期刊Computational Linguistics編委，TACL常務(wù)評審，多次擔(dān)任自然語言處理與人工智能領(lǐng)域一流國際會議領(lǐng)域主席（Area Chair）或高級程序委員（SPC），包括ACL、NAACL、EMNLP、IJCAI、AAAI等。榮獲ACL2017杰出論文獎、IJCAI2018杰出論文獎、2017年吳文俊人工智能技術(shù)發(fā)明獎、CCF NLPCC青年新銳獎等多項(xiàng)榮譽(yù)或獎勵。

自然語言生成NLG的四種典型應(yīng)用場景：

自然語言生成的產(chǎn)業(yè)應(yīng)用主要包括四種場景：第一種是從文本到文本（模仿寫作風(fēng)格寫新作品），第二種是從結(jié)構(gòu)化數(shù)據(jù)到文本（財(cái)經(jīng)新聞、體育比賽新聞生成），第三種是由非結(jié)構(gòu)化數(shù)據(jù)的文本生成（給圖片或視頻打標(biāo)簽），第四種是原創(chuàng)與二次創(chuàng)作（根據(jù)文摘寫摘要，或創(chuàng)作劇本小說）。雖然已經(jīng)出現(xiàn)許多成功的應(yīng)用，比如微軟小冰、阿里小蜜、《南方周末》寫稿機(jī)器人，但目前NLG領(lǐng)域總體上還處于弱人工智能水平。

NLG未來發(fā)展趨勢與面對的挑戰(zhàn)

與計(jì)算機(jī)視覺、機(jī)器翻譯領(lǐng)域不同，自然語言生成領(lǐng)域缺少高質(zhì)量數(shù)據(jù)、人工標(biāo)注很困難，如何由少量數(shù)據(jù)生成可靠模型是未來的首要發(fā)展方向。

目前已經(jīng)有成熟的摘要寫作、財(cái)經(jīng)新聞寫作、體育比賽新聞寫作的寫稿機(jī)器人面世，但都沒有獨(dú)特的寫作風(fēng)格，如何實(shí)現(xiàn)不同寫作文本風(fēng)格轉(zhuǎn)換并能通過“圖靈檢測”，是NLG未來發(fā)展的一大趨勢。

另一個(gè)發(fā)展方向是讀取長文本生成短文本，比如將學(xué)術(shù)論文轉(zhuǎn)為簡潔易懂的科普文章，目前已有相關(guān)的需求，但尚無成熟的解決方案。

實(shí)時(shí)處理在NLG中也非常重要，比如世界杯足球賽實(shí)時(shí)解說、機(jī)器辯論，再到專家談判系統(tǒng)，輸出實(shí)時(shí)語音流也會是NLG未來的熱點(diǎn)之一。

高考作文、小說劇本創(chuàng)作，是指定話題的長文本寫作，未來需求也會很旺盛。但目前，模板填充是主要方法，算法填充僅起輔助作用，仍然跳不出模板的框架。

跨模態(tài)文本生成（比如由音樂生成歌詞）作為NLG的一個(gè)分支，隨著多媒體數(shù)字化和人工智能作曲的發(fā)展，將會有更多應(yīng)用。

除此之外，自然語言生成領(lǐng)域缺乏統(tǒng)一的評價(jià)指標(biāo)體系，這也是未來一大缺口。

報(bào)告二秦兵：高考作文中的議論文自動題意分析及生成

秦兵

第二位報(bào)告人是哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院秦兵教授。分享題目是“高考作文中的議論文自動題意分析及生成”。高考議論文相比于其他文本生成任務(wù)，更加側(cè)重于篇章的論點(diǎn)分析及篇章生成的內(nèi)容組織。本次討論重點(diǎn)關(guān)注高考作文中的立意分析、根據(jù)題意分析獲得的論點(diǎn)及分論點(diǎn)以及進(jìn)一步在此基礎(chǔ)上生成議論文技術(shù)。

嘉賓簡介：秦兵，哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師。哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索中心副主任。中國中文信息學(xué)會理事、中國中文信息學(xué)會語言與知識計(jì)算專委會主任，中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專委會委員。主要研究方向：文本生成、知識圖譜、情感分析等。在ACL、IJCAI、AAAI、IEEE TKDE、IEEE TASLP等國內(nèi)外頂級會議及重要期刊上發(fā)表論文80余篇，主持多項(xiàng)國家基金委項(xiàng)目和國家科技部863項(xiàng)目，在NLPCC2018情感對話生成評測獲得第二名，主持開發(fā)了863項(xiàng)目語文卷答題系統(tǒng)。同時(shí)和多加互聯(lián)網(wǎng)企業(yè)開展合作，多項(xiàng)研究成果進(jìn)入企業(yè)產(chǎn)品。獲中文信息學(xué)會錢偉長中文信息處理科學(xué)技術(shù)獎一等獎、黑龍江省技術(shù)發(fā)明一等獎、黑龍江省技術(shù)發(fā)明二等獎

高考議論文作文的特點(diǎn)

高考議論文作文與一般的自然語言生成不同，因?yàn)樽h論文是題材性的長文本，且高質(zhì)量的訓(xùn)練集十分有限。高考作文分為三種類型：話題作文、半命題作文、根據(jù)材料自擬題目作文，難度依次增加。

議論文自動生成的思路

高考議論文寫作機(jī)器人的寫作方法與一般考生方法是類似的。都經(jīng)過了讀材料、搜索素材、整合論點(diǎn)、梳理框架、流暢表達(dá)的過程。即理解題意、立意分析、生成論點(diǎn)、分論點(diǎn)、擴(kuò)充話題詞并聚類、生成作文標(biāo)題、從素材庫中挑選句子并排序、生成作文全文。

議論文生成的主要難點(diǎn)

議論文是帶有特定題材的長文本，很難找到高質(zhì)量的訓(xùn)練集，而且要發(fā)動很多語文老師對訓(xùn)練集進(jìn)行打分，我們使用知乎語料作為訓(xùn)練集，并輔以科大訊飛作文自動打分系統(tǒng)，從高贊的文章中采用遷移學(xué)習(xí)的方法提取高分文本特征，再針對指定命題材料進(jìn)行微調(diào)。

議論文生成結(jié)果評估

目前自動生成的作文，句子過于碎片化，句段之間缺乏銜接性和思維連貫性。針對連貫性和跑題問題，我們在深度學(xué)習(xí)模型中引入了注意力機(jī)制和動態(tài)覆蓋機(jī)制，保證主要論點(diǎn)和關(guān)鍵詞在全文都能得以體現(xiàn)。通過粗粒度到細(xì)粒度的文本生成框架優(yōu)化議論文生成的結(jié)構(gòu)和邏輯，并進(jìn)一步借鑒人類的寫作模式進(jìn)行探索。

報(bào)告三范欣：資訊內(nèi)容理解和輔助創(chuàng)作

第三位報(bào)告人是騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān)范欣。分享題目是“資訊內(nèi)容理解和輔助創(chuàng)作”。

嘉賓簡介：范欣，騰訊新聞產(chǎn)品技術(shù)部算法中心總監(jiān)，專家研究員。目前負(fù)責(zé)騰訊新聞的內(nèi)容理解、個(gè)性化推薦和創(chuàng)新業(yè)務(wù)的算法。騰訊新聞寫稿機(jī)器人Dreamwriter的技術(shù)負(fù)責(zé)人。2007年畢業(yè)于中科大-微軟聯(lián)合培養(yǎng)博士項(xiàng)目，有多年的搜索和個(gè)性化推薦產(chǎn)品的研究經(jīng)驗(yàn)。

范欣

騰訊新聞平臺擁有每天十億級的用戶閱讀量，已經(jīng)超過了很多官方媒體。如何為每位用戶個(gè)性化推薦新聞成為了重要問題。騰訊新聞根據(jù)用戶畫像、興趣標(biāo)簽、內(nèi)容排序，構(gòu)建雙層的新聞知識圖譜系統(tǒng)，對新聞內(nèi)容進(jìn)行結(jié)構(gòu)化組織。

二次創(chuàng)作的流程是這樣的：首先，機(jī)器對已有的新聞資訊或者原始新聞數(shù)據(jù)進(jìn)行自動摘要和改寫，同時(shí)自動搭配圖片和視頻，就形成了可讀的新聞稿。騰訊新聞產(chǎn)品技術(shù)部算法中心利用文本、圖像、視頻多模態(tài)內(nèi)容分析，簡化了新聞內(nèi)容生產(chǎn)流程，在報(bào)道、短視頻自動生成領(lǐng)域進(jìn)行了探索。

在未來，騰訊新聞將開發(fā)輔助編輯系統(tǒng)。包括基于財(cái)報(bào)、戰(zhàn)報(bào)的快速供稿、熱點(diǎn)素材挖掘、快速理解分析審核系統(tǒng)。輔助編輯系統(tǒng)將大大節(jié)省新聞校對審核時(shí)間，快速甄別出文章的輿情指數(shù)、敏感信息、正負(fù)能量、低俗惡俗、標(biāo)題黨和灌水等特征，同時(shí)通過圖像和視頻處理做到文章的自動配圖、選圖、裁剪、排版。

報(bào)告四武威：開放域?qū)υ捝杉霸谖④浶”械膽?yīng)用

第四位報(bào)告人是微軟首席科學(xué)家武威，在微軟小冰項(xiàng)目擔(dān)任算法研究工作。分享題目是“開放域?qū)υ捝杉霸谖④浶”械膽?yīng)用”。

嘉賓簡介：武威，現(xiàn)任微軟首席科學(xué)家，他于2012年加入微軟亞洲研究院自然語言計(jì)算組，并于2016-2017年擔(dān)任主管研究員。他于2007年在北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院獲得理學(xué)學(xué)士學(xué)位，并于2012年于北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院概率統(tǒng)計(jì)系獲得博士學(xué)位。他的研究興趣包括自然語言處理，機(jī)器學(xué)習(xí)，以及信息檢索。武威博士在ACL、EMNLP、AAAI、IJCAI、WSDM、CIKM，以及JMLR等自然語言處理、人工智能、信息檢索，以及機(jī)器學(xué)習(xí)的頂級會議期刊上發(fā)表超過25篇文章，并長期擔(dān)任NIPS、ICML、AAAI、IJCAI、SIGIR、WWW、WSDM、KDD、ACL等頂級會議的程序委員會委員。他目前的研究重心是自然人機(jī)對話。他為微軟小冰第二代到第六代對話引擎貢獻(xiàn)了核心算法。他最近的成就是帶領(lǐng)團(tuán)隊(duì)研發(fā)了第五代小冰的生成模型以及第六代小冰的共感模型。

人機(jī)對話領(lǐng)域的挑戰(zhàn)

人機(jī)對話是自然語言生成的熱點(diǎn)領(lǐng)域，直接面對的需求就是人工智能客服與聊天機(jī)器人，目前的聊天機(jī)器人雖然能初步理解上下文，但在超長文本處理仍然很難把握。對話管理技術(shù)仍顯內(nèi)容性不足。在微軟小冰中，通過引入解碼器算法和層次循環(huán)注意力模型，顯著提升了對話生成效率。

通過觀察大量用戶和微軟小冰的交互案例，工程師總結(jié)了對話生成領(lǐng)域四個(gè)問題：萬能回復(fù)問題、上下文建模問題、回復(fù)解碼效率問題、對話管理問題。

萬能回復(fù)問題

萬能回復(fù)問題指的是在開放域?qū)υ捴校褂萌f能答案回復(fù)各種問題，模型學(xué)習(xí)出高頻萬能回復(fù)詞語，解決這個(gè)問題的關(guān)鍵在于引入外部信息和基于話題的注意力機(jī)制，生成相關(guān)概念的聯(lián)想，避免毫無信息量的萬能回復(fù)出現(xiàn)。還可以先由輸入內(nèi)容生成隱變量，聊天機(jī)器人的回復(fù)由輸入內(nèi)容和隱變量共同決定。

上下文建模問題

上下文建模問題指的是聊天機(jī)器人上下文內(nèi)容連貫一致性問題，上下文具有字、句、段、文分層的數(shù)據(jù)結(jié)構(gòu)，具有大量與回復(fù)內(nèi)容無關(guān)的冗余信息，關(guān)鍵詞聯(lián)想可能與上下文根本無關(guān)，上下文存在時(shí)序和遠(yuǎn)距離依賴關(guān)系等特點(diǎn)。

層次循環(huán)注意力模型

通過循環(huán)神經(jīng)網(wǎng)絡(luò)對上下文的每一個(gè)詞序列進(jìn)行建模，產(chǎn)生每一個(gè)句子的表示，采用詞級別的注意力機(jī)制，突出詞對回復(fù)生成的影響。再通過循環(huán)神經(jīng)網(wǎng)絡(luò)對上下文的句子進(jìn)行建模，產(chǎn)生上下文的表示，采用句子級別的注意力機(jī)制，突出重要句子對回復(fù)生成的影響。最后的回復(fù)生成由上下文表示、詞和句的注意力機(jī)制共同實(shí)現(xiàn)的。這個(gè)模型可以告訴我們機(jī)器是怎樣理解上下文的。通過“你為什么不能陪我去吃飯”的例子進(jìn)一步說明了

對話生成中的解碼效率問題

傳統(tǒng)對話生成模型效率低下，一個(gè)重要原因是在回復(fù)生成中每解碼一個(gè)詞，模型都要掃一遍全詞表，但實(shí)際上對于特定的輸入，全詞表中大部分內(nèi)容都與回復(fù)生成無關(guān)。微軟小冰團(tuán)隊(duì)開發(fā)了基于動詞表的對話生成模型，在原有的注意力機(jī)制和解碼器模型上加了過濾器，在保留功能性詞匯的基礎(chǔ)上篩選出最相關(guān)的內(nèi)容性詞匯。

這樣每次回復(fù)生成時(shí)只需要掃描一個(gè)小型動態(tài)詞表即可，經(jīng)過試驗(yàn)可提升40%的效率。

開放域?qū)υ捁芾韱栴}

在開放域的對話環(huán)境下，用戶的意圖非常分散，難以判定用戶具體需求。微軟小冰通過分析用戶的對話技巧，開發(fā)了基于上下文的策略預(yù)測模型，分析用戶對話技巧并預(yù)測用戶反饋，進(jìn)而通過回復(fù)預(yù)測模型，根據(jù)預(yù)測出的用戶反饋產(chǎn)生指定回復(fù)。這個(gè)模型還可以擴(kuò)展到基于話題策略的開放域?qū)υ?，也可以分析用戶情感狀態(tài)作為回復(fù)策略的依據(jù)進(jìn)行對話管理。

報(bào)告五黃民烈：語言生成中的一致性和邏輯性問題

第五位報(bào)告人是清華大學(xué)計(jì)算機(jī)系副教授黃民烈，分享題目是“語言生成中的一致性和邏輯問題”。探討了在長文本對話生成中如何保持屬性一致、邏輯連貫。

嘉賓簡介：黃民烈，清華大學(xué)計(jì)算機(jī)系副教授，博士生導(dǎo)師，人工智能研究所副所長。研究興趣主要集中在自然語言處理如自動問答、對話系統(tǒng)、情感與情緒智能等。已超過60篇CCF A/B類論文發(fā)表在ACL、IJCAI、AAAI、EMNLP、ACM TOIS等國際頂級或主流會議及期刊上。獲得IJCAI-ECAI 2018杰出論文獎，獲得NLPCC 2015最佳論文，其關(guān)于情緒化聊天機(jī)器人的工作被MIT Technology Review、NVIDIA、英國衛(wèi)報(bào)（The Guardian）、參考消息、新華社等媒體廣泛報(bào)道。曾擔(dān)任多個(gè)國際頂級會議的領(lǐng)域主席或高級程序委員，如AAAI2019、IJCAI2018、IJCAI2017、ACL2016、EMNLP2014/2011等。

黃民烈與本文作者

微軟小冰雖然是一款成功的產(chǎn)品，但尚有瑕疵，比如沒有上下文的記憶、關(guān)鍵屬性不明確、無自身獨(dú)特人格個(gè)性，如何保證風(fēng)格一致，用同樣的畫風(fēng)呈現(xiàn)在用戶面前。

微軟小冰的邏輯缺陷

語義邏輯缺陷

蘋果的Siri也會遇到語義理解問題（目前這些bug已得到修復(fù)）。

Siri的語言理解故障

清華大學(xué)在交互性和邏輯一致性優(yōu)化方面做了大量工作。開發(fā)了ECM聊天機(jī)器人（Emotional Chatting Machine），首次將情感因素引入了基于深度學(xué)習(xí)的生成模型中。構(gòu)建圖注意力的常識知識圖譜編碼模型，建立上下文事件聯(lián)系和隱性邏輯線索關(guān)系。比如，當(dāng)用戶提到“萬圣節(jié)”，模型就可以自動給出這個(gè)事件與“糖果”、“扮鬼”、“裝扮”等關(guān)鍵詞的聯(lián)系。

ECM 的主要數(shù)據(jù)來源是新浪微博。但微博作為一個(gè)非?；钴S的社交媒體，也有非常多涉及網(wǎng)絡(luò)用語、反語、雙關(guān)的帖子或評論，目前有不少學(xué)者在做相關(guān)的研究，包括網(wǎng)絡(luò)新詞、反語檢測、雙關(guān)檢測等，黃民烈博士自己也有相關(guān)的研究工作。比如在自然語言處理領(lǐng)域頂級會議 ACL 2014 上，黃民烈博士有一篇第一作者的收錄論文《情感分析中的新詞發(fā)現(xiàn)》（New Word Finding for Sentiment Analysis），基于微博數(shù)據(jù)提出了一種數(shù)據(jù)驅(qū)動、不依賴知識、非監(jiān)督的新詞發(fā)現(xiàn)算法。2017年9月，黃民烈博士也帶領(lǐng)清華的兩位學(xué)生，聯(lián)合搜狗搜索團(tuán)隊(duì)一舉獲得了全球唯一開放域?qū)υ捲u測比賽 NTCIR-STC2 的冠軍。

在故事性長文本的續(xù)寫中也能做深層理解。比如下面這個(gè)例子：輸入“生火做晚飯”、“離開灶臺去睡覺”，人工智能就能理解出潛在的“誤事”語義，輸出“當(dāng)廚師回來的時(shí)候，爐子燒糊了”的續(xù)寫結(jié)果。

開放域?qū)υ捝?/div>

根據(jù)上文預(yù)測下文

相關(guān)論文可查看《Emotional Chatting Machine:
Emotional Conversation Generation with Internal and External Memory》，作者周昊、黃民烈、張?zhí)鞊P(yáng)、朱小燕、劉兵。

作者介紹

張子豪，同濟(jì)大學(xué)在讀研究生。微信公眾號“人工智能小技巧”運(yùn)營者。致力于用人類能聽懂的語言向大眾科普人工智能前沿科技。目前正在制作《說人話的深度學(xué)習(xí)視頻教程》、《零基礎(chǔ)入門樹莓派趣味編程》等視頻教程。西南地區(qū)人工智能愛好者高校聯(lián)盟聯(lián)合創(chuàng)始人，重慶大學(xué)人工智能協(xié)會聯(lián)合創(chuàng)始人。充滿好奇的終身學(xué)習(xí)者、崇尚自由的開源社區(qū)貢獻(xiàn)者、樂于向零基礎(chǔ)分享經(jīng)驗(yàn)的引路人、口才還不錯的程序員。

說人話的零基礎(chǔ)深度學(xué)習(xí)、數(shù)據(jù)科學(xué)視頻教程、樹莓派趣味開發(fā)視頻教程等你來看！

微信公眾號：人工智能小技巧 Github代碼倉庫:TommyZihao

同濟(jì)大學(xué)開源軟件協(xié)會

西南人工智能愛好者聯(lián)盟
重慶大學(xué)人工智能協(xié)會

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CNCC2018中國計(jì)算機(jī)大會：自然語言生成，讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)

CNCC2018中國計(jì)算機(jī)大會：自然語言生成，讓機(jī)器掌握文字創(chuàng)作的本領(lǐng)