
內(nèi)容來(lái)源:2017年7月8日,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所萬(wàn)小軍博士在“CCF-GAIR 2017 全球人工智能與機(jī)器人峰會(huì)——AI+專場(chǎng)”進(jìn)行《機(jī)器寫(xiě)稿技術(shù)與應(yīng)用》演講分享。IT 大咖說(shuō)(ID:itdakashuo)作為獨(dú)家視頻合作方,經(jīng)主辦方和講者審閱授權(quán)發(fā)布。
閱讀字?jǐn)?shù):2685?| 7分鐘閱讀
嘉賓演講視頻及PPT鏈接,請(qǐng)點(diǎn)擊:http://t.cn/EUFX5wc
摘要
全球人工智能與機(jī)器人峰會(huì)CCF-GAIR大會(huì)上,嘉賓分享了機(jī)器寫(xiě)稿的背景和現(xiàn)狀,對(duì)于未來(lái),他認(rèn)為機(jī)器寫(xiě)稿不光是在媒體行業(yè),也會(huì)跟一些游戲行業(yè)和情報(bào)行業(yè)合作。不過(guò),他認(rèn)為讓機(jī)器學(xué)會(huì)推理和歸納,寫(xiě)出真正的深度報(bào)道是最難的,但這也是下一步研究的目標(biāo)。
機(jī)器寫(xiě)稿現(xiàn)狀——國(guó)外
機(jī)器寫(xiě)稿這件事幾年前在國(guó)外已經(jīng)開(kāi)始了。國(guó)外成立了多家知名公司,如ARRIA、AI、NARRATIVESCIENCE等。核心技術(shù)為自然語(yǔ)言生成引擎,主要應(yīng)用于天氣預(yù)報(bào)、空氣質(zhì)量、醫(yī)療報(bào)告、財(cái)經(jīng)、體育等領(lǐng)域的寫(xiě)作。AI公司已經(jīng)為美聯(lián)社等多家單位生成數(shù)億篇新聞報(bào)道,NARRATIVESCIENCE則持續(xù)為FORBES網(wǎng)生成新聞報(bào)道。主要面向的是英文和一些西方語(yǔ)言。
機(jī)器寫(xiě)稿現(xiàn)狀——國(guó)內(nèi)
隨著人工智能技術(shù)的發(fā)展,機(jī)器寫(xiě)稿近幾年在國(guó)內(nèi)也逐漸受到關(guān)注。有一些媒體單位和學(xué)術(shù)機(jī)構(gòu)進(jìn)行合作,推出一些寫(xiě)稿機(jī)器人。還有一些互聯(lián)網(wǎng)巨頭,像百度、微軟、騰訊等單位也在自己研發(fā)機(jī)器寫(xiě)稿技術(shù)。寫(xiě)稿類型主要側(cè)重于體育、財(cái)經(jīng)、民生和娛樂(lè)新聞等這些領(lǐng)域。
原創(chuàng)VS二次創(chuàng)作
我們認(rèn)為機(jī)器寫(xiě)稿有兩種方式,一種是原創(chuàng),另一種是二次創(chuàng)作。原創(chuàng)是沒(méi)有文字稿件,只有結(jié)構(gòu)化的數(shù)據(jù)。我們基于結(jié)構(gòu)化數(shù)據(jù)去生成新的稿件。例如天氣預(yù)報(bào)、空氣質(zhì)量報(bào)告、財(cái)報(bào)、產(chǎn)品說(shuō)明書(shū)等等。
二次創(chuàng)作則是基于已有的稿件內(nèi)容來(lái)創(chuàng)作新的稿件。例如新聞綜述、新聞?wù)?、新聞改?xiě)等等。
機(jī)器寫(xiě)稿所涉及到的NLP技術(shù)
兩種不同的創(chuàng)作方式所依賴的技術(shù)也是不一樣的。一種是自然語(yǔ)言生成技術(shù),一種是自動(dòng)摘要技術(shù)。自然語(yǔ)言生成技術(shù)直接從結(jié)構(gòu)化數(shù)據(jù)或語(yǔ)義表達(dá)來(lái)生成自然語(yǔ)句,適用于原創(chuàng)。自動(dòng)摘要技術(shù)基于已有文本素材來(lái)構(gòu)建稿件,適用于二次創(chuàng)作。
還有一些其它的相關(guān)技術(shù),例如文本信息推薦技術(shù)。就是我們?cè)趯?xiě)稿件的時(shí)候想要引用名人名言、唐詩(shī)宋詞,這時(shí)它就會(huì)做一個(gè)推薦,寫(xiě)到這里的時(shí)候自動(dòng)插入名句。
還有文本復(fù)述技術(shù)。由于涉及到版權(quán)問(wèn)題,如果直接把原始的內(nèi)容復(fù)制過(guò)來(lái)會(huì)有抄襲的嫌疑,所以這時(shí)就需要做復(fù)述,把同樣的語(yǔ)義通過(guò)不同的語(yǔ)言去表達(dá)出來(lái)。
應(yīng)用于傳統(tǒng)媒體 VS 自媒體
不同應(yīng)用單位對(duì)于稿件的要求是不一樣的。傳統(tǒng)的媒體單位對(duì)稿件的要求非常嚴(yán)格,對(duì)錯(cuò)誤零容忍,必須要人工審核后再進(jìn)行發(fā)布。
對(duì)于自媒體來(lái)說(shuō),對(duì)內(nèi)容的要求比較高,但可以容忍部分質(zhì)量問(wèn)題。例如部分語(yǔ)句連貫性不好、有少量錯(cuò)別字等。
不同的質(zhì)量要求決定了對(duì)機(jī)器寫(xiě)稿方法的不同選擇。
機(jī)器寫(xiě)稿人 VS 作者
機(jī)器人和記者之間目前應(yīng)該是一種分工協(xié)作的關(guān)系。機(jī)器人寫(xiě)稿的速度快,不知疲倦,善于寫(xiě)簡(jiǎn)訊。但機(jī)器人只能進(jìn)行低層次、重復(fù)性的勞動(dòng)。而記者具有高度思維,能寫(xiě)深度報(bào)道??梢赃M(jìn)行高層次、有創(chuàng)造性的勞動(dòng)。
記者在寫(xiě)稿件的時(shí)候是能夠清楚地知道自己所寫(xiě)的內(nèi)容,但機(jī)器人在寫(xiě)稿件的時(shí)候雖然他把每一個(gè)句子都寫(xiě)了出來(lái),但實(shí)際上并不能理解自己所寫(xiě)的內(nèi)容。
我們?cè)跈C(jī)器寫(xiě)稿方面的研究和應(yīng)用
我們做了很多基礎(chǔ)研究,包括自動(dòng)文摘、自然語(yǔ)言生成等技術(shù)。另外也做了很多應(yīng)用技術(shù)研究,像新聞資訊自動(dòng)生成、新聞綜述自動(dòng)生成以及用戶評(píng)論的自動(dòng)生成。
新聞資訊自動(dòng)生成
我們的寫(xiě)稿輸入是結(jié)構(gòu)化的數(shù)據(jù)以及可能有的文字素材。會(huì)生成長(zhǎng)度可控的稿件,可以生成幾十字的短訊,也可生成上千字的長(zhǎng)篇資訊。另外還是多領(lǐng)域的,有體育、民生和娛樂(lè)。
體育賽事簡(jiǎn)訊自動(dòng)生成
我們會(huì)從網(wǎng)上抓取一些體育賽事的數(shù)據(jù),基于這些數(shù)據(jù)做數(shù)據(jù)分析,再做文檔規(guī)劃和語(yǔ)句的實(shí)現(xiàn)。就能夠生成一些簡(jiǎn)單的賽事報(bào)道。報(bào)道很短,在幾十字左右。而為了讓報(bào)道更加生動(dòng),我們對(duì)于同樣的消息會(huì)有不同的語(yǔ)言進(jìn)行表達(dá)。
體育賽事長(zhǎng)篇報(bào)道自動(dòng)生成
有一個(gè)很重要的素材叫體育的直播文字。每當(dāng)有著名的梯云比賽的時(shí)候都會(huì)有文字直播,通過(guò)視頻直播轉(zhuǎn)成文字。文字直播中通常包含了主持人對(duì)比賽精彩細(xì)節(jié)的描述。通過(guò)機(jī)器學(xué)習(xí)手段來(lái)把精彩描述挑選出來(lái),最終放到報(bào)道中。這個(gè)報(bào)道就比較長(zhǎng),能夠達(dá)到上千字以上。
體育直播很常見(jiàn),涵蓋了所有的重要比賽。它的特點(diǎn)首先就是信息豐富,體育直播文字涵蓋比賽所涉及的任何重要信息。其次是靈活性好,不同比賽能構(gòu)建不同風(fēng)格的新聞。第三點(diǎn)就是實(shí)時(shí)性好,在比賽任一時(shí)間點(diǎn)都能及時(shí)構(gòu)建并發(fā)布新聞。
生成新聞報(bào)道的過(guò)程首先是對(duì)直播文字進(jìn)行語(yǔ)句的排序,再利用機(jī)器學(xué)習(xí)的手段進(jìn)行語(yǔ)句的智能選擇,最后生成一個(gè)平均長(zhǎng)度超過(guò)1000字的賽事報(bào)道。
娛樂(lè)新聞自動(dòng)生成
可以基于微博生成娛樂(lè)新聞。現(xiàn)在明星經(jīng)常會(huì)發(fā)微博,一些微博可以構(gòu)成我們的娛樂(lè)新聞。所以我們會(huì)有一個(gè)機(jī)器學(xué)習(xí)的手段去自動(dòng)判別明星發(fā)的每一條微博是否有可能成為新聞,有沒(méi)有新聞價(jià)值。繼而判斷微博下的評(píng)論哪一些具有價(jià)值,然后把微博和它的評(píng)論以及相關(guān)的背景信息組合在一起,形成一條娛樂(lè)新聞。
新聞綜述自動(dòng)生成
新聞綜述自動(dòng)生成是根據(jù)同一事件的多篇新聞報(bào)道,自動(dòng)生成篇幅較長(zhǎng)的事件綜述。
因?yàn)橐獦?gòu)成綜述,所以不是以句子為單位,而是以一個(gè)子話題為單位。對(duì)新聞進(jìn)行子話題的劃分,得到其中的一個(gè)子話題。每個(gè)子話題對(duì)應(yīng)一個(gè)段落,最后對(duì)子話題進(jìn)行重要性的排序。最后對(duì)子話題進(jìn)行選擇然后合并,最后得到一個(gè)完整的事件綜述。這個(gè)綜述的長(zhǎng)度可達(dá)上千個(gè)字節(jié)。
用戶評(píng)論自動(dòng)生成
除了生成事實(shí)型的新聞之外,我們也嘗試去生成用戶的評(píng)論。這個(gè)主要是以產(chǎn)品評(píng)論為研究的對(duì)象,我們采用的是一個(gè)深度學(xué)習(xí)的模型。
我們?cè)跈C(jī)器寫(xiě)稿方面的應(yīng)用
我們分別與今日頭條、南方都市報(bào)、廣州日?qǐng)?bào)合作推出了小明、小南和阿同寫(xiě)稿機(jī)器人。
小明寫(xiě)稿機(jī)器人基于體育賽事數(shù)據(jù)與賽事直播文字既能寫(xiě)短訊,又能寫(xiě)上千字的長(zhǎng)篇報(bào)道。
小南寫(xiě)稿機(jī)器人為南方都市報(bào)APP寫(xiě)民生新聞與兩會(huì)新聞。
寫(xiě)稿機(jī)器人阿同是與廣州日?qǐng)?bào)合作推出的寫(xiě)稿機(jī)器人,兩會(huì)期間進(jìn)行各類工作報(bào)告的熱詞與關(guān)鍵數(shù)據(jù)分析與解讀。
趨勢(shì)展望
機(jī)器寫(xiě)稿在各行各業(yè)的應(yīng)用將越來(lái)越廣泛,不光是媒體寫(xiě)新聞會(huì)用到,其它行業(yè)也會(huì)用到。
我們希望讓稿件具有態(tài)度和立場(chǎng),更有人性化。通過(guò)歸納和推理,寫(xiě)出深度報(bào)道。
今天的分享就到這里,謝謝大家!
編者:IT大咖說(shuō),轉(zhuǎn)載請(qǐng)標(biāo)明版權(quán)和出處