機(jī)器新聞寫作距離遠(yuǎn)?你也可以搞起來~

機(jī)器新聞寫作到現(xiàn)在已經(jīng)不是個新鮮事兒了,國外從2010年開始就已經(jīng)進(jìn)入商業(yè)化的發(fā)展,領(lǐng)先的媒體紛紛試水,美聯(lián)社負(fù)責(zé)人表示,采用機(jī)器人寫作企業(yè)財報報道后,季度產(chǎn)量由原先的300余篇變?yōu)?000余篇。國內(nèi)嘛,從2015年9月騰訊用 DreamWriter 發(fā)布了一篇財經(jīng)新聞報道,新華社,今日頭條,第一財經(jīng)也開始搞事情,當(dāng)然不出意外地在記者圈掀起了一片哀嚎:俺們飯碗是不是要丟掉啦~~~ (此處要加上長長的嘆息)

咳咳,其實(shí)距離丟飯碗還挺早的,而且人家機(jī)器人也蠻委屈,就想給人當(dāng)個好助手來著~

言歸正傳,寫一寫自己對機(jī)器新聞寫作的一些認(rèn)識,看完這篇文章,希望你可以有這一些收獲:

  • 了解這是個啥東西
  • 知道發(fā)展現(xiàn)狀咋樣
  • get 到其中有意思的地方
  • 如何自己搞起來

先搞搞清楚定義和原理

機(jī)器新聞寫作是啥呢?機(jī)器新聞寫作是“自動搜集與處理數(shù)據(jù)、并生成完整的新聞報道的計算機(jī)程序的統(tǒng)稱” [1]。 簡單點(diǎn)說,一個核心,機(jī)器(準(zhǔn)確說是算法)寫新聞稿;三個要點(diǎn),基于數(shù)據(jù)、自然語言生成以及沒有人工干預(yù)。

國外研究者多用“機(jī)器人新聞”(robot journalism)[2]、“自動內(nèi)容”(automated content)[3]、“自動新聞”(automated journalism)[4] 以及“算法新聞” (computational journalism)[5]等名稱。

當(dāng)前機(jī)器新聞寫作的技術(shù)操作解決方案分為兩類,一類是使用簡單的代碼從數(shù)據(jù)庫中提取數(shù)字,然后將其填入模板故事中生成簡單報道;另一類則更加復(fù)雜,需要依靠大數(shù)據(jù)分析和自然語言生成技術(shù),當(dāng)然,最后的結(jié)果也更加具有吸引力~

一張圖簡單了解一下這個過程~

ps:如果對這個領(lǐng)域的研究感興趣,可以考慮用這一些關(guān)鍵詞在 google 學(xué)術(shù)檢索,如果想了解最新的一些咨詢,推薦三個網(wǎng)站:Poynter、Nieman Journalism Lab以及 Columbia Journalism Review 這三個網(wǎng)站的內(nèi)容質(zhì)量高而且全面,絕對妥妥滴~

從案例出發(fā)了解了解現(xiàn)狀唄

為了了解機(jī)器新聞寫作最新的進(jìn)展,俺搜集了國內(nèi)外24家機(jī)構(gòu)30個案例,太多就不一一擺出來了。機(jī)器新聞寫作在整個新聞領(lǐng)域雖然呈現(xiàn)不斷上升的趨勢,但是范圍和影響力還是挺小滴。

說兩個簡單的結(jié)論,如下圖,美國仍然是以絕對優(yōu)勢領(lǐng)先,中國在第二批(2015年開始在各國開始拓展)發(fā)展浪潮當(dāng)中表現(xiàn)亮眼。

image.png

寫作的話題挺局限,體育競技和經(jīng)濟(jì)熱點(diǎn)為主,而且還是這兩個分支當(dāng)中解釋性的報告。比如,體育的賽況報告,經(jīng)濟(jì)當(dāng)中的財報的解讀這類。這和機(jī)器新聞寫作所需求的龐大的結(jié)構(gòu)化數(shù)據(jù)脫離不開關(guān)系。

![image.png](http://upload-images.jianshu.io/upload_images/73850-4117336843d5ddac.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

挑個有意思的案例說一說

在所有案例當(dāng)中,俺個人最喜歡紐約時報的這個~

2015年5月,“紐約時報”撰寫了一篇關(guān)于一項(xiàng)關(guān)于成長提取對人影響的研究報告,該研究使用稅收記錄來跟蹤1996年至2012年期間在美國移民的500萬名兒童的命運(yùn)。該研究得出結(jié)論,“兒童長大的地區(qū)對他們向上流動前景具有重大的因果影響”。除文章之外Upshot團(tuán)隊(duì)制作了一個互動的作品—— The Best and Worst Places to Grow Up突出了研究中包括的2,478個縣中的每個縣的數(shù)據(jù)。除了提供可搜索的數(shù)據(jù)庫或可縮放地圖,團(tuán)隊(duì)根據(jù)其當(dāng)前位置編寫了一個適合用戶的模板文章,機(jī)器自動整合文章。輸入不同的城市,同一個故事模板會獲得新的數(shù)據(jù)和新的位置,生成不同的文章。

以下兩張圖片是分別檢索 舊金山和曼哈頓的結(jié)果圖片對比~

在瀏覽的過程中,你甚至都很難感受到這一些文字是由機(jī)器自動生成(當(dāng)然也可以說明編輯的模板故事相當(dāng)完善)感興趣的可以到網(wǎng)站當(dāng)中去逛一逛~

自己怎么玩兒

如果你對這個感興趣,可以自己開始搞起來~

采用第三方自動化工具,國外最典型的是 Automated Insights 提供的 Wordsmith。Automated Insights 2015 年發(fā)布軟件 Wordsmith。下圖是軟件的效果圖~

image.png

無需了解代碼或者掌握數(shù)據(jù)科學(xué)即可創(chuàng)建屬于自己的文章或者報道。只需要在 CSV 文件中按照模板豐富內(nèi)容和數(shù)據(jù),一旦創(chuàng)建,這個模型就可以被無限使用。

image.png

用Wordsmith創(chuàng)建故事的第一步是找到正確的數(shù)據(jù)集,填入提供的 CSV(逗號分隔值)模板文件當(dāng)中,為了讓不同數(shù)據(jù)關(guān)系呈現(xiàn)不同表述方式,Wordsmith使用了所謂的“分支邏輯(branch logic)”可以通過將不同的數(shù)據(jù)設(shè)置為不同的變量,為不同的變量關(guān)系創(chuàng)建不同的表述方式。同樣,可以通過為同一種數(shù)據(jù)關(guān)系創(chuàng)建多樣化的表述方式,來讓文章更加人性化。

image.png

國內(nèi)工具類平臺找到一款名為EditorAI的產(chǎn)品。

image.png

上圖為產(chǎn)品演示操作視頻中截取的圖片。從圖中可以了解到,目前撰寫新聞僅有科技股以及中概股兩個選擇,范圍較窄。

兩個軟件目前都要申請才能開放使用,想要玩耍的,到這里搞起來吧~


  1. 喻國明. “機(jī)器新聞寫作”時代傳媒發(fā)展的新變局[J]. 中國報業(yè),2015,(23):22-23. ?

  2. Dawson, R. The rise of robot journalists[J]. Trends in the Living Networks. http://rossdawsonblog. com/weblog/archives/2010/04/the_rise_of_rob. html, 2010. ?

  3. Anderson, C. W. Towards a sociology of computational and algorithmic journalism[J]. new media & society, 2013, 15: 1005-1021. ?

  4. Van Dalen, A. The algorithms behind the headlines: How machine-written news redefines the core skills of human journalists[J]. Journalism Practice, 2012, 6: 648-658. ?

  5. Hamilton, J. T. and F. Turner Accountability through algorithm: Developing the field of computational journalism. Report from the Center for Advanced Study in the Behavioral Sciences, Summer Workshop,2009[C]. ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容