機(jī)器新聞寫作到現(xiàn)在已經(jīng)不是個新鮮事兒了,國外從2010年開始就已經(jīng)進(jìn)入商業(yè)化的發(fā)展,領(lǐng)先的媒體紛紛試水,美聯(lián)社負(fù)責(zé)人表示,采用機(jī)器人寫作企業(yè)財報報道后,季度產(chǎn)量由原先的300余篇變?yōu)?000余篇。國內(nèi)嘛,從2015年9月騰訊用 DreamWriter 發(fā)布了一篇財經(jīng)新聞報道,新華社,今日頭條,第一財經(jīng)也開始搞事情,當(dāng)然不出意外地在記者圈掀起了一片哀嚎:俺們飯碗是不是要丟掉啦~~~ (此處要加上長長的嘆息)
咳咳,其實(shí)距離丟飯碗還挺早的,而且人家機(jī)器人也蠻委屈,就想給人當(dāng)個好助手來著~
言歸正傳,寫一寫自己對機(jī)器新聞寫作的一些認(rèn)識,看完這篇文章,希望你可以有這一些收獲:
- 了解這是個啥東西
- 知道發(fā)展現(xiàn)狀咋樣
- get 到其中有意思的地方
- 如何自己搞起來
先搞搞清楚定義和原理
機(jī)器新聞寫作是啥呢?機(jī)器新聞寫作是“自動搜集與處理數(shù)據(jù)、并生成完整的新聞報道的計算機(jī)程序的統(tǒng)稱” [1]。 簡單點(diǎn)說,一個核心,機(jī)器(準(zhǔn)確說是算法)寫新聞稿;三個要點(diǎn),基于數(shù)據(jù)、自然語言生成以及沒有人工干預(yù)。
國外研究者多用“機(jī)器人新聞”(robot journalism)[2]、“自動內(nèi)容”(automated content)[3]、“自動新聞”(automated journalism)[4] 以及“算法新聞” (computational journalism)[5]等名稱。
當(dāng)前機(jī)器新聞寫作的技術(shù)操作解決方案分為兩類,一類是使用簡單的代碼從數(shù)據(jù)庫中提取數(shù)字,然后將其填入模板故事中生成簡單報道;另一類則更加復(fù)雜,需要依靠大數(shù)據(jù)分析和自然語言生成技術(shù),當(dāng)然,最后的結(jié)果也更加具有吸引力~
一張圖簡單了解一下這個過程~
ps:如果對這個領(lǐng)域的研究感興趣,可以考慮用這一些關(guān)鍵詞在 google 學(xué)術(shù)檢索,如果想了解最新的一些咨詢,推薦三個網(wǎng)站:Poynter、Nieman Journalism Lab以及 Columbia Journalism Review 這三個網(wǎng)站的內(nèi)容質(zhì)量高而且全面,絕對妥妥滴~
從案例出發(fā)了解了解現(xiàn)狀唄
為了了解機(jī)器新聞寫作最新的進(jìn)展,俺搜集了國內(nèi)外24家機(jī)構(gòu)30個案例,太多就不一一擺出來了。機(jī)器新聞寫作在整個新聞領(lǐng)域雖然呈現(xiàn)不斷上升的趨勢,但是范圍和影響力還是挺小滴。
說兩個簡單的結(jié)論,如下圖,美國仍然是以絕對優(yōu)勢領(lǐng)先,中國在第二批(2015年開始在各國開始拓展)發(fā)展浪潮當(dāng)中表現(xiàn)亮眼。

寫作的話題挺局限,體育競技和經(jīng)濟(jì)熱點(diǎn)為主,而且還是這兩個分支當(dāng)中解釋性的報告。比如,體育的賽況報告,經(jīng)濟(jì)當(dāng)中的財報的解讀這類。這和機(jī)器新聞寫作所需求的龐大的結(jié)構(gòu)化數(shù)據(jù)脫離不開關(guān)系。

挑個有意思的案例說一說
在所有案例當(dāng)中,俺個人最喜歡紐約時報的這個~
2015年5月,“紐約時報”撰寫了一篇關(guān)于一項(xiàng)關(guān)于成長提取對人影響的研究報告,該研究使用稅收記錄來跟蹤1996年至2012年期間在美國移民的500萬名兒童的命運(yùn)。該研究得出結(jié)論,“兒童長大的地區(qū)對他們向上流動前景具有重大的因果影響”。除文章之外Upshot團(tuán)隊(duì)制作了一個互動的作品—— The Best and Worst Places to Grow Up突出了研究中包括的2,478個縣中的每個縣的數(shù)據(jù)。除了提供可搜索的數(shù)據(jù)庫或可縮放地圖,團(tuán)隊(duì)根據(jù)其當(dāng)前位置編寫了一個適合用戶的模板文章,機(jī)器自動整合文章。輸入不同的城市,同一個故事模板會獲得新的數(shù)據(jù)和新的位置,生成不同的文章。
以下兩張圖片是分別檢索 舊金山和曼哈頓的結(jié)果圖片對比~
在瀏覽的過程中,你甚至都很難感受到這一些文字是由機(jī)器自動生成(當(dāng)然也可以說明編輯的模板故事相當(dāng)完善)感興趣的可以到網(wǎng)站當(dāng)中去逛一逛~
自己怎么玩兒
如果你對這個感興趣,可以自己開始搞起來~
采用第三方自動化工具,國外最典型的是 Automated Insights 提供的 Wordsmith。Automated Insights 2015 年發(fā)布軟件 Wordsmith。下圖是軟件的效果圖~

無需了解代碼或者掌握數(shù)據(jù)科學(xué)即可創(chuàng)建屬于自己的文章或者報道。只需要在 CSV 文件中按照模板豐富內(nèi)容和數(shù)據(jù),一旦創(chuàng)建,這個模型就可以被無限使用。

用Wordsmith創(chuàng)建故事的第一步是找到正確的數(shù)據(jù)集,填入提供的 CSV(逗號分隔值)模板文件當(dāng)中,為了讓不同數(shù)據(jù)關(guān)系呈現(xiàn)不同表述方式,Wordsmith使用了所謂的“分支邏輯(branch logic)”可以通過將不同的數(shù)據(jù)設(shè)置為不同的變量,為不同的變量關(guān)系創(chuàng)建不同的表述方式。同樣,可以通過為同一種數(shù)據(jù)關(guān)系創(chuàng)建多樣化的表述方式,來讓文章更加人性化。

國內(nèi)工具類平臺找到一款名為EditorAI的產(chǎn)品。

上圖為產(chǎn)品演示操作視頻中截取的圖片。從圖中可以了解到,目前撰寫新聞僅有科技股以及中概股兩個選擇,范圍較窄。
兩個軟件目前都要申請才能開放使用,想要玩耍的,到這里搞起來吧~
-
喻國明. “機(jī)器新聞寫作”時代傳媒發(fā)展的新變局[J]. 中國報業(yè),2015,(23):22-23. ?
-
Dawson, R. The rise of robot journalists[J]. Trends in the Living Networks. http://rossdawsonblog. com/weblog/archives/2010/04/the_rise_of_rob. html, 2010. ?
-
Anderson, C. W. Towards a sociology of computational and algorithmic journalism[J]. new media & society, 2013, 15: 1005-1021. ?
-
Van Dalen, A. The algorithms behind the headlines: How machine-written news redefines the core skills of human journalists[J]. Journalism Practice, 2012, 6: 648-658. ?
-
Hamilton, J. T. and F. Turner Accountability through algorithm: Developing the field of computational journalism. Report from the Center for Advanced Study in the Behavioral Sciences, Summer Workshop,2009[C]. ?