打敗記者,機(jī)器人成最佳寫手
毫無疑問,算法的作者是時報的職員,不過他享有雙重身份——既是記者,也是程序員。地震那天早上,USGS從服務(wù)器的各種地震儀接收到數(shù)據(jù),經(jīng)過編輯轉(zhuǎn)化后發(fā)至這名時報記者的個人電腦中。數(shù)據(jù)一經(jīng)傳輸入他所編寫的軟件中,便立刻自動被篩選出相關(guān)的信息,并用日常語言寫作出一篇新聞稿。而這名從夢中被震顫驚醒的記者只是稍微檢查了一下整篇文章,即點(diǎn)擊了“發(fā)送”。不過實(shí)際上,這種文本基本可以達(dá)到無需任何人為修改即可公布的程度。下次地震發(fā)生時,即便這名記者仍然躺在床上,時報的讀者們也可以閱讀到這篇稿子。
這一事件引起了美國媒體的關(guān)注,近年來由于財政原因,洛杉磯時報解雇了不少編輯記者。結(jié)合這次的新聞,有人猜想,這些記者是不是被機(jī)器人取代了呢?在實(shí)踐中,具有不同復(fù)雜性和自主性的“機(jī)器人記者”已經(jīng)開始逐漸投入使用,尤其是媒體和那些需要出產(chǎn)大量重復(fù)性文稿的行業(yè)。
輕輕松松,四步出稿
在美國,自動寫作技術(shù)的發(fā)展在很大程度上是基于伊利諾伊州西北大學(xué)的人工智能領(lǐng)域?qū)<覀兊难芯砍晒V悄苄畔?shí)驗室的聯(lián)合負(fù)責(zé)人拉里?伯恩鮑姆( Larry Birnbaum)教授任教于麥迪爾新聞學(xué)院(Medill School of Journalism),作為這個全新領(lǐng)域的領(lǐng)頭人,他是奎爾系統(tǒng)( Quill system)的研發(fā)人員之一。雖然奎爾具有較高的性能,但在普通PC機(jī)的Linux下運(yùn)行完全沒問題。為了解釋它的工作原理,伯恩鮑姆將整個步驟分為了四步——盡管在實(shí)際工作過程中,它們是重疊的。
首先,奎爾需要通過其他軟件導(dǎo)入數(shù)據(jù)(表格,列表,圖形)。“近期來,這些信息的很大一部分都可以由人類生產(chǎn),例如包含公司賬目的電子表格或描述一場足球比賽的博文,” 伯恩鮑姆說。不過在開始第一步之前,其他智能系統(tǒng)需要把各種形式的信息轉(zhuǎn)化為機(jī)器可以識別的結(jié)構(gòu)化的數(shù)據(jù),這樣,機(jī)器人作家可以獲取人類的知識。
奎爾下一步的工作就是進(jìn)行敘事分析。“收集到的數(shù)據(jù)會被分類,并按照能夠形成一篇新聞稿的敘述方式來進(jìn)行排序,” 伯恩鮑姆補(bǔ)充說,“它會選擇某些事實(shí),如強(qiáng)調(diào)行動,突出人物?!?/p>
第三也是最有創(chuàng)意的一步——形成文本。“算法會選擇一個有一系列事實(shí)描述的模板,” 伯恩鮑姆解釋說,“然后就是一個模式化的過程,它只需要選擇合適的編輯角度即可。在實(shí)際過程中,這一步所得到的結(jié)果會是文字、代碼和圖表的混合物——一種只有機(jī)器可以理解的呈現(xiàn)方式?!?/p>
在這一基礎(chǔ)上就到了第四步——具化文字。“奎爾有一個數(shù)據(jù)庫,其從日常用語和專業(yè)學(xué)術(shù)期刊中收集了很多英語語法、單詞、關(guān)聯(lián)詞,用以在最后步驟形成文本時組織語言?!?伯恩鮑姆說。對于外行人來說,最后一步是最壯觀也是最驚人的,但實(shí)際上這并不是整個過程中最復(fù)雜的部分?!坝嬎銠C(jī)早在多年前就已經(jīng)學(xué)會如何用英文寫作,但它們?yōu)槭裁床粚懩兀恳驗樗鼈儧]很么內(nèi)容可寫——它們?nèi)狈懽餍枰淖銐虻男畔?。”他笑著補(bǔ)充說,現(xiàn)在它們終于可以為人類寫作有趣的文章了。
機(jī)器人會取代記者么?
為了充分利用奎爾帶來的商機(jī),研究所的研究員克里斯?哈蒙德(Kris Hammond)在芝加哥創(chuàng)辦了一家名為 Narrative Science的公司。哈蒙德確信好的敘述要比簡潔的素描要有價值得多,因為人的大腦總是傾向于去理解那些用優(yōu)美文字表達(dá)的敘述?!岸嗵澚丝鼱枴保f,“在‘不到幾年’的時間里,就不會再有人花費(fèi)大量時間去閱讀Excel工作表或費(fèi)力地區(qū)分X軸Y軸……奎爾和它的改進(jìn)版將讀取大量難以理解的數(shù)據(jù)并將其轉(zhuǎn)換為清晰簡單的文字,這會使我們每個人都能自然地通過語言文字獲取信息。
哈蒙德稱,到2025年,大概有90%的新聞將由機(jī)器寫作。“但這并不意味著機(jī)器人將取代90%的記者,僅僅代表內(nèi)容出產(chǎn)量會有大幅提升,”他解釋說?!耙孕⌒蜆I(yè)余棒球比賽為例,媒體對他們并不感興趣,但是還是有一群觀眾會觀看每一場的比賽??鼱柺占@幾千場比賽的數(shù)據(jù),然后可以幾乎立刻寫出幾千篇稿件,而且和體育記者寫出的稿件一樣——他們的寫作實(shí)在太容易模仿了?!?Narrative Science目前在這一領(lǐng)域已經(jīng)有不少客戶,包括一些關(guān)注本地體育賽事或青少年兒童的新聞網(wǎng)站。
為你寫作專屬新聞
奎爾同時也在金融領(lǐng)域大展所長——金融是另一個人工稿件可被大量模仿的領(lǐng)域?!岸嗄陙?,福布斯雜志一直在最終年報數(shù)據(jù)出來之前就為一些企業(yè)做盈利預(yù)測和分析?,F(xiàn)在有了奎爾,它可以為超過5000家企業(yè)提供服務(wù),”哈蒙德說。福布斯網(wǎng)站目前會上傳一些經(jīng)過Narrative Science授權(quán)的材料,通常如“華爾街對克魯格公司前景樂觀,將于下周二公布其第一季度季報。分析師預(yù)測每股收益將達(dá)到1.05美元,同比增長92%。” 無數(shù)類似的匿名銀行、券商和評級機(jī)構(gòu)都開始利用奎爾來草擬聯(lián)邦政府和監(jiān)管機(jī)構(gòu)所要求的各種數(shù)不清的報道?!澳壳?,奎爾寫作的報道在遞送前仍會經(jīng)過人工審查,因為我們?nèi)蕴幱谠囼炿A段。但幾個月后,它們就可以實(shí)現(xiàn)直接自動發(fā)放至客戶?!惫傻卵a(bǔ)充說。
除此之外,哈蒙德相信,當(dāng)自動化寫作與先進(jìn)科技結(jié)合時,將很快在生活的其他領(lǐng)域顯示其巨大的潛力:如根據(jù)消費(fèi)記錄、網(wǎng)絡(luò)瀏覽習(xí)慣和移動通信記錄等實(shí)現(xiàn)為每一互聯(lián)網(wǎng)用戶的個性定位?!皧W巴馬曾經(jīng)通過媒體告訴市民,如果他們確保輪胎適當(dāng)充氣,那么就可以省下7%的燃油費(fèi)用。不過這種說法并沒有獲得預(yù)期效果,因為人們不喜歡做數(shù)學(xué)題。但在未來,你所鐘愛的新聞網(wǎng)站會告訴你:它知道你是誰,你車的型號,你買車花了多少錢,你每周的行駛里程是多少,你所用的是什么燃料等等。它會專門為你寫一篇文章,告訴你如果你給輪胎適當(dāng)充氣,每周將可以省下多少錢?!惫傻抡f。同樣的方法也可以在其他各個領(lǐng)域使用,從醫(yī)療保險到政治等。“總有一天,所有的文章都會只有一名讀者。”
新聞、游戲、房產(chǎn)、財經(jīng):已經(jīng)成為機(jī)器人的天下
現(xiàn)在,將機(jī)器人寫作運(yùn)用于日常新聞采寫的媒體遠(yuǎn)不止剛剛提到的洛杉磯時報一家,福布斯、ProPublica 和 InvestorPlace 等都是Narrative Science的忠實(shí)用戶。例如,ProPublica曾利用奎爾為其數(shù)據(jù)庫內(nèi)的五萬多所學(xué)校生成專屬的介紹性文稿,福布斯則更不用說了,在各種收益報表和財經(jīng)新聞中,我們越來越多得看到了機(jī)器人的影子。紐約時報雖然在這一領(lǐng)域有些落后,但據(jù)今年七月的最新報道,其也即將于新聞編輯室內(nèi)引入機(jī)器人,暫時承擔(dān)為稿件篩選關(guān)鍵詞、制作標(biāo)簽的工作。
Narrative Science并不是機(jī)器人寫作市場里的唯一玩家,競爭者一直在源源不斷出現(xiàn)??偛吭诒笨_來納州的Automated Insights公司使用的是另一個叫做語言大師(Wordsmith)的自動寫作系統(tǒng),它被描述為一個“自然語言生成平臺”。公司負(fù)責(zé)銷售和市場的副總裁亞當(dāng)?斯密(Adam Smith)稱公司在2013年就已經(jīng)生產(chǎn)了三億多篇文本,2014年破十億,目前有包括美聯(lián)社、甘乃特報業(yè)集團(tuán)在內(nèi)的十幾個客戶。 美聯(lián)社和Automated Insights公司合作采用機(jī)器寫稿系統(tǒng)來撰寫收益報告后,一季度內(nèi)出產(chǎn)了超過三千篇相關(guān)報道,較其原來產(chǎn)量增長了十倍之多,而且令人稱贊的是,由機(jī)器出產(chǎn)的稿件不僅量大,而且比之前由記者寫作的稿件錯處要少得多。除此之外,體育新聞亦是美聯(lián)社內(nèi)機(jī)器人發(fā)揮巨大作用的領(lǐng)域。美聯(lián)社最開始和AI公司合作,除了為寫作收益報表外,另一主要目的就是報道體育聯(lián)賽。合作達(dá)成后,美聯(lián)社不僅輕輕松松報道了美國NCAA(全國大學(xué)生體育協(xié)會)組織的大學(xué)賽事,還將國內(nèi)各類運(yùn)動如棒球、橄欖球比賽的報道范圍由男子一級賽事延伸至女子比賽、二級、三級賽事。
雅虎同樣使用語言大師為游戲“Fantasy Sport”來寫作文本。這個游戲是玩家選取真實(shí)的足球運(yùn)動員來組建自己的球隊,然后和其他玩家的球隊比賽。“這一系統(tǒng)通過分析運(yùn)動員在真實(shí)比賽的表現(xiàn),然后決定哪一支虛擬團(tuán)隊獲得勝利。當(dāng)然,它的特別之處在于會提供實(shí)時的比賽解說?!笔访芩菇忉尩?。
語言大師同樣也可以用來起草房地產(chǎn)廣告、市場報告、商業(yè)活動和財報等。“使用同一份數(shù)據(jù),如股票市場價格,我們可以寫出數(shù)百萬不同的文章,每篇都重點(diǎn)關(guān)注一個特定投資組合的變化。”
同時,法國公司Yseop也開發(fā)了一個可以寫作英語、法語、西班牙語、葡萄牙語、日語的系統(tǒng)。公司網(wǎng)站上有一篇作為范本展示的金融新聞,用戶在工具欄內(nèi)更改數(shù)據(jù)后,文章就會自動更新。最初這篇報道的標(biāo)題是“存款余額的積極前景”,但如果你輸入一個較低的數(shù)值,文本就會修正為:“存款余額的急劇下降”。
Yseop CEO讓?勞舍爾(Jean Rauscher)稱,Yseop適用于銀行、電信公司的客戶服務(wù)部門以及財經(jīng)新聞網(wǎng)站,當(dāng)然,它同樣也可為研究股票市場交易的機(jī)構(gòu)提供高級服務(wù):“想要了解一家企業(yè)的負(fù)責(zé)人也很容易,我們的系統(tǒng)會掃描包括犯罪記錄等在內(nèi)的大約30個數(shù)據(jù)庫,然后就可以自動生成一份簡歷。”
編輯記者反成機(jī)器人助手
機(jī)器人寫作很快就會司空見慣。除公開版外,Yseop還推出了一個供內(nèi)部使用版的系統(tǒng),所有可能需要對大量數(shù)據(jù)分析已完成冗長報告的機(jī)構(gòu)都可能成為他們的潛在客戶。勞舍爾已經(jīng)在想象工作人員和機(jī)器人一起工作的效率: “Yseop可以寫作一篇包含基本數(shù)據(jù)和精確數(shù)據(jù)的初稿,”他建議, “然后由編輯記者進(jìn)行后續(xù)的工作,如對稿件進(jìn)行重組或潤色,加入一些評論和價值判斷等。”
該系統(tǒng)同樣也可以和工作人員交流,事實(shí)上人反而成了機(jī)器的助手?!叭绻惴òl(fā)現(xiàn)缺少數(shù)據(jù),它會自動停止并提出需求。一旦滿足它所需,就會自動繼續(xù)工作?!?strong>因此,也許編輯記者們很快就要開始學(xué)習(xí)一些如何與計算機(jī)相處的技能。
或許在不那么遙遠(yuǎn)的將來,機(jī)器人會成為記者工作過程中的最佳拍檔,為所有的讀者量身打造獨(dú)一無二的新聞。
編譯者:思斯
本文由搜狐傳媒獨(dú)家編譯,授權(quán)美通社轉(zhuǎn)載,文章原載于搜狐傳媒微信公眾號傳媒狐(media-fox)。
原創(chuàng)文章,作者:Stella,如若轉(zhuǎn)載,請注明出處:http://qyysmy.cn/blog/archives/17101