sub newsletter

《連線》雜志:未來15年內,90%的新聞稿將由機器撰寫

《連線》雜志:未來15年內,90%的新聞稿將由機器撰寫
《連線》雜志:未來15年內,90%的新聞稿將由機器撰寫

編者注:《連線》雜志日前發(fā)布一篇有意思的報道,在芝加哥論壇報社不遠的地方,有家名為Narrative Science公司開始為客戶提供計算機算法撰寫新聞稿的服務,該公司預言,在未來的15年內,90%的新聞稿將由計算機算法寫成,計算機生產的新聞質量也會越來越好,甚至5年內可能獲得普利策新聞獎,那么問題是:計算機算法寫的新聞會比人類寫的還要好嗎?

在芝加哥論壇報報社不遠的地方,平均每30秒就有一篇新聞故事被生產出來——但其署名問題卻堪稱是個哲學問題,因為這新聞稿是利用計算機算法生產出來的。這家名叫 Narrative Science 的公司首席技術官、聯(lián)合創(chuàng)始人 Kristian Hammond 近日在接受《連線》雜志采訪時預測說:在15年內,有90%的文章將會由算法寫就。一些小眾新聞服務已經開始雇傭 Narrative Science 公司為其訂戶、體育迷或小額投資者提供新聞更新。但計算機算法寫的新聞會比人類寫的還要好嗎?

但文章認為,這或許也不會是一場零和博弈,因為未來“新聞故事”的外延也會擴展。例如,祖父母們會很關心孫子的少年棒球聯(lián)盟里的新聞,但有誰會報道他們呢?現(xiàn)在已經出現(xiàn)了 一個叫 GameChanger 的 iPhone app,根據數據即可為有這種需求的人提供這類新聞。去年,這個軟件為少年棒球聯(lián)盟比賽只做了近40萬篇報導,預計今年這個數字會上升到150萬。Narrative Science 公司認為,計算機生產的新聞質量也會越來越好,Hammond 甚至認為,5年內可能會有計算機算法獲得普利策新聞獎!

《連線》雜志原文:http://www.wired.com/gadgetlab/2012/04/can-an-algorithm-write-a-better-news-story-than-a-human-reporter/all/1

《大西洋》月刊的轉載報道:

Predicted: In 15 Years, 90% of News Stories Will Be Written by Algorithms

預言:在15年內,90%的新聞將被計算機算法撰寫

原文:http://www.theatlantic.com/technology/archive/2012/04/predicted-in-15-years-90-of-news-stories-will-be-written-by-algorithms/256357/

以下為《連線》雜志全文

未來新聞90%以上將為電腦化新聞

Narrative Science(以下簡稱“Narrative”)是一家專門訓練計算機編寫新聞報道的公司。假如Narrative技術已經能夠編寫出我今天撰寫的這篇文章,那我們很可能既不必提及該公司的芝加哥總部其實就在《芝加哥論壇報》(Chicago Tribune)報業(yè)大樓附近,也不必揭示出這種可能讓記者丟掉飯碗的潛在技術,其實是部分誕生于美國西北大學梅迪爾新聞學院(Medill School)的媒體、整合營銷通信項目。顯而易見,這種諷刺意味其實是針對人類,而非計算機本身。

但至少目前尚未如此。

Narrative員工量為30名左右,該公司在芝加哥環(huán)路邊上有一個很大的房間。我們不妨試想一下這種場景:每隔30秒鐘左右,Narrative算法的如椽大筆就能撰寫出一則新聞報道,這無疑將引發(fā)我們進行哲學高度的思考。這種計算機撰寫的新聞可以是美國大學籃球聯(lián)賽的Big Ten最新進展情況,也可能涉及某家企業(yè)營收的聲明,更可能是把多個Twitter信息匯總成有關賽馬的新聞。此類文章已在諸如《福布斯》以及其他知名媒體(其中不少媒體不愿透露其身份)的網站上發(fā)表。Niche新聞服務已聘請Narrative為其注冊用戶撰寫后續(xù)報道,使Narrative成為著他們的體育“粉絲”、小型投資者或快餐店老板。

事實上,通過Narrative算法所撰寫的文章,讀起來并不是那么晦澀和生硬。當然,這種文章無法與美國體育評論作家羅杰·安吉爾(Roger Angell)的文風相提并論。但這種敘述平實的文章,卻能很快將賽事結果等信息傳達給體育愛好者。Narrative利用iPhone用戶在GameChanger應用程序中輸入的賽事得分結果等數據,進而撰寫出一篇篇文章。去年期間,這種軟件所生成的美國兒童棒球賽事帳號達40萬個,預計今年該數字將增至150萬個。

Narrative聯(lián)合創(chuàng)始人兼首席技術官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)管理著一群編程人員和技術工程師。在哈蒙德看來,這些文章只是計算機寫作的開始,最終計算機寫作的文章將在新聞產業(yè)中占據著主導優(yōu)勢地位。這種優(yōu)勢地位將究竟有多高?去年我曾要求哈蒙德回答這個問題,他最初有點“王顧左右而言他”。但在我的連續(xù)追問下,哈蒙德說出了這樣一個數字:“90%以上?!?/p>

這也是我為何決定寫這篇文章的原因所在,并希望自己趕快完成,以免被一部MacBook Air筆記本電腦搶在我前頭發(fā)布了同類文章。

哈蒙德卻安慰我道,大不必為此而擔心。哈蒙德堅稱,這種計算機撰寫的新聞稿,并不會讓新聞記者等人員丟掉飯碗,他們今后仍將能夠每月按時領取薪酬。隨著新聞產業(yè)規(guī)模的空前增長和擴大,計算機將通過相關數據而撰寫出成本低廉的新聞稿,此類文章將涵蓋大量活動、產業(yè)趨勢和產品開發(fā),而這些領域目前尚未被傳統(tǒng)記者所關注。

然而這并不是說計算機所撰寫文章,將永遠處于邊緣化的位置,也不會永遠被限定在一些小打小鬧或生成一些簡單的企業(yè)營收評論上面。哈蒙德最近曾被問及這樣一個問題:今后20年內,計算機所撰寫文章能否獲得普利策新聞獎(Pulitzer Prize)?哈蒙德回答道,應該用不了20年,5年之內就可能實現(xiàn)該目標。

Narrative公司與其創(chuàng)始人

哈蒙德生于美國猶他州,其父為一名考古學家,并在當地一所州立大學任教。成年后,哈蒙德原本計劃當一名律師。但在上個世紀1980年代后期,也就是哈蒙德在耶魯大學上學期間,他深受知名人工智能專家、耶魯大學計算機系主任羅杰·尚克(Roger Schank)的影響。在拿到計算機科學博士學位后,哈蒙德受聘于芝加哥大學,并擔任該大學一家新型人工智能實驗室負責人。在該實驗室工作期間(1990年代中期),他開發(fā)了一套可追蹤用戶閱讀、寫作習慣并向用戶推薦相關內容的系統(tǒng)。

在該技術基礎上,哈蒙德創(chuàng)建了一家小型科技公司,后來他將該公司出售。這段時間中,哈蒙德進入美國西北大學工作,并擔任該大學情報信息實驗室主任。2009年期間,哈蒙德和他的同事拉里·伯恩鮑姆(Larry Birnbaum)在梅迪爾新聞學院教授一項課程,該課程同時包括電腦編程和未來新聞學兩項內容。他們兩人鼓勵學生創(chuàng)建出可將數據轉移成新聞故事的系統(tǒng)。在該班學生中,有一位是《芝加哥論壇報》的特約記者,其報道范圍為美國高中生體育賽事。這名學生、以及另外兩位新聞系學生同一名計算機系學生被分成一組。該開發(fā)小組的原型軟件“Stats Monkey”,能夠搜集各大學、中學的體育賽事得分和相應數據。

在那個學期結束時,這個班級參與了該校舉辦的產品演示會。出席該演示會的新聞業(yè)人員,包括來自ESPN體育電視臺、Hearst報業(yè)集團以及《芝加哥論壇報》的高管。Stats Monkey軟件給與會人員留下了深刻印象。梅迪爾新聞學院院長約翰·拉文(John Lavine)回憶道:“他們將體育賽事得分數據輸入到該程序當中之后,大約12秒鐘之后,該程序就寫出了有關美國體育機構歷史的文章,同時還配備了圖片和圖片文字說明?!?/p>

美國網絡廣告公司DoubleClick(注:此前已被谷歌收購)前高管斯圖亞特·弗蘭克爾(Stuart Frankel)也是參與當天演示會的嘉賓之一。弗蘭克爾說:“他們當時一演示這款軟件后,房間里的氛圍馬上就變了。盡管如此,該產品也就僅僅是一款能夠撰寫有關棒球新聞報道的軟件而已?!睆腄oubleClick離職后,弗蘭克爾隨即加盟哈蒙德和伯恩鮑姆兩人的行列中。這種軟件能否撰寫任何新聞報道?能否使用任何數據?在得到肯定的回答后,弗蘭克爾認定計算機寫作產業(yè)有著巨大增長潛力。2010年期間,哈蒙德、伯恩鮑姆和弗蘭克爾共同創(chuàng)建了Narrative公司,弗蘭克爾出任該公司CEO。

Narrative首名客戶是一家報道美國大學籃球聯(lián)賽Big Ten會議的電視網絡。合同規(guī)定,Narrative算法將需要以相當于實時方式,而撰寫出數千條有關Big Ten的體育新聞,同時每個季度對該賽事的數據和新聞進行更新。Narrative還負責為美國女子壘球賽事撰寫文章,Narrative也因此變成為該賽事撰寫文章最多的“記者”。

在Narrative開始執(zhí)行合同后不久,就出現(xiàn)了一些小問題:這些文章往往側重報道比賽勝出方。如果Big Ten的某只球隊被外圍球隊擊敗后,Narrative軟件撰寫的文章會讓人感到很丟臉。Big Ten賽事舉辦者因此向Narrative提出新要求:即使Big Ten的球隊輸球,Narrative文章仍能加以表揚。在這種情況下,多數人認為應該引進人工記者加以干預,但Narrative技術開發(fā)人員卻認為無此必要,而只需對軟件代碼進行相應修訂。有過這次教訓后,Narrative在負責為美國兒童棒球賽事進行撰文過程中,也對相應數據進行了調整處理。

Narrative的新聞撰寫引擎需要數個步驟:首先,該引擎需要收集大量高質量的數據。這也是金融業(yè)和體育產業(yè)能夠成為Narrative服務對象的直接原因:這兩個產業(yè)都涉及大量波動性很強的數據:每股收益、股價變化、壘球投手責任得分率(ERA)以及棒球打點(RBI)等。而新數據總是源源不斷,因此Narrative總能根據新數據撰寫出新文章或豐富舊內容。

舉例來說,棒球“粉絲”們已創(chuàng)建了在比賽進行過程中預測某個球隊勝算把握的模式。在此過程中,如果某個得分改變了勝算把握的幾率,比如由40%上升至60%,則Narrative算法就會將這個得分作為截止當前比賽進程中的亮點加以描述(比如Narrative必須知道擊跑數量最多的球隊將勝出)。因此Narrative技術工程師就為每種賽事或活動預先設定一些規(guī)則。那么該如何做才能將這些分析數據變成文章?該公司招聘了一個所謂“元作者”的團隊,該團隊由資深記者組成,以負責創(chuàng)建一系列報道題材的模板。該團隊同Narrative技術工程師密切合作,使計算機能夠從不同“角度”來識別相應數據。比賽結果是哪個球隊勝出?是艱難勝出還是大敗對方?比賽過程中是否有某位球員表現(xiàn)絕佳?該算法還根據比賽已知數據和其他數據庫進行推測:是否某個關鍵一擊起到了定勝負的作用?

然后就是文章結構事宜。絕大部分新聞報道尤其是體育和金融題材,往往都會形成一個可預見的固定模式,因此創(chuàng)建相應文章模板,就成為相對比較簡單的問題。該算法按照元作者提供的詞匯來組成句子(就壘球而言,元作者似乎會在很大程度依賴20世紀早期知名體育評論家林·拉德納(Ring Lardner)的寫作用詞習慣),該公司將這種完成后的產品稱為“敘事作品”(narrative)。

當然這種算法偶爾也會犯些小錯誤。比如說棒球比賽中的代打者(pinch hitter)每場比賽只能代打一次,但Narrative算法所撰寫文章有時會將代打次數描述成2~6次。只是諸如此類的錯誤很少出現(xiàn)。哈蒙德表示,有時數據庫也會提供錯誤信息,而Narrative算法已具有糾錯功能。哈蒙德說:“如果某家公司的季度利潤環(huán)比增長了600%,算法就會指出,很可能某個環(huán)節(jié)出現(xiàn)了錯誤。人們會問這樣的問題:我們的算法是否出過令人難堪的大錯誤,我們的回答是從未有過。”

《福布斯》媒體首席產品官劉易斯·德沃金(Lewis Dvorkin)表示,在對Narrative所報道的每一個賽事或其他活動進行了解后,他本人對此印象深刻但并不感到驚訝。盡管人工記者所撰寫文章出現(xiàn)重大錯誤并不鮮見,但德沃金并沒有聽說過有關計算機自動新聞報道出錯的任何投訴。德沃金說:“一次也沒有。”

新聞稿件文風可以定制化

Narrative技術團隊還讓客戶對文章基調加以定制化。美國金融分析公司Data Explorers在其安全資訊服務中使用了Narrative技術。Data Explorers首席運營官(COO)喬納森·莫里斯(Jonathan Morris)表示:“你可以獲得任何內容,如文章讀上去像是一位金融記者正股票交易所大聲呼喊,或像一位理智的金融分析師正縱觀整個金融市場?!?/p>

莫里斯要求Narrative為Data Explorers撰寫的文章,將其基調處理成為一名受過良好教育、態(tài)度非常直率的金融新聞記者。其他客戶則要求Narrative將文章處理成更為活潑的博客文風。Narrative產品副總裁拉里·亞當斯(Larry Adams)對此表示:“截止目前,Narrative要撰寫一篇言辭活潑文章的難度,并不會比寫一篇中規(guī)中矩的文章高多少。我們甚至能夠以美國知名新聞評論人、1972年普利策新聞獎得主邁克·羅伊科(Mike Royko)式的文風來報道股票市場?!?/p>

在Narrative掌握如何報道體育和財經新聞的“玄機”后,該公司意識到,其實還可以將Narrative算法應用范圍擴大到除新聞報道的其他領域。事實上,任何人希望翻譯或處理大一堆數據,都可從Narrative算法中受益良多。Narrative接到了大量數據處理的請求,試用結果發(fā)現(xiàn),這些客戶愿意向Narrative付費,進而使自己雜亂無意的數據,能夠變?yōu)楹啙嵜骺觳⑶兄幸Φ木渥印?/p>

顯而易見,Narrative算法經過改進提高后,肯定能滿足此類數據處理要求。Narrative剛剛創(chuàng)建時,該算法每接觸一個新的報道主題,“元作者”們必須費盡心機來對機器進行“培訓”。但不久后元作者們開發(fā)出一款平臺,從而使Narrative算法能夠更快了解新的業(yè)務領域。舉例來說,如果某位元作者希望創(chuàng)建一臺可報道某個城市飯店服務業(yè)的寫作機器,那么利用數據庫中的賓館評論文章,該機器就能很快了解飯店業(yè)的常用詞匯(服務良好、美食等等)。元作者們還給機器提供一些該行業(yè)的常見句子。在經過此種“培訓”后,數小時內Narrative算法就能撰寫出諸如“亞特蘭大市最佳意大利飯館”之類的文章。

Narrative主要競爭對手為Stat Sheet公司,后者總部位于美國北卡羅來納州,主營業(yè)務為自動文章創(chuàng)建,其業(yè)務范圍在經過擴張后,與Narrative有不少重疊之處。由于自感無法與Narrative展開直接競爭,Stat Sheet將其服務目標定為小型報刊雜志。另一方面,Stat Sheet也開始涉足體育新聞報道。在認識到計算機撰寫新聞產業(yè)具有巨大增長潛力后,Stat Sheet將公司名稱更改為“Automated Insights”。該公司創(chuàng)始人羅比·艾倫(Robbie Allen)說:“以前我曾認為,我們的業(yè)務范圍很窄,即僅限于數據處理產業(yè)?,F(xiàn)在看來我們應該是商機無限?!?/p>

Narrative算法的業(yè)務范圍也變得越來越多樣化。Narrative曾受聘于一家快餐公司,被要求根據該快餐公司經銷商所提供食品銷量數字而撰寫出每月報告,并將這些銷售數字同本地競爭對手進行比較,然后向該快餐公司提出應該推出哪些新菜品的建議。

此外,這種低成本數據輸入后變成文章的操作方式,甚至能夠針對單一讀者撰寫文章。Narrative正考慮撰寫針對《魔獸世界》玩家的個性化費用支出報告,玩家們就能對自己近一段時間內的游戲費用有著更全面了解。Narrative董事會成員、前DoubleClick首席執(zhí)行官戴維·羅森布拉特(David Rosenblatt)表示:“互聯(lián)網所產生數據的規(guī)??芍^前所未有,Narrative能夠將這些數據轉化成文章。這就是Narrative必須存在的理由。我們以撰寫新聞報道為主,報道管理為輔?!?/p>

光榮與夢想

截至目前,新聞報道仍是Narrative的核心業(yè)務。與任何剛出道的新聞記者一樣,Narrative也有著自己的“光榮與夢想”:能夠參與重大新聞事件的首發(fā)和后續(xù)報道。而要實現(xiàn)這一目的,Narrative仍需在機器學習、數據處理等事宜上進行大量投資,從而使機器能夠更為準確理解人類語言和文字。事實上,Narrative在這方面已取得一些進展。哈蒙德說:“就金融業(yè)而言,我們算法能夠讀懂文章頭條,能夠識別某家企業(yè)股票的漲跌,了解到某位高管受聘或解聘,明白某家公司正制定并購計劃。同時我們知道這些事件同公司股價波動之間的關系。”哈蒙德還表示,今后在Narrative所撰寫體育新聞報道中,除常規(guī)的數據內容外,還將增加球員受傷或面臨法律起訴等信息。

即便Narrative永遠也無法實現(xiàn)獲得普利策新聞獎的目標,其文章可能永遠也不會具備美國作家瓊·狄迪恩(Joan Didion)那種犀利的文風,但無論如何,該公司確實認識到了這樣一個事實:我們的日常生活活動,正越來越多被轉化為海量數據。舉例來說,過去數年中,美國職業(yè)棒球大聯(lián)盟已投資數百萬美元,以在比賽場地安裝高分辨率攝像頭和高強度傳感器,目的是分析每場比賽中各位球員的表現(xiàn)情況,如球員身體動作和棒球運動軌跡等信息。在不少情況下,體育新聞報道的取材就來自于這些數據當中。或許球隊教練并沒有意識到,自己所帶領球隊之所以被擊敗,主要原因就是球員身體過度疲勞所致。而這些結論,通常都需要數據作為強有力證據。

哈蒙德相信,隨著Narrative市場規(guī)模的進一步增長,其業(yè)務范圍也將形成更為高端的“食物鏈”:從社區(qū)新聞到新聞分析,最終再進入長篇深度報道業(yè)務。從某種程度上講,人工記者和計算機算法或許能夠協(xié)手合作,并發(fā)揮出各自優(yōu)勢。計算機的優(yōu)勢在于記憶無差錯,并能夠快速訪問各類數據。而人工記者在進行采訪過程中,能夠做到“直奔主題”,在獲得相關材料后,再將撰寫文章的任務交給計算機。隨著計算機處理此類任務次數的增長并能夠獲得更多數據,計算機的“敘事”技巧也將越來越高。當然,要達到這一階段我們可能尚需等上一段時間。但最終有一天,或許類似我的這篇文章,根本就不需要我本人動手來寫。哈蒙德說:“人類思考能力非常強大,也異常復雜,而電腦不過是機器而已。今后20年內,將不存在Narrative無法勝任的新聞報道領域?!?/p>

就目前而言,哈蒙德一再強調,Narrative算法并不是為了取代人工記者。哈蒙德透露,自己曾出席一次晚會,在那兒遇到了一名戲劇評論家。該評論家了解了哈蒙德的Narrative業(yè)務模式后,便對哈蒙德橫加指責,稱當前新聞從業(yè)者的日子已經過得很艱難,Narrative怎么忍心讓寫作機器人來搶走新聞記者的飯碗?

哈蒙德回憶道:“我當時盯著他回答說,難道你在美國兒童棒球小聯(lián)盟(Little League)賽場上看見過記者的身影嗎?搞清這一點對我們而言非常重要。尚沒有任何新聞記者因Narrative開展的各項業(yè)務而丟掉飯碗?!?/p>

至少目前尚未如此。

原創(chuàng)文章,作者:劉曉林,如若轉載,請注明出處:http://qyysmy.cn/blog/archives/1622

China-PRNewsire-300-300