當前位置:
首頁 > 新聞 > 專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

雷鋒網按:7月8日,由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的AI盛會「全球人工智慧與機器人峰會」(CCF-GAIR)進入火熱的第二天。各分會會場人頭不減,大家在細分領域深入探討交流的激情更盛。

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

作為AI+專場的開場嘉賓,北京大學計算機科學技術研究所研究員萬小軍發表了主題為《機器寫稿技術與應用》的演講。會後,不少媒體朋友上前與萬小軍交流,期望能將「機器寫稿技術」引入自家媒體。

機器人寫稿並不是一個全新的話題了。2016年8月,萬小軍帶領的北大計算機所與今日頭套實驗室聯合推出新一代AI寫稿機器人——奧運AI小記者Xiaomingbot。2017年1月,萬小軍與南方都市報合作研發寫稿機器人「小南」。「小明」和「小南」備受關注,引發很多爭論,正如鄰居小朋友每次考了高分都會讓你緊張一樣,機器人在智能上的每一次進步,都讓人類擔心自己的飯碗不保,不少小編「哭暈在廁所」。

當南方都市報將「小南」看作自己的「新同事」的時候,萬小軍卻對雷鋒網編輯說,「在我眼裡,寫稿機器人就是一個程序,目前看到的更多的還是不足。」十幾年前,萬小軍就開始做自然語言處理,開始關注其在新聞上的應用,寫稿機器人並不是一個憑空跳出來的擁有華麗簡歷的神同事,而是技術不斷推進和媒體環境變化的產物。在雷鋒網對萬小軍的專訪中,我們拋開人工智慧何時能超越人類, 機器人能不能自主思考這樣漫漫而談的終極話題,一起來看看這個專註於新聞領域的計算機教授究竟在做什麼。

新聞是做自然語言處理最規範的文本雷鋒網:您專註的自然語言處理技術主要有哪些應用場景?

萬小軍:自然語言處理在很多方面都有應用價值,現在的智能問答、人機交互都需要語言的處理,比如說現在的語音交互就需要機器對語言的理解,執行使用者的指令。另外機器翻譯、機器寫稿都是可應用的方面,機器寫稿更側重於自然語言的生成,是說根據語義數據去生成自然語言文本,機器的語言理解和語言生成是兩個相反的過程。

人機對話中也會用到自然語言的生成,機器理解用戶的問話之後,要生成語言來回答。在文化娛樂方面,也可以用自然語言生成技術來生成詩詞、對聯等。

雷鋒網:同樣都是自然語言生成,人機對話中的語言生成和機器人寫稿的語言生成有什麼不一樣?

萬小軍:首先是長短不一樣,人機對話中生成的回復文本一般比較短,多數情況下只生成一個句子,而機器人寫稿則要生成包含多句話的完整文章,寫稿過程中需要重點考慮篇章結構組織以及語句之間的連貫性。另一方面,對話的生成要重點考慮跟多輪上下文的銜接,也就是「語境」,而寫稿的時候沒有這種考慮,能夠把一件事情說清楚就行了。最後,人機對話的語言表達可以比較口語化,但機器寫稿傾向於使用比較規範和正式的語言表達。

雷鋒網:您如何評價微軟小冰和度秘這一類的語音助手或者說聊天機器人?

萬小軍:做聊天機器人如果不限領域的話其實很難做,如果限定一個領域的話就可以做的相對較好,例如專註於天氣、體育或者財經。如果允許天馬行空地發問,機器人回復的難度就很大。一般來說,針對一個狹窄的領域則可以做得很精細,比如就是針對某類產品的客服機器人。現在的「問答機器人」回答的是相對簡單的事實型問題,但是像「百度知道」里絕大部分問題都是複雜型問題,問的是怎麼樣安裝Windows, 托福怎麼樣考高分,怎麼樣上北大清華這樣的問題,這些問題機器不好回答。你要問中國的首都在哪兒,就很好回答,wiki里都有,抽取出來放到知識庫就可以了。現在的智能問答聊天系統還不能回答覆雜的問題,解釋事情的原委以及對比。我們得一步一步來,先解決簡單的然後再考慮複雜的,如果一開始就把複雜的情況都考慮進來那就沒法做了。

雷鋒網:您在2004年就有論文關注新聞摘要提取,自然語言處理的應用領域很多,為什麼選擇並且一直專註在新聞領域?

萬小軍:自然語言處理的各項研究最早都是針對新聞語料開始做的,因為新聞是最規範的文本。如果一開始就在微博、微信和用戶評論這樣的不規範的文本去做,挑戰會很大。所以像「自動分詞」、「句法分析」、「語義分析」、「自動摘要」這些自然語言處理任務一開始的測試語料都是新聞文本。我們先看在新聞文本上能不能做好,再去考慮其它的,因為新聞相對於其他文本來說是最簡單的。

雷鋒網:用在新聞上的演算法能夠應用在別的文本嗎?

萬小軍:應該是可以的,但是在精度上肯定是有變化的。比如說「分詞」這個事情,你在新聞上面分可以達到95%以上,在微博上可能會降幾個點,因為難度會更高,但是方法是可以用的。也可以進一步做些針對性處理,提高精度。

寫稿機器人是新媒體時代產物

雷鋒網:您從事新聞文本挖掘已久,您怎麼看待新聞這種文字體裁?機器人的新聞寫稿得符合哪些基本的要求?(還需要傳統的新聞五要素、客觀性、準確性這些標準嗎?)

萬小軍:在互聯網時代,新聞的定義已經跟原來不一樣了。以前要求新聞要客觀準確,而目前網路上標題黨橫行,很吸引眼球,很多人看。自媒體時代,人人都可以寫稿,新聞不再只是由專業寫稿人生產。現在更重要的是實時、有趣。自媒體時代每個人都在發聲,機器將微博內容和評論整合起來就能出一篇新聞,這在以前是沒有的。新聞的定義在互聯網時代發生了變化。

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

雷鋒網:新媒體時代的新聞已經發生了變化,您在與新媒體和傳統媒體公司合作「寫稿機器人」的時候,感受到新媒體與傳統媒體哪些不同?

萬小軍:他們對機器人寫稿的看法有不一樣。今日頭條會將Xiaomingbot生產的內容直接發布,但是南都還是比較傳統一點,在發布到自己的app上時還是會經過人工審核。從傳統媒體的立場,他們希望發布的信息要很準確。而自媒體更注重量大,側重時效,吸引用戶閱讀。

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

雷鋒網:您與今日頭條Xiaomingbot寫稿機器人的合作是如何開始的?

萬小軍:剛開始也是機緣巧合。我們團隊當時在ACL上發表了一篇論文(《Towards Constructing Sports News from Live Text Commentary》),是一篇關於利用體育直播文字進行新聞稿寫作的論文,我們當時已經做出了DEMO。當時正是2016年里約奧運,他們看到了我們的論文,邀請我們去做報告,然後在兩周內,我們就將寫稿機器人產品做出來了。我們這次的研究離實用很近,雙方的對接也很簡單。

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

雷鋒網:在今日頭條後,您又與南方都市報展開了合作,兩次合作有什麼不一樣?

萬小軍:南都不一樣在於他們主要是依據數據寫稿,從12306網站抓取車票的數據,以及天氣預報這樣的結構化的數據去生成報道。頭條既有基於體育比賽數據去生成報道,也有基於體育賽事的文字直播去生成報道。宏觀上來說,從數據到文本的生成框架是類似的,但具體到每個步驟卻是不同的,需要的數據分析就是不一樣的,例如分析火車票的余票與分析天氣預報是不一樣的,最後的語言表達也是不一樣的。具體做起來,每個領域要重新花很多力氣,沒辦法一套東西又可以做天氣,又可以做體育。

雷鋒網:目前今日頭條和南方都市報在運營寫稿機器人過程中有什麼反饋?他們是否達成了節省人力提升效率的目標?

萬小軍:今日頭條寫稿的量比較大,確實節省了很多人力。南方都市報的量要小一些,更多的是一種實驗性、探索性的目的。南都的優勢還是在於比較傳統的深度報道,目前寫稿機器人還是很難替代深度報道的。但是他們需要關注這樣的技術趨勢,積極去探索,這樣才能更好地把握未來。每家媒體對於寫稿機器人與記者如何協同分工都是不一樣的,但是目前的新媒體平台很需要寫稿機器人來及時快速地進行內容創作與發布。

以技術研究為驅動,落地是緣分

雷鋒網:您目前與企業的合作可以被看作是產學研結合的模式,這種模式有什麼優劣勢?

萬小軍:優勢是你會有一定經費支持做研究,通過應用可以擴大影響力,讓更多的人知道機器寫稿,獲得業界和大眾的關注,要是只是自己發論文就只能在小圈子裡。但是做應用還是會耗費不少做研究的時間和精力,畢竟做應用跟做研究還是有很大差別的。做研究的時候,你把性能從71%提升到72%,有新的方法論就是好的研究成果。但是做應用的時候,71%到72%是沒有用的,你得到85%以上才行,對效果要求比方法要求高。你方法再笨,怎麼實現都無所謂,只要能做出來。而研究要求你有創新。要是你的方法又創新又能直接應用,那當然是最好的。95%以上的研究論文都離實用差得很遠。

雷鋒網:自然語言處理在很大程度上依賴數據,在數據上面您有遇到難題嗎?

萬小軍:我們做自然語言處理研究用的數據是人工標註過的數據,產業界的數據量很大,但是很多都沒有標註。很多新聞沒有標出時間、地名、人名、事件,這樣的數據用處也沒有那麼大。學術界會經常共享人工標註的數據,產業界也會提供一些數據。比如說我們今年依託NLPCC會議跟今日頭條合作舉辦了一個「單文檔摘要」的評測任務,用了今日頭條大概十萬條的標註數據。目前遇到的問題是,比如我們要做「多文檔摘要」,基於多篇文章去得到一個高度總結,這樣的數據學術界只有一兩百條左右。但這樣規模的數據要深度學習的話是沒法做的,深度學習做摘要生成要幾十萬條數據。多文檔數據產業界也沒有,他們也沒有做人工的標註。學術界還是很缺乏數據。

專訪北大計算機系教授萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017

雷鋒網:您對新聞寫稿的下一步規劃?

萬小軍:準備做的一個是文本複述。因為現在做摘要也好,綜述也好,主要還是直接把句子挑選出來,對句子沒有改動,下一步希望對句子做很大的改動,保持語義不變,這就是複述。我們期望做到語言風格的轉換,例如古龍的風格還是金庸的風格。另一個是在寫稿中加入態度和立場,讓稿件更加生動和具有人性。

雷鋒網(公眾號:雷鋒網):您是認為新聞行業對寫稿,文本複述有需求才做的嗎?

萬小軍:我們是技術驅動的,我沒有去跟公司聊他們的需求,這是我自己想做的一個事情。但是我相信這項技術會很有用,自動複述可以實現個性化稿件的生成。研究某項技術的時候並不完全是因為它有實用價值我才考慮去做。

所謂機器人就是代碼

雷鋒網:請問您如何評估寫稿機器人的稿件質量?

萬小軍:有一個客觀的評價,讓幾個人分別寫出不同的稿件,把這些稿件作為答案,把系統生成的稿件和人寫的稿件做一個匹配,看重合度有多高。進一步的就是人工去打分,這個稿件從內容覆蓋性、可讀性等方面進行打分。我們目前並沒有直接將寫稿機器人與人類進行PK,因為跟不同的人去PK可能會得到不同的比較結果。你跟寫稿專家去比,還是跟初中生小學生去比。每個人的寫作水平差距很大,因此就不太好比。跟記者比深度報道寫稿機器人會輸,要是比數據新聞,機器當然更快更精準。從今日頭條的用戶反饋來看,很多人沒有區別機器人的稿子和記者的稿子。

雷鋒網:自然語言處理領域有什麼前沿的新技術嗎?

萬小軍:基於深度學習進行自然語言處理研究是一個趨勢,但其實整個自然語言處理並沒有因為採用了深度學習技術而得到一個突飛猛進的進展。深度學習的應用對視覺和語音等領域取得了顯著的推動作用,但是自然語言處理很多任務並沒有獲得實質性的性能提升。深度學習能夠從圖像和語音信號中獲得有意義的抽象特徵,但是對文本來講,以前用的特徵就是詞,這已經是有意義的特徵了,用深度學習去做的時候是否能學到比詞更有意義的特徵。此外,語言的動態變化,語義的模糊性也導致了自然語言處理是非常困難的。

雷鋒網:能談談您認為自然語言處理要實現的目標嗎?

萬小軍:自然語言處理是很複雜的事情,要做到完全的理解是很難的,我不敢拍胸脯說在多少年以後一定能實現語言理解。但是在特定的應用上可以做的很好,做這些應用不需要做到理解,例如機器翻譯,系統不需要完全理解輸入的文本之後再去翻譯。做很多應用的時候可以不用考慮理解,雖然有些廠商號稱自己是理解之後再去做的。人機對話也主要是一個搜索與匹配問題,你不要問機器到底有沒有理解人類的問話以及它自己生成的答覆。

雷鋒網:能分享一些您在創造寫稿機器人過程中的趣事或者感悟嗎?您怎麼看待自己的寫稿機器人?

萬小軍:平時還是挫敗感比較多,有趣的比較少。很多時候想到一個辦法,但是就是結果調不出來。其實將「Xiaomingbot」、「小南」稱之為機器人並不是特別契合,因為它們其實就是軟體,你給它一個輸入,得到輸出,他沒有人性化。我們自己做出的軟體,一分解之後就是一行行代碼而已。我們自己知道它其實沒有那麼聰明。

在交流過程中,雷鋒網編輯發現萬小軍老師是嚴謹而實誠的研究者,他沒有用大概念,大方向來解說自己的項目,而是真切地分析每一個問題。時間有限的採訪里我們得到了很多實在的觀點:

  • 自然語言處理有多種應用場景,萬小軍選擇新聞領域是因為新聞文本具備最大的規範性,從簡到難,新聞領域的寫稿機器人的演算法也可以逐步應用到其他領域;

  • 摘要與文本生成技術的開端很早,近年才火起來是由於新媒體時代的到來,我們的信息生產、傳達和接收方式都發生了改變,寫稿機器人具備的快速、精準、大量的特點使其在新媒體時代大放光彩,這項技術也是傳統媒體渴望轉型或者跟上時代所需關注的;

  • 學術的研究要落地應用是很難的,研究和行業應用是兩回事,產學研合作的模式能提供一些有利資源,但是萬小軍還是更希望以技術驅動來進行研究,而不是以市場需求來進行研究;

  • 自然語言處理領域要取得突破很困難,很難說什麼時候機器能實現真正的理解。但是一步一步做起,先解決簡單的事情再考慮複雜的,如果一開始就思考複雜的或者終極的問題是無法做成的。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

圓桌對話:機器人如何改變各行各業? | CCF-GAIR 2017
蘇黎世聯邦理工學院教授Brad Nelson:微型機器人不是夢 | CCF-GAIR 2017
耶魯大學教授邵中:如何構建無法被攻破的黑客防禦系統 | CCF-GAIR 2017
乂學教育&朋友印象創始人栗浩洋:AI教育,為學習效率帶來10倍提升 | CCF-GAIR 2017

TAG:雷鋒網 |

您可能感興趣

ICRA 2017 大會主席陳義明教授專訪:論道機器人、AI 與工業之淵源 | CCF-GAIR 2019
哈工大朱曉蕊教授:具有社會屬性的智能移動機器人 | CCF-GAIR 2019
CMU教授Metin Sitti:產學雙棲的仿生機器人專家 | CCF-GAIR 2018
LáSZLóG.BOROS教授將受邀在「2018年ICC&CMT&NCCM」做主題演講
日本東北大學小菅一弘教授:在教會機器人跳舞后,我們又有了更遠大的目標丨CCF-GAIR 2019
CDS2018:陳莉明教授解讀中國 FGM 臨床應用專家共識
數據揭秘2018年中國IC設計業發展狀況——ICCAD魏少軍教授演講實錄
Alexander Geppert當選美國國家航空航天博物館2019-20年首席教授
哈工大朱曉蕊教授:CCF-GAIR 2018 將會與你擦出怎樣的火花
直擊2019 ECCO-何瑤教授為您解讀最新IBD熱點
「CSCO2018」秦叔逵教授解讀2018版CSCO肝癌診療指南亮點
張忠濤教授率團參加EAES/2018年會紀要——中國TaTME臨床研究及專家共識,立足中國,放眼世界
IEEE 計算機學會 2019 年 Edward J.McCluskey 技術成就獎揭曉,周志華教授成唯一獲獎者
馮百歲教授為您解讀2019 AOCC 「IBD治療優化」相關進展
魏少軍教授在第24屆IEEE歐洲測試技術年會上談軟體定義晶元Thinker
MIT教授:我們有50%-100%概率生活在《黑客帝國》的虛擬世界裡
講座信息 | 6月18日,P.B.Mandawala 教授:斯里蘭卡與中國的歷史關係:考古學的視角(馮漢驥學術講座第56講)
JCO I Nivolumab給晚期肺癌患者帶來長期生存獲益:來自CA209-003研究的完整數據 I 楊農教授點評
美國德州農工大學胡俠教授:AI落地開花需翻過「可解釋性」和「自動化」兩座大山丨CCF-GAIR 2019
孫子林教授解讀2018年AACE/ACE 2型糖尿病綜合管理策略共識聲明(下)