當前位置:
首頁 > 新聞 > 還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

人工智慧的發展將會取代人類的哪些工作一直都是備受關注的話題,而我們一直都認為人的思考能力是我們最後的堡壘。正如帕斯卡爾所說, 「人只不過是一根會思考的蘆葦」,我們是自然界最脆弱的生物,卻因為思考變得無比強大。

演講、寫作是我們思考能力的直接表現,赫拉利在《人類簡史》中說道,講故事的能力讓智人種變得和其他原始人和動物不一樣。要是機器也能表達,也能寫作也能講故事來創造自己的文化,人何以與之對抗呢?

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

在由中國計算機學會(CCF)主辦、雷鋒網與香港中文大學(深圳)全程承辦的AI盛會「全球人工智慧與機器人峰會」的AI+分會場上,北京大學計算機科學技術研究所研究員萬小軍做了《機器寫稿的技術與應用》的演講報告。以下內容由雷鋒網整理自萬小軍在會上的演講實錄。

機器寫稿背景與現狀

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

早在幾年前,國外就已經有機器人寫稿,最具代表性的是來自美國、歐洲的三家公司:ARRIA、AI、NARRATIVE SCIENCE。據說他們的機器人採用英語或者西方語言為著名的媒體網站寫了數千萬篇稿件。

國內的寫稿機器人在這幾年才開始慢慢受到大家的關注。有很多的媒體單位在和一些學術機構進行合作,推出寫稿機器人。另外微軟、百度、騰訊、今日頭條這樣互聯網巨頭也在研發機器寫稿技術,因為它自己需要做一些內容的創作。主要是側重在體育、財經、民生領域,一般政治類的涉及的比較少。涉及到政治稿件如果犯錯的話,問題就比較大,所以主要還是在一些不太容易出問題的領域寫稿。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

機器人寫稿的模式與技術

機器寫稿有兩種方式,一種是原創,一種是二次創作。原創一般是之前沒有稿件,只有結構化的數據,我們可以藉助結構化的數據去生成新的稿件。比如說我們寫一個天氣預報的報道,或者寫一個年報、財報都直接可以從數據中生成。而關於一個已經有相關報道的事件,我們藉助這些報道進行一些拼湊、改寫成為新的稿件,這就是二次創作。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

原創和二次創作所依賴的技術也是不太一樣的。原創採用的是自然語言生成技術,是從結構化數據/意義表達生成自然語言語句。二次創作採用的是自動摘要技術,我們從已有的文字素材去給它摘要,把它生成一個新的稿件。這是兩類非常關鍵的技術。

還有其它的一些相關技術:文本信息推薦技術和文本複述技術。比如說我們在寫一個稿件的時候,有時候會想引用一句名人的話或者引用一個唐詩宋詞,機器會自動給你推薦。第二個是文本複述技術,我們基於一個個稿件做創作的時候,如果我們直接把原文原始的內容拷貝過來,這個有點抄襲的嫌疑。所以這時候我們就需要做一些複述,會用不同的語言去表達同樣的語義。這裡有一個例子是說「梅西獲得了5座金球獎」,你可以改為「梅西是五屆金球獎得主」,也可以改寫為「金球獎5次頒給了梅西」,這樣就可以避免版權的問題,也可以讓我們的改寫更加生動。

機器人寫稿應用廣泛

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

機器人寫稿的應用十分廣泛。首先是新聞資訊的自動生成。我們輸入結構化的數據,以及已經有的稿件,可以生成長度可控的幾十個字到幾千字的稿件。例如,一個體育的簡訊的生成需要我們從網上抓取關於體育賽事的一些基本的數據,藉助這個數據做一些數據分析,文檔規劃、語句的實現,就可以生成右邊的這樣一個比較簡單的體育的賽事報道。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

另一個是體育賽事的長篇報道的自動生成。簡訊包含的信息量很少,我們想生成一個長篇的報道來介紹整個比賽的過程。我們經常發現著名的體育比賽下面都有文字直播,通常包含主持人對這樣一個比賽的精彩細節的描述,我們通過機器學習的手段,能夠把這些精彩的描述挑選出來,放到我們最終的報道中,這個報道就寫得比較長,可以達到上千字以上。首先藉助機器學習的手段,對直播文字進行語句的智能排序,再進行智能選擇,最後生成一個平均長度超過1000字的賽事的報道。我們看到直播文字一般會達到數千字,一般是5000字以上,所以要從5000字中選擇和拼湊出1000字以上的長篇報道。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

還有一個是娛樂新聞的自動生成,娛樂新聞有很多不同的生成方式。比如說你可以根據明星的資料庫,直接對這個明星做一個簡單的描述。我們做的是可以藉助明星的微博生成娛樂新聞。明星通常會發一些微博,有些微博會吸引大家的眼球,構成熱新聞。我們有一個機器學習的手段,能自動判別明星發的哪一條微博具有新聞價值,再判斷這個微博下面的哪些評論,具有新聞價值。把這個微博和它的評論以及相關的背景信息組合在一塊,就可以形成一個比較短的新聞。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

我們也做了新聞綜述的自動生成的嘗試。我們對於某一個事件已經有比較多的新聞報道,需要思考怎樣基於這些報道去自動生成一個篇幅較長的事件的綜述。我們所使用的對象是用Wikinews,它的內容基本都是比較客觀、比較中立的綜述。它會對已有的報道做一些分析,做一些無偏袒的綜合,然後得到一篇長的綜述。我們拿這樣的數據做了一個實驗,去做一些語句的篩選和組合。因為要構成一個綜述,所以不是以句子為單位,而是以一個子話題為單位。我們首先劃分子話題,每個話題對應一個段落。然後對它進行一個重要性的排序,最後做一個段落的選擇,也就是子話題的選擇並且把相關的子話題合并,得到一個更完備的子話題最終形成完整的事件的綜述。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

除了生成事實型的新聞之外,我們也嘗試讓機器人去生成用戶的評論。我們輸入對於產品的某一個特徵或者某幾個特徵上的評分,比如我輸入給這個軟體的是我對這個汽車的操控性是5分評價,對它的外觀是3分評價,根據這個評價會自動生成一個自然語言的評論。我們採用的是一個深度學習的模型,右邊是這樣一個模型的架構。我們提前可以看我們最終生成的這樣一個例子。

這個汽車有空間、動力、控制等等一系列的特徵,用戶要做的就是針對每個特徵輸入一個分數值,這個分數值越高代表你越滿意,分數值越低就越不滿意。我們看到這個例子,比如我們輸入的空間是3分,動力是4分,舒適性是3分,3分代表一般,我們看到右側生成的中文的評論,得到的表達是「舒適性一般,畢竟是運動型的車」,它很準確的對這個分數進行了描述。然後把舒適性從3分改成5分,5分是非常滿意,最終生成的對應的文字的部分就是「舒適性很好,座椅的包裹性很好,坐著很舒服」。我們的模型能夠很好將這個分數的細微改動直接反應到最終的自然語言的結果上。能夠根據用戶對我們的產品的特徵的分數的輸入,自動生成一個比較完整的一大段的用戶的評論。這是基於深度學習模型來做的。

寫稿機器人小明小南和阿同

我們目前有三個合作的機器人寫稿項目,一個是今日頭條的「Xiaomingbot」小明機器人,南方都市報的「小南」,廣州日報的「阿同」機器人。小明主要服務於奧運會,小南、阿同當時是給2017年的全國兩會做了一些報道的工作。

跟今日頭條合作推出的小明寫稿機器人,主要是針對體育賽事進行賽事的簡訊和長篇報道的生成,既可以生成幾十字的短訊,又可以生成上千字的長篇報道,它包括足球聯賽,也包括NBA的比賽,在奧運會期間寫了456篇,單篇最高的閱讀量是11萬次。到上個月底,共撰寫新聞5000多篇,總計閱讀量1800萬次,這是因為今日頭條的用戶量很多,所以閱讀量也是很多的。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

這是Xiaomingbot頭條號的界面。這個歐冠決賽,尤文圖斯以1:4完敗皇家馬德里的比賽的結果的新聞是完全靠機器寫出來的,這個稿件的文字很長,有1121個漢字,它比較準確地把這個比賽的主要信息都做了一個描述,還是比較完整的一篇新聞報道。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

小南寫稿機器人現在是在南方都市報的APP上撰寫一些民生新聞,去年年底做過春運火車票的新聞撰寫,側重廣州到其它大城市的新聞,最近寫的是天氣預報的新聞,在兩會期間還寫過兩會的小南讀報的新聞。

小南寫的春運火車票的新聞中採用了不少賣萌的句子。當然這也是把我們的新聞記者的語言表達做了很好的總結,最後使我們的機器人也能這樣表達出來。 最近小南機器人也做了一些天氣預報的寫作。小南讀報主要是在兩會期間統計南方都市報跟兩會相關報道都分別屬於哪些領域,做了一個統計和盤點,然後把這個盤點的結果用自然語言的形式表達出來。另外對其中一些爆款的新聞做了摘要和總結,也放在這個稿件中,所以這個稿件的信息量是比較豐富的,對多篇新聞進行了盤點。

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

阿同主要是在兩會期間做了一些工作,主要是對政府的工作報告做一些熱詞和關鍵數據的解讀,解讀完了之後進行自然語言的表達。這是阿同對政協工作報告做一個熱詞的分析,今年的政協工作報告有哪些熱詞,這些熱詞跟去年相比有哪些變化,把這個變化的情況用自然語言表述,最終形成在報紙上印出來的報道。因為廣州日報要在報紙上印出來,所以對錯誤是零容忍,所以必須經過人工的審核。

傳統媒體VS新媒體

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

對於不同的應用單位,對稿件的質量要求是不一樣的,對於一些傳統的媒體單位,它對稿件的錯誤是零容忍。要發布到報紙上需要通過人工的審核,而一些自媒體可能就直接發在網上,個別的錯別字或者個別的語句不通順不影響網友的閱讀,網友可能在下面寫一個評論,說這個稿件怎麼還有錯別字,但是這個也不影響網友的閱讀和點擊。所以自媒體對稿件的質量容忍度比較高一點。所在兩種不同的場合下應用的要求是不太一樣的,所以我們在機器寫稿發稿的時候也會有所不同。

機器人VS記者

還有什麼是寫稿機器人不會寫的?北大計算機所萬小軍詳解寫稿機器人的技術及應用| CCF-GAIR 2017

目前為止,機器人跟記者之間的關係是一種分工協作的關係。機器人現在不具有邏輯思維的能力,也不具有深度總結的能力,它只能去把一個基本的新聞事實描述清楚,但是我們記者就可以寫深度報道,比如說中國足球,他可以經過自己的分析,寫中國足球這幾十年來落後的原因,它可以總結出幾條觀點,但是機器人總結就很難了,所以我們的記者應該是從事有創造性的、高智商的稿件的創作,而把一些重複的、低層次的稿件創作的活動交給機器人完成,所以是一種分工協作的關係。

另外一個不同點就是,記者在寫一個稿件的時候,他是很清楚地知道我在寫什麼,他知道自己要表達的語義。但實際上機器人在寫這個稿件的時候,雖然他把每一個句子都寫出來了,但實際上他不知道自己要寫什麼,這是最大的一個不同,就是說它沒有理解自己的稿件,雖然它寫出來了,包括機器人寫詩,或者寫各種歌詞的時候,它也把那個語言寫出來了,但是它並沒有真正理解那個語言,所以這是一個比較大的不同。

未來展望

最後是一個未來的展望。我們看到現在機器寫稿不光是在媒體行業,我們現在也在跟一些遊戲行業和情報行業合作,他們也有機器寫稿的需求,只要什麼時候你需要寫這樣一些報告,比如寫一些行業報告,或者寫一些稿件,都可能會利用到機器寫稿的技術,不光是媒體行業寫新聞會用到,其它的行業也會用到。

第二個方向,我們現在寫的稿件還主要側重對客觀事實的描寫,還沒有加入太多的態度和立場,因此顯得人性化方面不太理想,下一步會讓我們的稿件自己具有一定的立場,比如我們在報道中國隊對韓國隊的比賽的時候,我們如果站在韓國隊的立場,如果中國隊輸了的話,我們就應該是很高興的,標題可能會說「韓國隊大勝中國隊」,如果是站在中國隊的立場,可能標題寫會「中國隊憾負韓國隊」,這個立場就不一樣,我們的稿件具有這樣的態度和立場,它就會更加人性化。

第三點也是最難的一點,就是讓機器學會推理和歸納,寫出真正的深度報道。比如說我們報道一場足球比賽以後,我們要分析一下為什麼是這樣的結果,把這個原因進行推理總結出來。這樣的報道就是真正的智能的,像之前寫的稿件是一個弱人工智慧時代,如果我們要寫一個強人工智慧的稿件,就必須讓機器具有這樣的態度和立場,也具有這樣的推理、歸納能力,這是下一步要研究的目標,也是有可能去實現的一些目標。尤其是具有態度和立場,我覺得應該在未來兩三年是可以去實現的。然後推理跟歸納,可能兩三年的時間都不一定夠,我覺得需要更長的時間才有可能取得一些突破。

(萬小軍老師的演講很細膩精彩,會後雷鋒網對萬小軍老師進行了專訪,更多關於寫稿機器人的問題的探討請點擊:《專訪北大計算機所萬小軍:寫稿機器人是新媒體時代的產物| CCF-GAIR 2017》)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

海致斬獲「金融科技領域最佳投資價值獎」「金融科技最佳創新企業」兩項殊榮
金融雲割據局面開啟,騰訊要成為銀行打造互金平台的首選
支付寶、微信接入美國支付平台 Stripe,海淘進入 2.0 時代?
百度孫勇義:Apollo 的自動駕駛開放之路

TAG:雷鋒網 |

您可能感興趣

圖解 亮相2016ICRA的那些機器人
小i機器人發布「AI+」8大領域應用 最快將於2019年IPO
樂視手機還有機會?為老款機器升級EUI6.0!
慕尼黑AUTOMATICA 2018機器人及自動化展會總結
「CVPR 2018」機器也能感知時間,AI系統可預測5分鐘內的未來!
CES Aisa2018好物分享,這款機器人跳起了海草舞
《戰爭機器5》Xbox One X全模式將爭取4K 60FPS PC版可實現120FPS
蘋果公司良心一次,iPhone這款機器16GB可換32GB!
ILIFE智意X800掃地機器人有哪些配件?
CMU教授Metin Sitti:產學雙棲的仿生機器人專家 | CCF-GAIR 2018
優雅的性能機器,梅賽德-AMG GT C上市!只賣197.8萬
Instagram坐擁10億用戶,研究稱機器人賬號有9500萬
谷歌TPU 3.0重磅發布;I/O大會上機器人真的能打Call!
「重磅」全球人工智慧與機器人峰會第2日:機器人、CV、智能安全、金融科技5大專場,3000人出席丨CCF-GAIR
機器人耗時 0.38 秒還原魔方;微軟推出 Windows ML,將機器學習帶入桌面
戰爭機器終極版包括整個Xbox 360 Gears系列
小i機器人被再次寫入Gartner《2018年中國會話式AI市場指南》
克路德機器人完成6000萬A+輪融資 專註AI應用
小i機器人發布「AI+」8大領域解決方案,計劃2019年進行IPO
賬戶近十分之一都是機器人:研究稱Instagram存在多達9500萬機器人