百度NLP|智能寫作機器人:不搶人類飯碗,我們只想人機協作
百度NLP專欄
作者:百度NLP
2016 年,百度全面發力內容生態領域,藉助人工智慧 (AI)、自然語言處理 (NLP)、深度學習 (Deep Learning) 等技術和百萬級別的用戶標籤,推出個性化信息資訊流,與此同時,百度戰略級產品「百家號」2017 年預計將向內容生產者分成 100 億,以此鼓勵個人和機構入駐參與內容創作。
而在眾多內容生產者之中,一位特殊的「作者」顯得格外引人矚目——那就是在去年上線的百度智能寫作機器人(Writing-bots)。據了解,目前百度智能寫作文章可涵蓋社會、財經、娛樂等 15 個大類,並可實現體育新聞、熱點新聞等多領域全機器創作。
圖 1:百度智能寫作機器人文章示例
而從目前寫作的文章來看,百度智能寫作機器人在語言組織、語法和邏輯處理方面都已具備了相當的能力,甚至可以熟練地使用專業術語對新聞事件進行分析,寫作質量幾乎可以貼近人類的水平。
那麼,百度智能寫作機器人究竟是如何寫稿的?未來機器寫作是否有望取代人類?帶著對這位「神秘作者」的好奇,我們與百度智能機器寫作團隊展開了一次對話,試圖揭開機器人寫作背後的奧秘。
Q1. 為什麼會想到讓機器人寫稿?百度智能寫作機器人的研發背景是怎樣的?
答:2016 年,百度確立了「搜索+信息流」雙向智能適配的信息分發 2.0 模式,由於資訊流產品和百家號的迅速發展,用戶資訊閱讀需求呈現出了較大的增長,與此同時,我們發現,一些用戶感興趣的內容,比如彩票、股票、旅遊等話題,卻很少有資訊文章涉及,因而存在著大量資源的短缺,於是我們就希望結合百度自然語言處理、大數據分析、人工智慧等技術優勢,通過機器寫作的方式,聚合全網信息和百度優質資源,快速生產文章滿足用戶的需求,實現用戶興趣點的快速(分鐘級快訊)、高效(省時省力)、高覆蓋(中長尾)滿足和資訊內容的深度定製以及個性化推薦,從而在內容生態裡面幫助生態自建。
Q2. 目前百度智能寫作機器人可以寫作哪些類型的文章?是否可以實現原創?
答:目前我們的智能寫作機器人產出的文章主要有三種類型:速報類、知識類和資訊聚合類。速報類,如比賽信息、股訊快報等,對時效性要求比較高,需要瞬時將結果生成文章。知識類主要是科普類的文章,如教育(詩詞、歷史知識)、生活(菜譜,保健知識)、旅遊等。知識類文章的數據內容主要來自百度的知識庫和全網優質資源,通過對優質數據資源的組織聚合和計算推理,為用戶提供更加豐富的知識和信息。而資訊聚合類是基於全網實時資訊數據,根據用戶關注點,生成用戶感興趣的、以話題為中心的資訊文章,比如某一個電影熱映,我們會對電影的主演、之前的作品等信息做一些擴展和盤點;對於熱點事件,我們會對事件的發展過程和關鍵信息進行分析聚合,形成事件脈絡,便於用戶了解事件全貌等。這類文章是在現有的資訊信息基礎上,重新智能聚合生成新的文章。
從技術方案上看,主要分為兩類:
一類是基於結構化數據、知識庫或優質資源直接生成的文章。速報和大部分知識類文章是基於這類技術方案。這類文章因為直接從數據通過分析聚合或知識推理生成原始稿件,因此可以說是原創。
另一類是在已有稿件的基礎上通過內容分析聚合生成的新的文章。大部分資訊聚合類文章,如話題盤點、事件脈絡、熱門要聞回顧等都屬於此類。因為是基於已有稿件內容創作新的稿件,因此可以看作是二次創作。當然,我們也可以在一篇文章的生成中結合上述兩種技術,進行混合創作。
Q3. 百度智能寫作在技術上是如何實現的,基本的創作流程是什麼?
答:我們的智能寫作整體是基於大數據分析、內容理解和自然語言生成等技術得以實現的,基本創作流程主要分為數據採集、數據分析、自動寫稿、審核簽發等環節。其中核心流程「自動寫稿」部分通常還包括文檔規劃(document planning)、微觀規劃(micro-planning)和表層實現 (surface realization) 三個階段,分別解決稿件寫什麼、怎麼寫以及如何潤色呈現的問題。比如文檔規劃,需要確定寫什麼內容,採用什麼結構來寫,微觀規劃則更加細緻化,具體要確定怎麼來寫每個段落、每個句子、每個標題以及內部的結構組織等。表層生成,則是對文章整體的潤色和改寫,比如如何調整文章格式、給文章配圖等。
圖 2:百度智能文章生成過程
Q4. 百度智能寫作有哪些特點和優勢?實際應用情況如何?
答:目前媒體報道的寫作機器人大多面向體育、財經等特定領域,我們的智能寫作文章類型更加多樣,覆蓋的領域更為廣泛,並且可以實現個性化的推薦和訂閱。總體來說,實際的用戶需求、大規模數據資源,先進的技術積累,以及產品應用中的反饋迭代,形成了百度智能寫作的獨特價值和優勢。
我們的智能寫作的文章類型和話題源於實際的用戶和產品需求。根據對資訊流產品內容分布和用戶興趣點分布的分析,我們確定了三類文章類型:速報類、知識類和資訊聚合類,分別用於改善產品中三類需求滿足問題:高時效性需求,中長尾需求,和熱點話題信息的高效獲取需求。在具體話題的選擇上,我們根據用戶興趣點分布確定話題覆蓋優先順序。目前百度智能寫作的文章已經涵蓋電影,美食、旅遊、汽車、創業、房地產等 50 多個話題,涉及社會、財經、娛樂等 15 個領域。
百度在數據資源和人工智慧技術方面的積累為智能機器寫作的研發提供了有力支持。
在數據方面,除了海量的全網優質數據,百度擁有大量的自建高質量數據,包括百度阿拉丁(優質資源開放平台)、百度知道、百度百科、知識圖譜等,不僅可以支持基於結構化數據的文章生成,還可以支持基於內容聚合方式的文章生成。百度阿拉丁的時效性結構化數據,如體育比賽、彩票、股票信息、惡劣天氣預警等,是速報類文章生成的數據基礎。百度百科、百度知道和知識圖譜是知識類文章生成的重要數據來源。以百度百科中的城市百科為例,城市百科中包含了大部分城市的景點、美食、文化排行榜數據,這些數據與對應景點、美食的描述數據相結合就可以生成城市旅遊、美食、文化的介紹文章。同時,基於海量的用戶行為日誌數據,可以準確地捕捉對這些內容感興趣的用戶,就可以實現生成內容的個性化推薦和滿足。
在技術方面,百度在內容理解、語言生成、知識推理、機器學習等方面的技術積累,是智能機器寫作的重要技術基礎。以資訊聚合類文章生成為例: 首先,聚合類文章的話題選擇和資訊內容獲取是基於內容理解和用戶理解技術。利用百度自建的關注點圖譜(主題、實體、事件標籤以及標籤間的關係)和標籤預測技術,我們為每篇資訊內容打上關注點標籤,同時根據用戶的搜索或閱讀行為可以獲得用戶的關注點標籤,即用戶的興趣點。這樣就獲得了用戶感興趣的話題,同時基於內容標籤可以獲得相關話題的資訊內容。其次,基於內容理解和生成技術對於同一話題的內容進行壓縮和聚合,相關技術包括:事件分析,話題聚類,事件脈絡抽取,自動摘要,標題生成、結構生成等,而機器學習和知識推理是這些技術實現的基本方法。圖 3 以事件脈絡型文章的生成為例說明聚合類文章寫作中所依賴的主要技術。可以看到,百度深厚的技術積累為智能機器寫作提供了有力的技術支撐。
圖 3 事件脈絡型文章生成主要技術
目前,我們的智能寫作機器人在百家號和百度資訊流產品中已累計發文近萬篇,閱讀量超過千萬。圖 4 是智能機器人寫作的新聞實例,包括通用領域新聞,生活新聞,體育新聞等。隨著產品的應用,我們可以積累更多數據和用戶反饋,不斷實現技術的更新迭代。
圖 4:百度智能機器人寫作應用實例
Q5. 智能寫作技術上最大的難點是什麼?百度未來是否會嘗試深度文章的撰寫?
答: 人類作者在撰寫文章時通常會對數據、內容和話題進行深入理解,並可以進行演繹、推理和聯想,從而完成更深入的報道,充分表達自己的觀點和立場。而相比之下,機器則更長於數據分析和規範的寫作,在自然語言深入理解,以及讓稿件具有觀點和立場等方面還有很大的提升空間。
在深度文章寫作方面,我們也在做一些探索和嘗試,比如情感分析等研究,力圖讓機器寫作更貼近人類,甚至希望有一天它能有自己的立場和觀點,更加人性化。但就目前而言,我們的智能寫作機器人會更聚焦用戶需求,偏重數據分析和客觀文章的撰寫,致力於幫助內容創作者減少重複勞動,節省更多精力去撰寫更加優質的深度內容。
Q6. 百度智能寫作機器人背後的團隊構成是怎樣的?
答:我們的智能機器寫作研發團隊成員來自百度阿拉丁團隊、NLP 團隊、知識圖譜團隊、互聯網數據研發團隊以及質量保證團隊等不同部門。研發初期主要通過小規模數據樣本和簡單的人工處理實現技術探索和原型設計,隨著技術的進展和用戶需求的增長,產品、技術、資源、平台等多個團隊展開聯動,著手推進更加成熟的產品落地。
Q7. 在內容創業迎來了新風口的當下,百度推出了戰略級產品百家號,並以百億分成鼓勵內容原創,如何看待智能寫作機器人與內容生產者的關係?百度智能寫作下一步的發展目標是什麼?
答:我們認為智能寫作機器人與內容生產者之間主要有兩層關係:一是「代替」,將作者的重複性、規範性寫作和客觀數據聚合類勞動用機器進行替代,讓作者可以更好的投入到深度文章的創作。二是「服務」,人工智慧可以通過大數據幫助編寫深度文章的作者,進行語料、素材的高效率搜集與初級加工工作,同時也可以基於行業的深度結構化數據完成基礎數據分析及文章生成工作,服務於內容生產者,提升他們的寫作效率。而這也正是我們智能寫作的未來的發展目標——人機混合編輯。
Q8. 百度智能寫作機器人與人類有哪些差異?未來是否會完全取代人類?
答:智能寫作機器人和人類相比可以說是各有所長,智能寫作首先肯定是速度快,可以在短時間內搜集大量數據和信息完成創作,其次是有特彆強的數據分析、收集能力。人一天看一百篇文章就很多了,但是機器則可以不知疲倦不停學習,隨時隨地收集和生產內容。儘管人類寫作相對機器而言,時間較長,成本也較高,但人可以對一個事件進行演繹、聯想,從更加豐富的層面上進行創作,表達自己的觀點和立場,因而在深度撰寫方面具有難以替代的優勢,因此在可預見的未來,我們認為機器完全取代人類的可能性不大,智能寫作機器人對於能夠深耕文章內容、有獨立觀點見解的內容創作者而言,不僅不會成為「搶飯碗」的替代者,反而會成為幫助作者生產優質內容的貼心助理。
百度NLP專欄擴展閱讀:
百度NLP | 自動寫詩 PK 古代詩人:百度「為你寫詩」技術深度揭秘
獨家對話百度副總裁王海峰:NLP 的路還很長
「百度NLP」專欄主要關注百度自然語言處理技術發展進程,報道前沿資訊和動態,分享技術專家的行業解讀與深度思考。
※機器之心深度研學社每周乾貨:2017年第14周
※藝術家如何藉助神經網路進行創作?
※神經圖靈機深度講解:從圖靈機基本概念到可微分神經計算機
※Hinton的成功之路:從神經網路黑暗時代的堅守到今天的勝利
※「冷撲大師」強勢戰贏人類牌手,博弈論落地商業應用有幾分可能
TAG:機器之心 |
※只需一台手機和幾件智能設備,我們就能把自己打造成「智能人」
※當智能機器人達到一定程度,它會「屠殺」人類嗎
※人與智能機器人,誰更懂禮貌?
※你初次擁有的智能機器人,很可能就是你的汽車,你會把自己的性命交給它!《3D列印》作者跨時代力作!
※未來智能機器人必須具有意識和感情,甚至出現人機合一機器人!
※究竟何為機器人?AI時代下的智能機器人又會是什麼樣子?
※人與機器協同工作,人的智能與機器智能互補也是一個必然趨勢
※人人都能做設計 智能針織機讓用戶設計自己的衣服
※智能遛狗機器人
※牛人教你如何使用塑料瓶製作智能手機操作桿
※智能機器人住進你的衣服,以後連手機都不用帶了
※這款智能機器人產品,可能和你見過的所有都不一樣
※人人都能織毛衣!智能針織機讓用戶設計自己的衣服
※這可能是你見過最智能化的無人機了 一個人輕鬆拍
※服務機器人,如何超越「智能手機加個殼」?
※擴博智能:除了掘金無人機影像數據,它認為無人機操作系統也是塊香餑餑 | 創業
※智能機器人 VS 機械戰警,哪個更強?
※想讓手機控制整個家,只需一台智能主機就夠了
※不要再認為人工智慧就是機器智能了,它們其實是兩個概念!