智能語音交互技術在媒體的應用和前景

最新 06-27

核心閱讀：對擁有內容優勢的媒體而言，應當及時看到智能語音交互可能給信息傳播帶來的革命性影響。從針對語音交互硬體的內容分發到技術賦能內容生產，語音這一物聯網時代的重要入口值得媒體行業提前布局。

「Hi, Siri!」隨著2011年蘋果公司的經典產品iPhone 4S獲得巨大的商業成功，其搭載的智能語音助手也漸為消費者所熟知。Siri的全稱是Speech Interpretation & Recognition Interface，即語音識別與理解介面。這一商用級軟體拓展了人機交互的邊界，使原本在科幻電影和實驗室中的信息互動場景走進生活。

緊隨其後，微軟Cortana、谷歌Assistant、亞馬遜Alexa等智能語音助手紛紛面世，順勢誕生了微軟Invoke、Google Home、亞馬遜Echo、蘋果HomePod等智能硬體。矽谷的軟硬體巨頭及電商領軍企業紛紛入局這場競爭。國內，阿里、騰訊、百度、科大訊飛等互聯網企業的AI實驗室都將語音交互作為重要布局，通過開放平台戰略尋求軟硬體及內容合作，營造智能語音行業生態。

從技術發展史的角度看，智能語音交互將是人機交互在物聯網時代的重要組成部分。人機交互的發展必定以更多樣的交互方式、更快的輸入速度、更少的場景限制為表現，即機器更懂人的需求、人與網路自由連接。

本質上，這場競爭是互聯網巨頭們對未來萬物互聯時代語音交互入口的爭奪，裹挾著智能硬體、智慧家居帶來的絕佳商業預期，行業風口疾風勁吹。對擁有內容優勢的媒體而言，應當及時看到智能語音交互可能給信息傳播帶來的革命性影響。從針對語音交互硬體的內容分發到利用技術賦能內容生產，智能語音交互技術與媒體天然存在多層級的合作可能，技術應用前景廣闊。

語音交互的技術構成

智能語音交互技術是一項系統性工程，大致涉及語音識別、自然語言理解、對話管理、自然語言生成、語音合成等技術及綜合運用。其中自然語言理解、對話管理、自然語言生成的流程又被稱為智能對話系統，是整個智能語音交互過程的核心技術難點。

目前，實現智能語音交互的五大技術模塊發展程度不一，且各有許多關鍵節點尚未突破，因此，真正能用自然語言與人類實現無條件自由交談並採取相應行動的語音系統尚未誕生。但經過數十年從理論到技術的發展，特別是藉助大數據深度學習等人工智慧技術後，語音識別、語音合成、自然語言理解等模塊已有重大突破，並部分實現商業化應用。

可以說，語音交互技術初步實現了從規則指令到自然語言指令的進步，但距離自由交互尚有巨大的鴻溝。現階段基於機器學習的「閑聊機器人」多處在實驗室階段。

語音交互的技術應用

（一）市場參與者

儘管語音交互尚未完全成熟，但國內外互聯網巨頭都認為此項技術前景可期，並將其作為人工智慧戰略的重要組成部分。軟體方面，具備語音交互功能的智能語音助手成為核心產品，如蘋果Siri、亞馬遜Alexa、微軟小娜等。硬體方面，繼搭載了智能語音助手的移動終端後，智能家電、智能車載終端也紛紛增加了語音交互功能。此外，眾多語音技術公司針對不同行業及場景提供了各類軟硬體解決方案。

開放合作是這一市場的首要需求。事實證明，語音交互及人工智慧技術應用的產業鏈極長，物聯網的實現絕非一家之力。大部分市場參與者都採取了公開SDK，全面打造開放平台的發展戰略。相反，有批評者認為，正是因為蘋果的保守導致Siri在這輪發展中落後於谷歌、亞馬遜、微軟等公司的競品。

技術應用的本地化是另一個問題。儘管亞馬遜在炙手可熱的智能音箱領域佔有先機，但因語言環境的特殊性，本土企業在競爭中具有很大優勢。BAT、科大訊飛等大型互聯網企業整合產業間資源，基本構建起開放平台，率先布局；思必馳、出門問問等語音技術公司專註於解決方案等B端業務；傳統音箱與硬體製造商、內容及服務供應商紛紛入局。

（二）典型應用場景

目前，商用的智能語音交互以語音喚醒+服務響應為主，部分產品支持多輪對話，基本實現了5米遠場識別、連續語音和命令詞識別、上下文語義理解等關鍵技術。主要應用場景包括移動終端、智慧家居、車載語音系統、其他行業解決方案等。

1.移動終端與可穿戴設備

2011年，蘋果最早推出了搭載Siri的智能手機。隨著微軟、谷歌、亞馬遜等公司的入局，手機、平板、筆記本電腦、手錶等可穿戴設備普遍內置了智能語音助手。除了設定鬧鐘、查詢天氣等官方開發的技能外，語音助手已兼容第三方應用，如用Siri口述發送微信等。

但手機端語音助手在使用習慣上面臨兩大質疑：

第一，大量應用以觸摸屏視覺交互為設計基礎。語音交互的信息量有限，難以實現複雜操作；

第二，語音交互最大的限制是公共場景中的隱私問題。據不完全統計，僅有3%的用戶會在公開場合用語音對手機發號施令。

因此，語音交互在移動終端與可穿戴設備上主要起到輔助作用，用戶教育尚需時間。

2.智慧家居

事實證明，語音助手在私密場景中的使用率更高，其理想應用場景是「家＞私家車＞路上＞工作」。家居場景中，智能電視、智能冰箱甚至智能鏡子等設備都可搭載語音助手，實現語音控制，串聯起從廚房、客廳到起居室、衛生間的智慧家居物聯網。

因為傳統家電硬體的語音交互改造成本較高，入局的互聯網企業普遍推出家用智能音箱作為核心硬體，試圖將這一全新品類打造成家居場景的語音控制樞紐。

3.車載語音控制系統

隨著語音識別、自然語音理解等技術的發展，在車內場景中通過語音交互控制車載導航、娛樂、空調等系統成為可能。語音控制系統將駕駛者的注意力從屏幕和按鈕中解放出來，一定程度上增強了行車安全性。由於車內場景具有一定的私密性，這種交互方式自然容易被接受。

百度語音為特斯拉提供中文解決方案，阿里雲和上汽合作研發車載操作系統，科大訊飛推出飛魚語音助理，種種跡象表明互聯網巨頭已通過語音交互技術切入車聯網的競爭中。

4.其他行業解決方案

除此之外，語音識別、自然語言理解、語音合成等底層技術在各行各業都有很強的應用潛力。在消費、金融、教育、醫療等領域提供智能客服、語音轉錄、機器翻譯、機器配音等諸多解決方案。

服務業方面，科大訊飛開發的智能客服和語音合成解決方案已入駐眾多呼叫中心；百度基於小度機器人開發的語音點餐系統走進肯德基上海旗艦店。

教育業方面，科大訊飛、思必馳、雲知聲等公司均推齣兒童陪伴機器人的解決方案。

醫療業方面，Nuance、科大訊飛等公司都能提供實時語音轉寫和電子病歷錄入的服務。

原則上，所有需要人與人進行對話的行業都可由智能語音助手進行賦能。

媒體領域的應用前景

媒介是人的延伸，語音交互技術與人工智慧的進步無疑創造了媒體與用戶接觸的更多場景。目前，包括語音識別（語音喚醒、語音轉文字）及語音合成（文字轉語音）等技術模塊已能夠實現成熟應用。對媒體而言，內容生產、經營、運營等全鏈條均可由智能語音交互帶來優化乃至深刻變革。

（一）針對語音交互硬體進行內容分發

媒體以內容提供者身份入場，將現有的智能語音交互硬體打造成新的流量入口和分發渠道，這是一種自然的合作。

國外產品在這方面先行一步，亞馬遜Alexa開發團隊主動推出了Flash Briefing功能，目前已有路透社、福克斯新聞、BBC、NPR、紐約時報、華盛頓郵報、人物雜誌、ESPN、The Daily Show、Daily Tech Headlines等大量專業媒體入駐合作。該功能主要提供語音新聞簡訊，每日定時更新，拓展了內容分發渠道，特定喚醒語為「Alexa, what』s my flash briefing?」。

這類功能主要使用了語音識別（語音喚醒）及語音合成（文字轉語音）技術。媒體通過音頻內容的定製化生產和重新編輯，實現對全新人機交互入口的提前佔位。目前，電子合成語音和人類的自然語音尚存差距，文字及電視媒體需要適應純音頻的稿件創作，技術和內容還需磨合。

（二）開發基於語音UI的新聞應用

移動互聯網時代的主流交互方式是基於文本的觸摸屏交互，但物聯網時代勢必需要重新開發基於語音控制的全新用戶界面。

媒體需要做的是強化自身內容資料庫建設，在此基礎上合作開發基於語音交互的App，優化用戶的語音控制體驗，簡化「打開App」「選中搜索框」等複雜操作，提供即時的「語音搜新聞」等功能。

如華盛頓郵報專門為Alexa設計的語音控制App產品，可實現類似搜索引擎的語音問答功能，從華盛頓郵報的內容資料庫中回答用戶關於奧運會等特定新聞內容的問詢。

（三）語音交互技術賦能新聞生產與媒體經營

內容生產方面，媒體采編系統可引入語音轉文字、文字轉語音等成熟技術，提高記者編輯的新聞生產效率。

運營和經營方面，人機語音對話數據能極大地豐富用戶畫像，人工智慧+營銷、人工智慧+用戶調研等方向前景廣闊。

（四）人工智慧進一步發展將帶來顛覆式的「聊新聞」模式

2016年2月，《大西洋月刊》旗下的Quartz客戶端推出基於機器演算法的文字聊新聞模式。百度新聞、央廣「下文」客戶端、浙江24小時聯合微軟小冰逐步跟進。人工智慧演算法正深刻變革新聞傳播的方式。

新聞應用相關的自然語言喚醒、自然語言理解、新聞類話題的對話管理、自然語言生成等技術仍在不斷完善中。智能語音交互的全鏈條真正打通後，語音技術配合機器演算法終將為用戶提供類似真人「聊新聞」的使用體驗。因此儘快將新聞應用與語音交互硬體相結合，提前積累用戶語音行為資料庫顯得尤為重要。

（五）遠景展望：同時關注其他交互方式

對媒體而言，5G商用近在眼前，物聯網發展的快車即將啟程，但技術並非自身優勢。通過積極的開放戰略提前佔位各類智能硬體入口是更加切實可行的路徑。

值得一提的是，在商業的裹挾下，技術前沿到產品轉化之間存在巨大鴻溝。人機交互的發展前景仍不明朗，目前尚無一種硬體成為主流入口。同時發展的還可能是基於AR、VR等技術的手勢、眼神甚至意識交互。因此語音交互技術及設備作為自然人與萬物互聯網路的介面，也不是唯一的前沿方向。

2018年初，Facebook關閉虛擬助理「M」、亞馬遜Alexa深夜發出怪笑、機器人利用社交網路進行深度學習學會了髒話等行業新聞值得關注，技術的不成熟使得一些品牌暫時關閉了虛擬語音助理。作為入局的媒體，更應當隨時關注人機交互和人工智慧技術的最新發展，做好靈活應對甚至切換賽道的準備。（李清宙：國家新聞出版廣電總局出版融合發展（浙報集團）重點實驗室、浙報集團新媒體運營中心研究員）來源：傳媒評論

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 傳媒評論 的精彩文章:

TAG:傳媒評論 |