當前位置:
首頁 > 科技 > 微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程

雷鋒網按:本月 18 日,由美中技術與創新協會(Association of Technology and Innovation,ATI)主辦的第一屆 「AI NEXT」 大會在西雅圖召開。本次會議的主要嘉賓包括:微軟首席 AI 科學家鄧力,微軟院士黃學東,Uber 深度學習負責人 Luming Wang 等。華人之外,還有亞馬遜 Alexa 首席科學家 Nikko Strom,微軟小娜架構師 Savas Parastatidis 等業內知名專家。


大會主題是 「探索 AI 的潛力,把 AI 技術應用於實用項目和服務」,對 CV、NLP、智能助手、深度學習框架均做了專題報告。其中,鄧力博士以」 對話系統:歷史發展與現狀 「為題,向與會者作了 ppt 演講報告。

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程


鄧力在 AI NEXT 演講現場


雷鋒網註:鄧老師原為加拿大滑鐵盧大學教授,1999 年加入微軟,2016 年起擔任微軟首席人工智慧科學家,負責微軟深度學習技術中心應用趨向的深度學習研究。


鄧力:很高興能夠來這裡,與大家分享我的一些研究——對於該領域,我個人將其稱之為」 聊天機器人技術 「(Bot Technology),有時也被叫做對話系統(Dialogue System),與人機交流(Human-Machine Communication)緊密相關。對該領域的研究,已經有相當長的歷史。借這次機會,我想要與大家分享該技術的歷史發展,以及一些時新論文研究中的前沿技術突破。

當我們談起對話系統、對話代理(Conversational Agent)、對話式交互界面(Conversational UI)或者聊天機器人,它們其實從屬於同一類技術,是實現人機交互(HCI)的一種方式。今天我主要想講講,在過去的二三十年間,這類技術是如何發展的。就好像對於神經網路專家,今天所流行的深度學習以及各種 AI 技術,其根源都要追溯到二三十年前。過去許多有價值的研究,都被現在的年輕人忽視了。我希望大家能夠回頭看看這些技術的演進歷程——今天的技術都不是孤立存在的,也不是科研人員用一兩年時間一下子研究出來的。


我先從對該技術的簡單介紹開始。

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



首先,這類技術可被分為兩類:基於文字(Text-based)和基於語音(Speech-based)。大家將會從下一位演講者 Nikko(亞馬遜 Alexa 首席科學家 Nikko Strom,本次大會上他的演講主題為 「Alexa 是怎樣煉成的」)那裡,聽到更多關於」 基於語音 「的東西,因此我會重點講」 基於文字 「和它們之間的區別。

有一種視角把口語對話系統看作是兩類系統的接替(基於語音基於文字):先是語音識別,然後,語音識別的結果變成一連串的文字,這就成了基於文字的系統。這是傳統的觀點。


但現在看來,這兩種系統可以很好的整合到一起,不再是兩條分離的流水線(Pipeline)。這樣可以對端到端(End-to-End)的性能進行優化。這方面有些不錯的學術出版物。


所以,我寫的 「對話系統 = | ≠語音識別 + 基於文字的對話系統」 的意思是:口語對話系統既可被看作是兩種系統的接替,也可不這麼看。傳統的觀點十分簡潔,可以有兩個不同的開發者社群來進行技術開發:一個是語音識別,一個是用基於文字的系統識別錯誤,因為語音識別會產生錯誤。


在這裡,我想指出三點:


設計對話系統有兩種不同方式:整合學習(Integrated learning)vs. Simply pipelined;

對於基於語音的系統,它包含額外的信息:我們稱之為 Para-linguistic cues,這在文字中是缺失的。若能充分利用 Para-linguistic cues,比如說話者的情緒、肢體語言,基於語音的系統會遠遠強大於基於文字的系統。當然,後者也有一些表達情緒的方式,比如 emoji 的使用,但和 Para-linguistic cues 相比仍然是不同的東西。這是基於語音和基於文字系統的一項主要區別。


另外,取決不同的用戶,語音輸入可能會比文字輸入更簡單——或者更複雜。對我個人而言,由於對語音技術比較了解,在噪音不高的情況下,我傾向於使用語音來於小娜對話。但對於大多數人而言,他們傾向於使用基於文字的對話,因為他們不知道語音識別在什麼情況下效果好,什麼情況下效果不好。區別於不同用戶,會有不同的人機對話行為,這是系統設計中需要考慮的、很重要的一點。


另一個重要區別是:窄領域 vs 寬領域(narrow domain vs wide domain)。目前來講,基於文字的系統一般被看作是寬領域,語音是窄領域。但這是由於目前技術所限,隨著語音識別技術成熟,情況很快就可能發生變化,尤其鑒於深度學習對語音識別的改善。今天的研究人員,已經可以著手思考怎麼讓基於語音的系統更寬更 open。


接下來,我會講講口語對話系統的三代發展。

口語對話系統的三代發展


近幾年,我們經歷了一輪又一輪公眾對於 AI 技術的興奮期。但現實是,相關技術的基礎在 1980 年代末、1990 年代初就已經開發出來了。我會對這些技術如何從第一代發展到最新一代作個概括。


第一代:基於符號規則、模板

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



首先,第一代技術從 1980 年代末開啟,在流行度上面,幾年前這一波技術就可以說是結束了,雖然你能夠發現一些商用系統和 bot 初創企業還在使用它們。這代技術依賴於專家人工制定的語法規則和本體設計(ontological design)。這些規則很容易解釋、理解,比較透明,這就是這代技術為什麼能催生出一系列的成功商業應用的原因。修補漏洞很容易,系統更新也很容易。


它的局限性:


依賴於專家。如果沒有懂得編寫這類應用的專家,開發會極其困難。


跨領域的擴展性不足


數據用來設計規則,而不是學習


早期有相當多的高校、政府機關、商業公司研發這類系統。它們可分為語音識別和語言理解系統。它們全都由符號規則組成,需要付出極大的努力來開發。


由於這些局限,第一代技術只能應用於極狹窄的領域,而這也許是一件好事。有一個非常好的、關於這類技術的論文,它的研究對象是伯克利的餐廳。雷鋒網獲知,普通餐廳反而是不行的,因為需要寫的規則太多。


第二代:數據驅動、淺層學習

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



第二代技術是數據驅動型的。


從業者不願意把這代技術稱之為淺層學習(shallow learning),但事實如此,它們是傳統的淺層學習方法。對了,用於對話規則(dialogue policy)的強化學習就是這時候研究出來的(1990 年代)。今天我們看到的強化學習高潮,在那時就打下了基礎。如今深度學習的進步進一步起到了幫助。


這種基於淺層學習的數據驅動方式,不容易理解和修補漏洞,但確實有學習能力。

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



這篇論文(「POMDP-based statistical spoken dialogue systems:a review」)對第二代技術做了整體歸納,它發表的時間是 4 年前(2013),恰恰在深度學習登場之前。這篇論文是劍橋大學的成果,他們做了很多努力來把該系統商業化。


第三代:數據驅動的深度學習

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



第三代技術用深度學習取代了淺層學習的部分。和第二代技術一樣,數據被用來學習對話系統中的所有東西。第三代的神經模型和表示遠遠比前兩代要強大,端到端的學習也變得可行。從兩年前開始,它吸引了全世界範圍內巨大的研究興趣。但它也有許多局限性:


解釋、修補漏洞、更新系統仍然不容易。


在神經網路學習和符號自然語言之間缺乏交互界面


跨領域的擴展,但相當多的研究在想辦法利用深度遷移學習和強化學習來實現


尚無明確的商業成功案例。


這三代技術有各自的強項,如何把這些優點整合起來,是一項主要的挑戰。很多研究聚焦於此。


研究前沿

微軟首席 AI 科學家鄧力:對話系統的分類與發展歷程



這裡我列出了三項前沿研究領域:


基於語音 vs 基於文字


針對對話的深度強化學習


符號 - 神經之間的整合


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

微軟因 Win10 升級被告上法庭;三星 S8 Plus 配置和真機圖曝光
關於特斯拉 Model 3 的最新進展,Elon Musk 向我們說了這些
通聯數據首席科學家蔣龍:如何用人工智慧發現投資機會?
Youtube自動字幕系統已能識別環境音,但國內還在依靠字幕組
Facebook 田淵棟詳解:深度學習如何進行遊戲推理?

TAG:雷鋒網 |

您可能感興趣

中國電子學會研究諮詢中心主任李頲:AI產業發展的趨勢、挑戰及政策建議
英國家庭政策的歷史發展及類型學分析
中國學科發展戰略?環境科學:前沿科學問題及研究熱點
中國學科發展戰略︱RNA研究的七大發展方向
大力發展科研技術,重金獎勵科學家,中國科研技術即將超美國
大科學工程與中國高新技術產業發展的關係 | 對撞機的對話4
著力發展MAX-Q技術:IT之家採訪Nvidia全球副總裁張建中
述說科技美學發展史
儒學的發展歷程
GMIC李開復:人工智慧時代科學家如何發展
奇境科技AR/VR行業發展的推動者
基因編輯技術發展現狀與趨勢:專訪復旦大學生命科學學院王永明研究員
《華麗志》對話Tiffany首席寶石學家:解讀珠寶行業發展的最新趨勢
C語言編程學習方向的發展
世界智能大會智能科技產業發展CEO座談會:數十位企業CEO共話智能科技與產業發展
美國國家科學院院士張首晟:人工智慧的三大發展支柱
論中國史學譜系的層累和延展——兼論中國史學史體系的發展模式
從藝術到科學——密碼學的發展歷程
「科技發展 健康中國」發布會在北京大學舉行