當前位置:
首頁 > 最新 > 香港科技大學教授馮雁:How to Build Empathetic Machines

香港科技大學教授馮雁:How to Build Empathetic Machines

主講人:馮雁 | 香港科技大學

屈鑫 整理編輯

量子位 出品 | 公眾號 QbitAI

本文為馮雁教授8月18日於北京創新工場的分享實錄整理,分享主題為《How to Build Empathetic Machines》。

馮雁現為香港科技大學電子及計算機工程系教授,主要研究領域包括語音理解、機器翻譯、多語種處理及音樂信息檢索等。

馮雁教授1988年於英國伍斯特理工學院獲得電機工程學士學位,1993及1997年於美國哥倫比亞大學分別取得電腦科學碩士及博士學位。

2015年,因人機互動領域所作出的突出貢獻而獲頒IEEE院士榮譽,曾經擔任IEEE Transactions on Audio、Speech and Language Processing、IEEE Signal Processing Letter、ACM Transactions on Speech and Language Processing,以及Transactions on Association for Computational Linguistics等國際期刊的副主編,同時也是ACL SIGDAT的主席及董事會成員。

馮雁教授

大家下午好,非常感謝李開復博士的邀請。今天我的分享主題是:How to Build Empathetic Machines,如何讓機器人更有同理心。

為什麼會提到這個主題呢?因為現在在人工智慧方面,大家會看到很多商機,但是除了商機以外,我們還需要看見未來,比如5年後10年甚至20年後人工智慧會發展成怎樣。

所以現在有幾個大的問題,我們自己需要反省:

人工智慧是不是只是一個單純的工程的東西。人工智慧跟別的機器是不一樣的,它裡面很重要的一點是「人」,所謂「人工智慧」裡面的「人」。

如果做一個技術是來為人類服務的,那麼這個技術是不是需要有「同理心」,即它是不是需要有情商,不能只有智商。

這個機器,有沒有正確的價值觀。前兩年微軟上線了一個Chatbot,上線之後不久被下線了,就是因為講了一些不適當的話。這只是一個Chatbot,那如果是在做客戶服務的時候,這個系統就需要很明確該說什麼話不該說什麼話。

機器所服務的對象是人,而人是各種各樣的,有不同的性格和不同的情緒,那這個機器能不能幫助我們,檢測到我們心理的問題。

另外還有兩個問題稍後會說到:人工智慧能不能有幽默感和審美感。

首先我想讓大家覺得情感很重要,不是只是好玩而已。用信號處理的方法,改變聲音的情感色彩,這樣聽見的聲音的意義就會不一樣。

下面講一講什麼叫「同理心」,英文叫做「empathy」:The action of understanding, being aware of, being sensitive to, and experiencing the feelings, thoughts, and experience of another. 意思就是說我能感同身受旁邊人的想法和感覺。

那麼這個empathic communication就是有同理心地溝通,這是在人和人溝通中很重要的一部分。平常可能不會有太大的感覺,但是當你跟電腦溝通的時候,沒有「同理心」,就會產生溝通的障礙。

我們說的自然語言理解,在AI里是一個很大的領域,我們現在提出的「Natural Language Empathy 」,就是在自然語言理解里加入了情感、意向的識別,還有它的回答。

那這個跟創業有什麼關係呢?跟目前所能看到的人工智慧市場有哪些關係呢?

首先講一講virtual agent:虛擬助手,它的市場。

我們現在可以看到有很多需要虛擬助手的場景,比如機器人客服。從現在到未來的十五年,我們可以看到家庭機器人、服務機器人這些市場的重心都會移到中國、亞洲,而不是在歐美。所以機器人如果是來幫助人,為人做服務,非常需要一個軟體來理解人的需求。現在的客戶服務這些工作,可以用機器來代替,但這個機器需要明白人需要什麼。比如無人駕駛,車本身就成為了人的助手,需要人來告訴它我們的需求;另外就是智能家居,現在的發展方向就是人機交互。

為什麼機器需要情商呢?因為機器有三個很大的優勢:

機器有了情商之後,可以比人工作得更好,更精準地識別人的情緒,因為現在的數據集是能夠讓機器來學習,在某個領域比人更厲害。

機器可以快速自動適應用戶現在的情緒,能夠準確理解當前狀況下人的情緒。

使用戶的粘合性增加。增加用戶的粘合性不只是需要精確度,現在精確度已經能夠做到很高,但語音識別之後,我們需要機器來理解我們意圖,明白我們在說什麼。

那如何讓人機交互更加有同理心呢?其實在做研究的時候就發現有幾點很重要:

大部分人不會頻繁使用類似Siri這種無實體的手機助手,因為沒有具體的形象會讓人覺得跟它沒有實質性的關聯,所以一個系統需要有一個具體的形象。在對話中我們希望對方有具體形象,說話有趣,能夠理解我的表情,我的語氣,明白我的意向,而所有的這些都要求機器有實時的反應。

現在的研究是可以做到實時的,也是現在的一個方向:做有同理心的理解。

另外一點就是,在很多研究里發現:人類喜歡人形象的機器人。所以我們實驗室設計了一個具象的機器人——Zara。Zara跟siri的原理和功能都差不多,不同點在於我們是Task-Oriented Dialog System。

對話系統分兩種:Chatbot和Task-Oriented Dialog System。Chatbot比如小冰,目標是能夠循環對話。Task-Oriented Dialog是指需要完成一個任務,比如幫你做投資,幫你訂票或者訂餐廳。

Task-Oriented Dialog裡面是分前端處理、語音識別、對話服務(自然語言處理、對話管理、自然語言的生成),最後是語音合成,這是一個傳統的做法。現在提出的是在中間加一個同理心的模塊,那這個模塊就會識別人的情感、性格,甚至識別人的心理問題。

下面講一下語音和語言怎麼去做情感識別。

第一部分是怎樣在音頻和語音上直接抓取情感的訊息。

首先想說一下對音樂的分析。之所以做音樂,是因為音樂本身就是表達情感的。下圖的橫軸是valence,表示人的高興程度;豎軸arousal表示人的激動程度。音樂和人的情感是同一個plan。所以我們在做音樂分析的時候,想看能不能用機器學習的方法,直接把音樂的風格區分開。

我們幾年前的方法是直接做特徵提取,提取了1000-2000的特徵,每一首音樂都由特徵來代表。有特徵的好處就是:可視化。

比如我們能看到三個歌手,把他們所有的歌曲放到一個二維度,我們就能直觀地看見紅色的歌手和藍色的歌手曲風比較接近。右邊也是一個方法,尋找的是寶萊塢的音樂家之間的互相影響關係。這對音樂推薦來說是一個很重要的事情。

那這其中有個問題就是,特徵提取非常慢。如果要識別人的情感的話,需要實時,而特徵提取是無法實現實時的。後來就出現了deep learning。

Deep learning的好處就是機器自動提取。那我們後來就把音樂做成一個樣本以後,不做任何處理,直接放進去,看它能不能自己提取特徵。

後來發現這種方法是可行的。最重要的是,機器非常快,是以前6倍的速度,這樣就能實現實時了。這就發現在音頻的情感識別上用DNN的方法是可以做到實時的。

可以看看它的效果,這是在2016年,它的效果和傳統的SVM差不多,而SVM是需要提取1000-2000個特徵。下圖是音樂曲風的識別。

下圖是音樂情感的識別。我們是用幾千首專家標識過的音樂來訓練CNN,發現它速度和結果都很好。也就是說現在不用打標籤,直接就能識別音樂的曲風和情緒。

另外一個就是人說話的時候的情緒,那麼這個是怎麼識別的呢?

我們剛才說的用CNN來識別音樂的演算法,就直接把它應用到人的情緒識別上。然後發現CNN比原來的特徵提取更好,速度更快結果更佳。主要是識別人的主要情緒,高興、傷感、生氣、平靜這些主要情緒,後面還有十幾個second emotion,包括幽默、看不起人等等。

這些比較難,但是用CNN的好處就是數據多了,後來會越來越准。在這一點上機器是可以超過人的,因為人來做的話,每個人的同理心不一樣,標準就會不一樣。

在識別十幾個second emotion的過程會發現比原來用SVM做的要好,但有的情緒容易識別有的不容易,整個平均是60%,所以在這方面還有很多工作要做:需要更多的大數據;演算法需要優化。

然後是CNN的結構。CNN的第一層是在做信號處理,在高層後會越來越抽象。

CNN的每個level跟我們的耳朵的聽覺系統是有關係的。

我們看的更深刻一點是:就是沒有做過信號處理的音頻需要看什麼。還有個問題是:情感識別是不是用英文訓練的情感識別系統也能識別中文的情感。那麼我們就需要知道的是整個CNN,它的每一個層次到底在處理什麼。

這是一個層次,emotion和personality。從低頻到高頻,發現在第一層開始的時候是在抽取energy、pitch、frequency等信息。

往後就有不同的activation,它能分辨哪裡有聲音,哪些聲音比較激昂。

我們用一個方法叫:t-SNE,把它的每個層次的點投射出來看,把不同的語言用不同的顏色來代表。

我們可以看到第一層裡面經過信號處理後每個語言還是混雜在一起的,CNN越往上,每個語言就越能分離出來,到最後基本上就完全分開。現在的deep learning,最低的是language dependent,越往上越是有language information,這跟我們人的特點很像。

這是我們的data base。

這個結果想告訴大家:在情感識別上,第一層如果用很多種語言來訓練它,這種方式是好的,越到上層語言會分離。

後來我們做了一個實驗。機器人這樣去識別人的性格。

人和人溝通的時候會有意無意地去迎合他人的性格,這是人在溝通里合作的形式。機器的性格識別里也可以用CNN,從面部表情,語音直接去識別。比如識別是不是外向的,是不是好相處的等等。

也是可以使用多種語言放在一起這種訓練方法的。

以人來舉例就是在國內生活的時候能夠通過語言去識別性格,到了國外之後,通過一段時間的適應,因為有在國內的基礎所以很快也能通過語言去識別性格。

有基本的情感識別的能力,往上就越來越不受語言限制。

我們剛剛說的是音頻和語音方面的情感識別。後面說一下跟自然語言和文本有關的情感識別。

文本里的情感,比如說大眾點評,從他的評價描述裡面判斷出他給這家店打幾星,這叫做文本里的情感識別。

用戶在跟機器人溝通的時候,面對不該說的話機器人該如何應對。

自然語言理解里的更大的話題:需要融入emotion和sentiments。

這是從Twitter上來看人的情緒,我們基本上也是用CNN和Word embedding。

Word embedding的好處是數據可以直接拿來用,在自己的數據不夠的時候很好用。

這個是我們做的一個課題:怎樣在一篇新聞報道里提取標題。

新聞的標題是summarization里比較簡單的一個工作,但是後來發現報紙的標題和網上的標題不一樣,機器做出來的標題是實實在在的內容總結,而現在很多需要的是有點擊率的標題,而這種標題就是帶有情感的。

我們怎麼樣去讓機器自動生成有點擊率的標題呢?在原來的標題抽取結構上面再加上emotional embedding,這樣出來的標題就能比較吸引人。

這是我們第一次發現在自然語言處理領域需要用上情感識別,才能產出我們更能接受的標題。

我們要從財經新聞上看出市場的走勢,以前一些歐洲的專家們做過研究,如果按照財經新聞來研究,可以預知到12天以後的走勢。這個其實就是大數據,而我們挖掘的是情感。

人和機器人是如何打交道的,研究發現有20%-25%的人會說一些不該說的話,也就是abusive language,那麼機器人該如何應對。這也是可以用CNN去學的,我們可以用一個step:這個話是abusive還是sexist還是racist等等,或者用兩個steps:先知道這個話該不該說,再知道這個話是屬於哪一類。

我們可以在Chatbot里加一個values,有兩個工作:如何讓Chatbot記住更前面的會話內容;如何回答。訓練的時候就要把emotion加在裡面。

這是性格分析。我們在和人機溝通的時候,如果機器知道我們的性格,它就能用我們喜歡的方式來跟我們說話。那我們怎麼去過性格識別呢?性格識別也是用CNN的方法。

我們能不能用同一個系統去識別?說不同種語言的人他們的性格,直覺上好像不太一樣,但是實驗之後我們提出一個方法:bilingual word embedding,不論哪種語言,能夠識別出一樣的意思,那我們就發現可以有一個系統能夠通過不同種的語言去分析性格。

然後這個是心理相關,分辨出人的心理問題。從email、Facebook等一些文本,還有通過聊天的過程來辨別這樣的問題。結果就是:需要明白語言的意思,和這段音頻的狀態。這兩點比聽懂說什麼更加重要。

這是The Big Bang Theory,The Big Bang Theory里有一個人叫Sheldon,我們實驗室有個學生做了一個Chatbot叫Sheldonbot,因為有時候識別不了笑點,所以叫Sheldonbot。他的研究主題是:怎樣讓機器幽默感。有幽默感有兩步:第一步是在笑點上我會笑,這叫能不能識別幽默感;第二步能不能製造幽默感。

他怎麼來實現的呢?也是分兩步:第一步是識別,讓機器來明白笑點,訓練數據來源就是美劇的喜劇,因為所有的美劇中的喜劇在笑點出現都會哄堂大笑,那麼大笑前這句話就具有對話中的幽默感;

第二步,humor generation,就是讓機器能夠拋出笑點。跟我們剛剛說的Chatbot相似,但又有一點不一樣的是,它的目的是讓人笑。在裡面除了用sequence2sequence learning model,也加上了reinforcement learning,就是在訓練的過程中在有人笑的地方加強學習。在這個領域來講,這還是剛剛開始的工作。

總結來講,在機器人對話過程中需要加入一個empathy analysis,無論是客戶服務還是Chatbot。還有一點就是我們在做empathy analysis的時候也可以加上臉部表情識別,還有其他研究會加上肢體語言,這都是情感的一種表達。

還有一個就是我們的方法,我們組從兩年前做machine learning全都用DNN,第一是因為速度快;第二是因為統一用DNN更加容易,情感、表情等等能夠表達情緒的識別一起學習,形成一個系統的能夠識別所有的情緒表達,在這個方面DNN是個很好的平台。

今天我的分享就到這裡,謝謝大家。


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 量子位 的精彩文章:

Google無人車之父Thrun最新演講:AI將讓人類更富創造力
前沿:多了性染色體、毀了生育能力,怎麼辦?
談科學研究「給青年茶學生的八封信」
EMNLP最佳論文公布,「讓發明自己語言的AI說人話」上榜
研究發現人工誘導地震與天然地震「不可區分」

TAG:量子位 |

您可能感興趣

香港東隅攜手 Redress及徐逸昇呈獻「The Art of Eco Couture」
恭喜42號計劃學員斬獲貝恩香港Associate Consultant 實習Offer
香港iPhone iPad Mac pro 最新資訊
走進 Deep Lifestyles Supply Co. 香港旗艦店
James Jarvis 將於香港舉行個人畫展「The Waste Man」
Virgil Abloh x Nike Air Presto 新配色曝光,走進奈良美智香港個展 | HB Daily
CHANEL |「Mademoiselle Privé」香港站
Virgil Abloh x Nike Air Presto 新配色曝光,走進奈良美智香港個展
正生銀飾Chang sang silver——香港直購
iPhone 電池又爆炸 香港 IFC Apple Store 兩員工送院
善·瑜伽/lululemon大使香港名師Victor Chau溫州龍港2天倒立能量流工作坊
「香港登陸」-MAP Office│Archi
傳開雲集團將出售 Stella McCartney;Esprit或關閉香港最大旗艦店
香港中環投行男子圖鑑 Money Never Sleeps
香港 K Meeting Festival 2018 圖集Part1
苟芸慧以首位香港藝人身份紐約欣賞Tiffany Paper Flower 系列
松本弘二郎將在香港舉辦首個展覽「Lost in Translation」
香港版《Harper s Bazaar》時尚攝影大片
香港Apple Store發生iPhone冒煙事件 兩店員送醫
奈良美智將於香港舉辦「Ceramic Works and...」個展