當前位置:
首頁 > 知識 > 微軟研究團隊推出新的深度學習模型 可從對話文本檢測情緒

微軟研究團隊推出新的深度學習模型 可從對話文本檢測情緒

在我們人類的交談中,語句中包涵深層的、潛在的情緒很常見。解讀這種潛在的情緒是使人機交互更人性化的關鍵。不過,在文本中發掘這種潛在的情緒,即便對人類而言也是非常困難的,更不用說那些機器了。

微軟的研究人員正致力於創造一個「更像人類」的AI——Ruuh,其中,檢測用戶情緒是很關鍵的一個部分。本文作者Puneet Agrawal 與微軟的研究人員Umang Gupta和Radhakrishnan Srikanth合作,以共同應對這一挑戰。另外,來自印度理工學院的實習生Ankush Chatterjee也加入了這個機器學習研究任務。

微軟研究團隊推出新的深度學習模型 可從對話文本檢測情緒

下面給大家介紹一下,他們是如何以一種新穎的方式來檢測文本對話中的情感的:

創造「情感人工智慧」的挑戰

準確地發現情緒永遠是一個巨大的挑戰,對人類也是如此。在談話中,參與者往往會誤解對方試圖傳遞的情感,因為情感表達往往很微妙。輕微的眉毛抬高或快速的傻笑很容易被忽略。同樣,音調的突然變化往往很難察覺。

儘管這些小動作很微妙,很容易被忽略,但它們仍攜帶著大量的信息,可以為談話增添背景。例如,發現憤怒或悲傷的情緒可以幫助人類對每一次互動做出適當的反應。為機器提供這種技能有助於在未來創造更有用、更有同情心的「數字代理人」。一種能夠檢測情緒的機器可以產生真正幫助用戶尋求幫助或信息的反應。

機器已經可以在聲音記錄和面部畫像中檢測情感了。然而,如今的人類越來越多地使用消息傳遞APP進行通信。他們通過這些APP的交互是基於文本的。像Whatsapp和Twitter這樣流行的社交應用,可以通過簡訊息傳遞信息。如果沒有足夠的上下文和額外的信息,機器就很難在這種對話中檢測到情緒。例如,在閱讀「為什麼你不發簡訊給我!」你可以把它解釋為悲傷,也可以理解為憤怒。對於機器來說,也存在著同樣的歧義。缺乏面部表情和聲音的調節使檢測情緒成為一個具有挑戰性的問題。

此外,隨著數字代理人在我們的社會中越來越受歡迎,這些代理人必須有情緒感知並做出相應的反應。為了解決這個問題,以上研究人員部署了一個深度學習演算法。

人工智慧的「訓練輪」

在解決像這樣的機器學習問題時,高質量高容量的數據與適當的標籤相結合是很重要的。該團隊決定以2012年至2015年期間發出的推文形式收集數據。在這一過程中收集的數億條推文中,有300條是由人類法官單獨標記的。

微軟研究團隊推出新的深度學習模型 可從對話文本檢測情緒

在3個回合的對話中,我們把每一個都歸入四類:快樂、悲傷、憤怒或其他。人類法官使用了文本線索、笑臉符號、表情符號和標點符號作為線索來探測整個場景中的情緒。例如,一個單詞後的感嘆號經常能表達憤怒(「為什麼!」)。同樣,微笑或表情符號也能傳達幸福,如「:)」。通常,口頭暗示也可以表示一種情緒。例如,如果一個人對一篇文章的回應是「there,there」,它可以傳達一個需要安慰某人的需要,這可能表明在之前的文章中有悲傷或絕望。

一旦人類法官刪除了這個相對較小的數據集,一個最近的基於鄰居的聚類演算法被用來自動將更大的集合分類成相應的類別。該團隊最終在其他類別中獲得了456K的語句,28K表示快樂,34K表示悲傷,36K表示憤怒。

該團隊將大量的數據和適當的標籤作為機器學習解決方案的兩個「訓練輪」。將解決方案稱為「情緒和語義長短期記憶模型(SS-LSTM)」。

微軟研究團隊推出新的深度學習模型 可從對話文本檢測情緒

顧名思義,這種深度學習模式結合了語義和情感指標,根據它們傳達的情感來對文本對話進行分類。為了訓練這個模型,該團隊使用了微軟的認知工具包,將數據分為「訓練」和「驗證」,基於9:1的比率(訓練9組,驗證1組)。他們發現訓練模型的最優批處理大小是4000。有了這個批處理大小,0.005的學習速度給了他們最好的結果。

最後,團隊決定對模型進行測試,並將其預測能力與其他技術進行比較。他們選擇了2016年的2226個從推特上選出來三回合對話測試這個模型。

結果

對於這四種情感類別的每一種,SS-LSTM模型在文本對話中檢測情感的結果比其他所有已知的技術都要好得多。該模型比單獨的LSTM-SSWE (情緒特定詞嵌入)和LSTM-GloVe的表現要好。SS-LSTM也比卷積神經網路(CNN)的方法好得多。此外,其深度學習方法比傳統的機器學習技術(如樸素貝葉斯、支持向量機和基於梯度的決策樹)更好。

關鍵的區別在於,該模型能夠通過結合語義和情緒指標來檢測情緒。換句話說,模型只是「理解」了比其他模型更深層次的對話。

最終的想法

網上的對話大多以簡訊的形式出現。如果沒有聲音調節或面部表情的輔助,在談話中發現情緒是很困難的。儘管面臨挑戰,但創造一個能夠檢測情緒的數字代理人是非常有用的。未來的數字代理人可能會有更強的能力,如果它們能理解用戶的感受並做出適當的回應。他們可以提供情感支持、語境信息,甚至可以產生符合對話氣氛的反應。

通過創建一個在短時間、基於文本的對話中結合語義和情感指標的模型,該團隊在檢測情緒方面做出了巨大的飛躍。這項工作還沒有完成,該團隊表示會不斷地削減它面臨的挑戰。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 IT168企業級 的精彩文章:

IBM和谷歌兩大巨頭聯手!這個開源容器安全工具厲害了!
SACC2017:國產Android定製系統的突破在哪?看魅族段啟智如何解讀
IBM整合了兩大主力平台,這是要「燃爆」企業採用人工智慧?

TAG:IT168企業級 |