當前位置:
首頁 > 科技 > 9種人臉情緒識別、22類人臉屬性、15類皮膚質量識別,竹間智能讓機器人更理解人

9種人臉情緒識別、22類人臉屬性、15類皮膚質量識別,竹間智能讓機器人更理解人

邱陸陸 機器之能

簡仁賢表示,機器人同樣代表了商業的品牌,一言一行都需要十分慎重,而不以語義理解為基礎的回答是不可控的。因此,竹間智能花了大量的時間和企業進行磨合,結合企業的數據和他們搜集的數據,定製模型,並在用戶使用的過程中繼續打磨模型,以此使技術儘快落地,給用戶提供良好的體驗,使人工智慧更好地融入人群。

撰文 | 邱陸陸

編輯 | 藤子

「我們希望做情感機器人,希望透過機器更智能地理解一個人。」隨著計算能力的提升、神經網路的步步深入,配以圖像識別、語音識別的人工智慧已經逐漸變得能夠「聽見」、「看見」。然而在竹間智能創始人簡仁賢看來,這還遠遠不夠。「不僅看得到,還可以看得懂,不僅聽得到,還可以聽得懂。」簡仁賢認為,以此為基礎進行交互,才是機器人最終的目標。

2015 年 8 月,簡仁賢創辦竹間智能,想要將電影《Her》(《她》)中所描繪的,那個具有豐富情感,能讀懂、看懂、聽懂、有記憶的人工智慧帶入現實世界。而那時,機場的機器人會安慰匆忙趕飛機的乘客「不要急,還來得及」,商場的機器人能識別顧客屬於油性皮膚、由於過度操勞而黑眼圈加深,並有針對性地進行導購,電商平台的機器人,在買家吐槽「快遞箱破了」時,能通過簡短的數輪對話判斷買家是想要退貨還是單純發泄情緒,並提供對應方案。

竹間智能創始人簡仁賢

對有產品經驗、習慣做戰略規劃的創業者來說,他們創業的動力可能不是手頭的某項技術,而是對市場需求的判斷:這判斷可能是在一些現象里初現端倪的「消費者需要什麼」,也可能是無跡可尋的「我認為消費者應該需要什麼」。然後,哪怕這個目標看起來遠在千里之外,他也可以據此逐步倒推出每一個階段的技術需求,比對當前的資源與局限,一往無前地推進。

從計算機視覺到自然語言理解,全面而深入的技術儲備

為了實現「能與人交互的情感機器人」,竹間智能幾乎在人工智慧涉及的每個領域都進行了有廣度、有深度的技術儲備。

例如基於人臉圖像的計算機視覺技術,竹間智能就儲備了包括基礎的人臉偵測、人臉識別、人臉關鍵點檢測技術,以及多項更貼近應用場景的技術,例如自動駕駛場景下的疲勞偵測技術、用於營銷受眾分析的注意力分析技術、與 AR 密切相關的視線追蹤技術等。

簡仁賢以多模態情緒識別為例,對技術儲備的精細程度做了一個具體的描述。傳統的人臉表情情緒識別通常包括開心、生氣、哀傷、驚訝,這些是表現型相對明顯、檢測難度比較小的情緒種類。然而「最容易檢測到」並不等同於「最有用」,有一些與「微表情」高度相關聯的、無意識、小幅度、檢測難度較高的情緒種類,其實對於理解人的意圖至關重要。例如,在一個問答過程進行期間,人類在機器做出解釋後什麼都沒有說,或者只是給出一些語氣詞「嗯……」,幾乎沒有給出任何有信息量的反饋,這時,機器就需要藉助語言之外的表情信息判斷接下來的動作,而沉默對應的感情通常並不激烈:例如,用戶的沉默有可能代表困惑、正在思索,那麼機器此時就理應進一步給出解釋。類似這樣的場景還有很多,因此竹間在傳統的四種表情情緒識別類型之外,又添加了害怕、反感、輕視、困惑和中性五種情感的識別。更多的維度意味著更廣泛的應用場景。除此之外,竹間智能也提高了模型在各個維度上的識別能力,準確度和召回率都很好。

竹間智能以香港中文大學發布的 Expression in- the-Wild (ExpW) Dataset 作為測試集,將自己的情緒識別 API Emoti-Face 與谷歌雲提供的也有情緒識別功能的 Google cloud vision API 進行了對比,並在共有的開心、生氣、哀傷和驚訝四個維度上,取得了優異於谷歌的準確率和識別能力。

在 9 種情緒識別之外,竹間本著「做透人臉」的原則,還開發了 22 類人臉基本屬性識別和 15 類皮膚質量識別演算法。而這,也只是竹間智能的計算機視覺方面技術儲備的冰山一角。如同簡仁賢所說,相比於公開發表論文,公司更願意選擇為技術申請專利。

而為了讓演算法達到「商用」的標準,對於模型的訓練數據有極為嚴格的要求。用現有的公開數據集,可以達到 40-50% 的準確率水準,但是這距離模型能夠投入商用還有非常大的距離。因此公司自行收集了用於訓練和測試的數據。花了大量的時間、精力,甚至返工多次,來做各種圖像標註。「採集數據的工作我們就做了一年半多。」簡仁賢表示。

採集數據是從研發標註工具開始的。情感標註的難點在於,它是一個包含主觀判斷的過程。同樣一個人、一個表情,可能會帶給基準不同的眾多標註員以不同的感想,每張圖片如果只標註一次,則容易存在錯標或者過於主觀的情況,從而影響模型的效果。因此,一個商業可用的情緒情感模型,必須多次標註、交叉檢驗。而且,不僅標註的類型準確很重要,標註的打分標準統一也很重要。例如當模型發生變化的時候,打分的邏輯也會隨之變化。因此,竹間設計了專用的標註工具,主要優化了多個標註員的協作和評估與交叉檢驗過程,並設計了一個自動化的質量監控流程,能夠很容易地按批次檢驗數據質量,剔除不合格數據返回重做。同時,工程師們還提煉出了一套針對標註人員的訓練流程,力圖從各個角度確保得到的數據是準確的、高質量的。最終,竹間標註了超過一百多萬張圖像數據用於各類與人臉相關的問題。其中,小部分是從公開數據集中精選而來,大部分從視頻等情緒變化非常明顯的素材中自主採集。

有了數據,就可以有針對性地開發演算法了。在圖像方面,市面上比較著名的模型有多倫多大學 Hinton 組的 Alex Krizhevsky 所開發的,贏得了 ILSVRC2012 的 8 層神經網路 AlexNet,谷歌研究院贏得了 ILSVRC2014 的 22 層深度神經網路 GoogLeNet。而竹間開發了自己的模型 CastNet,整合了 ResNet 模型、Inception 模型的思路,同時包含並行(parallel)結構,和堆疊(stack)結構。

在準確率相近的情況下,能在各種平台上超越 GoogLeNet 的速度,差距最大的平台甚至能快接近十倍。由於竹間智能考慮到帶寬、雲端 GPU 佔用等限制,會把一部分模型部署在機器人等終端設備上,因此運算的高效性是至關重要的考慮因素。

模型在 CVPR 2017 的 Affect-in-the-wild 挑戰中拿到了最佳效果獎。

而效果卓越的計算機視覺還並不是竹間智能投入最多的部分。「公司在語義理解、語言交互等自然語言處理方面的投入佔到了 75%」。除了技術本身,還有技術在金融、電商特定應用場景下的深耕。「我們雖然是以情緒識別起家,但語義理解水平已經達到了中文領域的國內最好。」簡仁賢對此十分自信。

簡仁賢介紹,他們從做情感情緒入手,深入到意圖理解,再將意圖與情緒情感應用到語義上面。語義的理解課題,就像情緒情感課題一樣,純粹的傳統的 NLP 方法,或者純新式的現代深度學習,都無法解決數十年中解決不了的問題。因此,竹間智能把做情緒同樣的方式應用到語義理解中,以傳統的 NLP 技術打底,加上語言學結構,再加上新的機器學習、深度學習的方法,融合地去把整個語義理解抽象化然後做降維,對於語義理解,真正做到語義層面的抽象和理解,而不是字詞層面的分析。據介紹,竹間智能的語義理解演算法包含四十餘個模塊,已經迭代到了第四代,嘗試了對抗生成網路等眾多新方法。

竹間智能研發團隊超過 100 人,在過去兩年,努力通過技術積累獲得競爭力優勢。「我們希望,在三到五年後,當服務機器人變得普遍,我們能夠為所有機器人提供一個大腦,而且是一個有情感的大腦。」簡仁賢如是說。

從能用、有用到好用的技術落地之路

如果把能交互的、有感情的機器人作為最終目標,除了不斷推進技術之外,另一個目標就是讓技術融入人類的生活與工作場景,做到「能用」、「有用」、「好用」。

技術目標可以劃分為三個階段。

例如,對於自然語言處理來說,第一階段就是習得詞性、語法結構分析能力,了解用戶在使用語言時的一些固定搭配,能夠通過制定規則來進行關鍵詞檢索,實現語料匹配;第二階段是實現語義理解,能夠在特定的場景中從對話的上下文中獲得信息,並進行多輪對話;第三階段則是在語義理解的基礎上,理解交互中包含的感情,甚至能夠通過推理獲得語言中的言外之意。

「竹間正在從第二階段走向第三階段。」簡仁賢說。

應用方面的目標也可以劃分為三個階段。第一階段是「通知集成」階段,這一階段只涉及少量的自然語言理解技術,並且功能服務較為單一,服務的實現形式主要是命令式的控制;第二階段是「對話交互」階段,這一階段對自然語言理解技術的要求較高,能夠較好地實現單項的功能服務,但是專門性比較強,業務及場景的集成能力較弱,因此想要部署不同的服務,就需要為每項服務引入不同的機器人;第三階段則是「多任務處理」階段;這會是一個自然語言交互已經深深融入人類的生活工作場景的階段,這時的機器人已經有比較強的業務集成能力,一個機器人就能涵蓋大部分的服務和需求,並且能夠為企業的核心業務提供洞見。

而現在,竹間正在和金融、電商等多個領域的合作夥伴緊密協作,希望找到實現 AI 與企業核心業務深入融合、達到更好的業務集成效果的路徑。簡仁賢認為,訂機票、叫外賣、打車,是狹義的生活需求。竹間的目標是希望幫助 B 端來解決與 C 端交互的問題,而不是需要 C 端來向 B 端尋求服務。現在已經有標杆型的金融機構和電商機構與他們合作解決和 C 端的溝通與交互問題。

「我們第一希望做到情緒情感識別,即使不知道字面的意思,也可以根據用戶情緒做出合理應對;第二希望實現意圖識別。把 60% 的來閑聊的客戶和 40% 的有業務要辦的客戶區分開,讓機器人滿足他們不同的需求。」簡仁賢說。

如果說「人機交互」是融合了「語音、自然語言、計算機視覺」三項技術的綜合體,那這個綜合體是一個 1 + 1 + 1 > 3 的目標。團隊需要讓現在「各自為政」的三項技術融合在一起,提供完整的用戶體驗與行業解決方案,乃至在對技術進行融合發展的過程中,創造出更多全新的人機交互體驗。同時利用多種信息真正實現收集周圍環境信息、進行自主判斷並主動提供服務的功能。

因此,正如簡仁賢所說,竹間智能的落地非常謹慎。「我們不希望技術落地之後沒有辦法達到商業用途。所以我們和眾多合作夥伴一起推行計劃,確定在特定場景能夠達到很好的效果。」這意味著 90% 以上的意圖判斷正確率、靈活的可定製化特性以及極高的可控性。簡仁賢表示,機器人同樣代表了商業的品牌,一言一行都需要十分慎重,而不以語義理解為基礎的回答是不可控的。因此,他們花了大量的時間和企業進行磨合,結合企業的數據和他們搜集的數據,定製模型,並在用戶使用的過程中繼續打磨模型,以此使技術儘快落地,給用戶提供良好的體驗,使人工智慧更好地融入人群。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之能 的精彩文章:

CMU人工智慧改變「鋼鐵城」 匹茲堡的背後:8名博士生就有6名華裔
推出兩款32線激光雷達的速騰聚創,重點仍是打磨16線和固態研發—調研
平安科技的人工智慧實踐:人臉識別用於17個子公司,擁有18項新技術—專訪
AI 3D攝像頭,我們從 iPhone 10 看到新一輪智能手機變革的方向
通用與Cruise推可量產自動駕駛車;以色列創企AdaSky 研發新款熱感攝像頭

TAG:機器之能 |