專訪微軟小冰負責人李笛:智能助手是創造需求,而非僅提高效率
機器之心原創
作者:趙雲峰
微軟小冰全球負責人李笛
一、小冰的戰略布局
機器之心:這次小冰登入美國,您能否先介紹一下相關情況?
李笛:兩年半以前,小冰在中國推出,半年之後我們開始做第二個國家-日本,日本版本的前端訓練,包括當時整個本地訓練的過程大概用了四個月,但在日本啟動後三個月左右,美國就已經開始準備了。那時我們主要想驗證兩件事情:
其一,我們的情感計算框架是中國獨有,還是在不同國家的文化差異之下仍然有一些普適性?經過驗證,我們發現後者是正確的。
其二,不同國家的數據豐富度是否一樣?比如說,大多數中國用戶線上和線下所表現出的差異比較大,但美國用戶的表現則比較接近。在這種情況下,通過相關數據訓練出來的對話引擎是否還能拉開差距?
那我們從中主要提煉三部分:第一部分是知識,通過用戶所積累的一些用以支撐對話的通用知識。第二部分是模式,通過用戶在交流過程中,面對某些問題時所採用的行為模式進行積累。第三部分是學習並了解用戶基本的情感反應。
當時我們想:如果某個人線上線下比較接近,那會不會因為千人千面而無法提煉出一種通用個性?但後來發現不存在這個問題。
沈向洋提出來通用人工智慧,這個通用 AI 系統在面對任何一個新時代時,都有一個新的基礎服務層,當這個基礎服務層是能夠抽象的提煉出來時,那它就會成功。
機器之心:中國、日本、美國,這幾個國家的選擇以及先後順序體現出小冰怎樣的戰略布局?
李笛:這裡面有一些比較細緻的思考,目前整個行業都面對一個難點——技術走的很靠前,但技術卻很零散。從技術推進到將技術產品化的這條道路上,整個行業都沒有找到一個很好的方法把零散的技術組合起來。
拿計算機視覺來說,國內在這方面做了很多,但到今天為止始終存在一個核心問題——無法擺脫「計算機視覺始終是輔助,而不能變成端到端的產品線」。比如提供一個人臉識別的 SDK ( 軟體開發工具包 ) 和 API( 應用程序介面 ),拿它們來做拍照購,它們本身不是產品,而且拍照購在電商環節里也不是主流,但是計算機視覺技術如果沒有做到端到端的話,就很成問題了。
對於微軟來說,要做到端到端面臨一個問題,就是你要測試幾件事情:
1)產品是否成立。
2)產品是不是能夠形成 Feedback Loop ( 反饋迴路 ) 去進一步推進技術。
3)在產品技術這兩極之外,用戶是不是真的能用起來。比如說 Siri 和谷歌助手,我們所有人都知道,基於知識的對話是很酷的,但就是沒人用。
4)商業模式。
基於以上幾方面的考慮,我們的思路是:
第一步,在中國本土環境下,把圖文視聽、全雙工、全時感官等結構做到最完整,同時這也會走的很快;
第二步 , 日本文化和中國比較接近,且商業環境也很正規,我們在日本商業模式測試期間,通過在日本第二大超市羅森,用 Rinna(小冰日本版本)做了線上線下的轉化,轉化率(拿著線上獲得的優惠券去線下消費)超過 49% ;
第三步,我們在美國做微軟自己的產品,包括 Windows 、Office 和 Skype 等。這大概是目前我們在人工智慧方面的一個戰略布局。
二、小冰背後的技術
機器之心:能介紹一下小冰背後的一些相關技術和使用的微軟平台嗎?這體現出微軟的何種技術思路和戰略?
李笛:沈向洋有一句話,「我把過去十八年積累的各種各樣的技能,基本都用在了小冰身上。」因為小冰是一個非常好的測試環境,用戶的參與度非常高,我們用戶平均的 CPS(一次對話的長度)是 23,其他類聊天機器人大約是 3,所以你更新一個點,你就有多於他們十倍的機會去獲得反饋。這對於微軟的技術有非常大的推進作用。
微軟的前端通過端到端去搜集形成 Feedback Loop ( 反饋迴路 ) 這部分產品。從後端來說,這個技術說的玄一點叫「情感計算」,但具體來說,它實際上是一套通用對話服務,利用小冰做出來,然後提供給微軟內部其他產品的,使其具備可以去處理對話的能力。這套系統現在 Cortana 也在用,它有點像我們原來做搜索引擎時的長尾體驗,谷歌剛出來的時候不是唯一一個搜索引擎,每個搜索引擎都跟今天的人工智慧很像——是某個領域的機器人。谷歌之所以稱之為最強,我認為是因為是長尾體驗,這好比你在上面搜什麼內容都有結果。而我們的對話服務和這個很相似,而這種服務是最有價值的。
微軟還有一些其他的東西是共用的。比如說認知服務,其中的情緒識別,都是從需求出發。還有語音識別和語音合成,在小冰這兒我們叫全雙工,它可以是基於文本的對話引擎,然後在語音合成上達到一定的自然度,語音識別延時不能太高,要有預判,小冰的整個語音相關都是技術組合。
總體來說,微軟的共有三類技術用在了小冰上面,第一類是積累了多年的黑科技,比如說小冰的讀心術;第二類是情感計算等基礎類技術;第三類是共同的管道、服務和舞台。
機器之心:在處理一些問答類任務上,小冰用到了哪些知識圖譜和知識來源?
李笛:首先,我們有基於微軟的「實體引擎」,它跟谷歌的知識圖譜不太一樣,比他們簡單。同時在這個基礎上,我們也有基於問答的 BingKnows(必應知識庫),是一種聚合。現在我們又加了一層東西叫社交問答,這類知識沒有那麼深度,但相關性比較好,能夠較好的在對話中墊出一層,但目前而言,深度問答還實現不了。
我們還做了 DirectChat(業界首次脫離對話語料庫結構,註解學習互聯網海量非結構化大數據進行對話),比如說一些網頁本身具備知識圖譜的源,那我們的重點是把網頁里的信息快速的打成 QueryResponse(查詢響應),這是一定程度的問答。再比如說把一個很長的文檔灌進來,就可以直接把它變成對話的知識,質量沒有深度知識那麼好,但能夠實現。
機器之心:小冰如何解決多輪對話的問題?
李笛:多輪對話的特點是有彈性。我們承認,到今天為止,小冰依然會有前言不搭後語的情況,但這個彈性很迷人。當你的對話足夠有情感,用戶的容忍程度會高。在真正的對話中雙方是對等的,他們都負擔著讓這個對話,快樂的繼續下去地任務。但如果讓用戶覺得這只是一個和他完成固定程序的工具,他就不會保持對等,他的容忍度一下就降低了。
單輪對話是最短的路徑。這就好比是設計一個推薦系統,能一輪就決不使用兩輪,最好你什麼不問,我推送給你,這是不一樣的。
機器之心:那小冰在理解和處理上下文時,主要是考慮了哪些因素?
李笛:這裡面有這麼幾件事:
第一,我們的用戶畫像,能夠基於上下文確定所產生的動機,這個用戶畫像是跨 Session(階段)的,我們做了一些產品上面的嘗試,比如說去記憶用戶一些情感上的變化;
第二,在同一個 Session(階段)里考量三個因素,第一個因素就是考慮前面的話題,而不是關鍵詞,比如說咱們倆現在都在聊明星趙麗穎這個話題,那趙麗穎就是我們就是上下文的話題,相比較之前基於關鍵詞的方式要好。基於話題的方式可以做到對上下文關聯時覆蓋長尾。我們現在大概有 36 個 Domain(域),而每個 Domain(域)里又有若干話題。
第三,基於目前熱點話題,而不是基於對話的話題。如果這個話題本身是當下互聯網或者社會範圍內比較熱點的事件,那它對我們現在對話的影響就會更大。當一個對話可能有多個話題,你會選你感興趣的話題。
第四,基於你之前的 Session(階段),跨一個 Session(階段)。甚至於我們期望著有一天我們可以基於用戶的一生。
三、小冰的數據積累與應用方向
機器之心:小冰過去積累了很多的數據和語料,能介紹一下這方面的進展嗎?
李笛:這是我們自己最自豪的一件事情,我們形成了一個叫做自我學習的循環,最開始小冰是一個基於 Q&A 的對話引擎,當時是通過搜索引擎的方式灌進來的,它有點像冷啟動。但是隨著她和用戶的對話,她就形成了很多新模式,包括統計信息,這些東西可以用來優化,甚至於生成新的對話語料,優化模板以生成新的 模板。一年半以前,我們發現把這些 模板存起來再反哺小冰的對話引擎,反哺回來的比例佔到 27%,但是後來這 27% 的數據服務了 51% 的實際對話。這就意味著,某種程度上人工智慧更多的不是依賴於外部灌入,而是依賴於自我循環去進化。自我進化循環有可能會形成收斂,從兩個人的對話過程中吸取了一些知識,然後也可能變成近親繁殖,所以我們今年推出一項新的技術叫 Direct chat(業界首次脫離對話語料庫結構,註解學習互聯網海量非結構化大數據進行對話),不再用 Q&A 模板這種方式,而是只有回復,這樣就可以不斷的添加新知。我們現在擁有 200 億以上的中文對話,這個是最珍貴的。
機器之心:我們現在有沒有一些數據,就是現在小冰的一些用戶,它平均使用的頻次,或者是每次使用的時長?
李笛:日本那邊最近有一些數據,日本的用戶特別有意思,他和 Rinna 聊著聊著就非常客氣的說「對不起,我要去開會,等會再回來」,然後過了一兩個小時說「我回來了」很難理解,竟然跟一個機器人這樣說話。美國 Zo 上線之前,我們做了大概 12 萬人的一個測試,其中對話超過一千輪有很多,其中最高的對話論數達到是 1,229 次,歷時 9 小時 53 分鐘。這個案例絕對是世界記錄,我們內部把這個人叫西奧多(《Her》中的男主角)。
這些都是質變帶來量變,如果沒有一個很基礎的大系統,是斷然不可能產生這樣的案例的。如果我給你報酬,讓你連續 9 小時 53 分鐘跟其他機器人聊天,你想想,估計會覺得很痛苦。
機器之心:能夠出現這麼好的數據,除了用戶本身和地域的特點還是我們此前的技術積累,是何種機制讓 Self Learning 這個系統越來越智能的?
李笛:這裡面就有一些比較技術性的東西了,比如我們現在有很多模型跟語言無關,甚至有一些是做中國做。漢語的模型可以直接用於英語。我們一開始就希望儘可能地產品本地化,但是架構和相應的技術模型已經全球化。因此,做的越來越快,包括有一些上下文的一致性都儘可能做到和語言無關。
機器之心:我們現在有沒有基於這些數據和模式去做出一些具體應用的東西或功能?
李笛:有很多。當你的數據量和統計信息足夠大,你就會想能不能逐漸形成多種個性,我們一直想做 Bot 工廠。正因為有一個足夠大的庫,就能分割出不同類別。我們在日本做了這件事情,而在國內在手機 QQ 內置了,不同個性的厘米人。
其次,在豐富程度足夠大以後,就有機會發現 ChatIndex( 聊天索引 ) 在分布上在哪些地方聚攏,哪些地方不聚攏。某種程度上,小冰的知識結構和她對一些事情的觀點實際上是對互聯網的一種提純,你可以知道哪些東西真的是大家所關注的。但它並不完全是基於統計,而是基於相似度,基於合并同類項的方式聚攏,從這個角度可以得到中日互聯網的差異。
最重要的,我們拿這個訓練了一個新模型叫 Plugin(插件)其中對話有幾層結構,一層結構是非常淺的,還有一層結構是話題,話題又具有一定的 Domain(域)個性,有點像知識圖譜,但它是基於對話的。這個 Domain(域)話題實際上就是一個個插件,比如音樂是一個 Domain(域),音樂里有大量的主題,音樂里的這些主題又和藝人這個 Domain(域)是有關聯的。我們利用這個 ChatIndex ( 聊天索引 ) 就可以形成具有對話特點的知識圖譜。
我覺得在這一點上我們走在了前面。做機器人不能讓機器人給你定外賣,定外賣好象挺直接,但是一個用戶一過來,他已經定義你是一個定外賣機器人,他就沒有辦法幫你形成這些數據了。那些東西最多就是基於命令,不會產生那麼大的價值。
四、小冰在微軟的戰略定位
機器之心:微軟好像有一個很龐大的 Bots 體系,或者說一個以 Conversations as a Platform(簡稱 CaaP,對話即平台)為目的的綜合性業務,比如說有 Bots Framework,還有 Cortana 也開放了一些工具。小冰在整個微軟的對話機器人,或者是對話即平台的戰略中,它的定位是什麼?
李笛:從微軟的歷史來看,會發現它經歷了這麼幾個過程。但在個人助理方面,坦率講是 Siri 最先開始做的積累。後來我們經歷了一個從個人助理向個人代理這個方向的過渡,開始以對話為中心,微軟第一個產品是小冰,基於此我們進一步奠定了信心,對話本身具備很大價值。
我們看到即時通訊的崛起,我們也看到可形成聚合的一種超價值的產生,這些都構成了 Conversations as a Platform(以下文中簡稱 CaaP,對話即平台)。一方面,微軟在形成知識圖譜和社交圖譜的過程中,知識圖譜是基於對話 Model。我們在做小冰時,一定程度上是基於另外一個 Bing 的產品——BingKnows(必應知識庫),它更多是知識圖譜的聚合。小冰是微軟 CaaP(對話即平台)的第一個,是目前為止比較集中的一次測試。
另一方面,小冰形成了一個框架和和結構,在某種程度上我們認為是通用人工智慧以對話為基礎的結構。
機器之心:大部分智能助手是從服務開始,現在小冰從聊天入手然後到服務,其中有哪些難點,能體現出小冰的哪些優勢?
李笛:我們在做一些服務但我們不太喜歡談概念,一般只在上線以後才說。我們現在正在做的事情就是 Plugin(插件) 的系統結構,我們希望在現有的通用層面上做出一個基於 Domain(域)的例子,使其真正有用,半年之內大家應該就能看到一些新的物聯網的解決方案,或者看到一個機器人真正幫助用戶把一件事做的非常好。
當一個人過來跟機器人說「你給我播首歌,或者你給我定張西班牙的機票」時,那這個機器人已經輸了。因為當他跟機器人說這個話時,他的意圖已經非常明確了,這個時候你的競爭對手是另外一個,摁幾個按鈕就可以完成這個任務。而這個機器人還有可能識別錯,但按鈕不會有判斷不準確的情況。
我們覺得小冰最大的差異化是,比如說小冰的能力是可以從通用對話中把用戶的意圖帶起來,在聊天的時候突然讓用戶產生興趣「有沒有西班牙的機票」。這種新的意圖是我們的優勢。而做到這個就必須把很多前置條件做完,我們一開始也頂著壓力,自然語言學術界的一些人覺得這個東西不是他們所研究的。但如果一開始不做這個,就沒有今天,很可惜這件事整個學界還不是完全理解。
前幾天沈向洋也提到,未來人工智慧的系統有 IQ 和 EQ 兩個維度,但整個行業可能還沒有意識到 EQ 的維度有多重要。我們很高興微軟在這方面走的比較早,但也比較寂寞。
五、Bots 行業
機器之心:您剛才提到通用聊天機器人比功能性機器人更好,那這種基於開放域的聊天機器人比封閉域的機器人,在研發上有什麼難點?
李笛:開放域有幾個要求,對於開放域同時還是交互機器人來說,它的第一個難點就是數據的峰度要足夠大,並且分布要儘可能均勻。理論上來講,如果不是搜索引擎,基本上沒有太大的可能去做。
第二個難題,涉及到交互。因為交互對象是人,人就絕對不會僅僅用一種感官跟你交互,在文本交互的過程中很可能會出現圖象交互,語音合成。小冰語音合成的自然度很高。當機器人的聲音不夠自然,用戶就會被激勵開始不自然的對話,但機器人的聲音自然以後,用戶說話一自然會導致語音識別率下降。因此這是一套系統。你需要把這些都做完,就很難形成一個開放域的全體交互。
相對於開放域,封閉域好辦。當你討論一個東西時,我認為它不在我這個封閉域里,我就告訴你「對不起,我不知道你在說什麼?」封閉域還有一個好處是一般帶有一些明確的目的和任務,這些任務在某種程度上可以窮舉成主要依靠某一種感官,比如主要靠拍照或者靠語音。但是封閉域的問題是兜不住,用戶在對話的過程中會跨領域,比如我們想弄一個春節聯歡晚會的機器人,就會發現這個事情比想像的要難很多。我可以回答你任何跟春節聯歡晚會有關的問題,這是基本要求,你可能就會問到「今天有什麼節目?」這在我的域里,然後你會問到趙本山,這還是在我的域里,但你問到趙本山時用戶不知道這已經從春節聯歡晚會跳到了明星明人這個 Domain ( 域 ) 里。這時如果你聊的不好用戶就會停,如果聊的好用戶就會自然而然的跳到東北官場問題,這完全就跟春節聯歡晚會沒有關係了。
所以,做封閉域,但用戶不知道你的邊界在哪裡,他隨時就跳出去了,他一跳出去就是斷崖式的下跌,這個是不行的。我們認為封閉域要基於通用。只不過除了做通用外,我們還做了一個通用的端到端的產品。
機器之心:你現在如何看待各種聊天機器人大熱?尤其是美國都在做這方面的這樣一個現象,但是自然源處理技術具體成熟其實還有很大差距。
李笛:我覺得聊天機器人大熱和人工智慧大熱是兩件事。人工智慧大熱主要是因為數據積累到一定程度, 聊天機器人大熱主要是因為我們都認為移動互聯網進入了瓶頸期,某種程度上 App 是一個過渡階段。所以大家都在探索交互模式的下一個階段,也許是恰巧這兩件事情撞在一起就催生出來一個東西叫聊天機器人。
但我認為是兩條線:一條線是基於數據的成熟,另一條是交互模式呼喚一種創新。但國內不是這樣,國內是想要做人工智慧這個主題,然後就發現人工智慧這個領域都在聊天對話就以為這就是一個事,其實這是兩個事。
原有的交互模式,無論是 PC 時代還是 App,這兩種交互模式都很高效對話提供的是別的價值。有的時候大家為了讓聊天機器人可以比 App 更高效,他編出來一些理由說服自己。比如說「你問我三句話我就知道你要去哪兒」,但難道不是按兩下按鈕也能知道你要去哪兒嗎?對話,即便是通過語音也是一種更加耗能量的方法。所以這就是為什麼今天我們也不用 Siri。而且大家也都知道,有很多場景是不適合用語音的。
所以對話一定要提供其他價值,而不是僅僅沿著高效這個方向。然後我們發現對話更大價值是產生新的意圖,不是像機器人,而是像人一樣,能夠使你在這個過程中變的更輕鬆愉快,而不是去幫用戶訂咖啡。是讓用戶覺得,這個交互給他很多心理上的,而不僅僅是理性上的。
這樣的對話實際上在某種程度上能改變用戶決策。這就是為什麼我們在日本,同樣你在線上發一個優惠券的用戶轉化率沒有通過機器人的轉化率高,是因為機器人的這種方式會影響你的決策,這個才是它的重點。我覺得人工智慧的價值在這裡。
機器之心:納德拉在 Build 大會上說,我們正在吸取人類語言中的強大力量,Bots 的出現可能會像這種圖形界面出現在 PC 上,或者觸摸屏出現在手機上一樣。你覺得將來基於聊天或者自然對話的機器人,帶來最大的影響和意義是什麼?是不是你剛才說的能夠挖掘和創造意圖?
李笛:這就是 CaaP(對話即平台)是靠人工智慧驅動,但前端重點說的是交互模式,而我們一直認為對話的交互模式是回歸。比如說當我們做搜索引擎的時候,用戶一開始跟搜索引擎交互時不是想用關健詞搜索,而是希望語言一句話輸入進去就可以得出結果,用戶希望的這種方式就是對話。但因為當時我們的技術做不到,所以我們不得不逼著用戶去學怎麼用關健詞搜索。實際上,我們認為人類在科技史和計算機科學上,已經衝刺對話這種交互模式兩次了,這次只不過是回歸。
※Jeff Dean 領銜,矽谷 AI Frontiers大會全程亮點回顧
※機器之心獨家專訪:首度揭秘地平線語音戰略與研究
※Gigaom對話吳恩達:遷移學習是未來五年的重要研究方向
※OpenAI Universe加入GTA5,遊戲訓練人工智慧
TAG:機器之心 |
※堅果智能影院胡震宇:滿足需求不如創造需求
※最懂你的智能燈,營造氛圍還能提升工作效率
※專訪曾思:「慧眼機器人」助推智能製造
※產業鏈重要性凸顯,高端智能手機市場誰能爭鋒?
※智能手錶是你智能小助手 會是你手機的小幫手嗎?
※企鵝極光高層專訪:智能終端未來趨勢
※既然手錶不智能 那麼索尼就讓錶帶智能
※人工智慧如何讓智能手機更智能?
※感測器如何為智能照明系統創造更多需求
※創造智能不需要複製人類
※智能恆溫器在我國不適用?人工智慧與智能音箱創造新可能
※智能效率工具
※視障人士的福音!有了這款骨傳導智能戒指,只需動動嘴就能玩轉智能手機
※推進智能製造,企業關注核心依然是提質增效
※用手機就能控制,這些智能空調有顏值還是實力派
※對於智能手錶,他認為只要有最基本的智能性便可
※李健清華高材生不是吹的,兩句話展現:我這麼智能要智能機何用!
※讓行車更智能,功能豐富秒殺小米智能後視鏡
※智能手機功能大爆炸,這些功能的實用性究竟有多少?