當前位置:
首頁 > 新聞 > 為什麼每次和 Siri 聊天我都一肚子火

為什麼每次和 Siri 聊天我都一肚子火

矽谷Live /實地探訪/ 熱點探秘 / 深度探討

全世界最痛苦的事,就是和一個跟你不在同一頻道的人尬聊。

相反,和自己的親朋好友另一半說話就輕鬆多了,比如你說 「今天上班好累啊」,你的家人、朋友就會說,「那今晚別做飯了,咱們出去吃?」

這種默契才是檢驗交情深淺的唯一標準!

人和人之間有默契不罕見,但你能想像人和機器之間產生默契嗎?

還真有可能!小探獨家採訪了來自矽谷的初創公司 Mosaix 的 CEO 兼創始人 Sam,以及 Mosaix 的 Chief Science Officer (以下簡稱 CSO)勞逆,讓這兩位小哥給我們講講他們是打算怎麼讓 AI 一步步成為我們的貼心小棉襖的

左為 Mosaix CEO、創始人 Sam

右為 Mosaix CSO 勞逆

人工智慧還是...人工智障?

這兩年不論亞馬遜的 Echo,還是 Google 的 Google Home,各種語音助手都很火。但我們可以想像一下,假如你的語音助手是個笨蛋,你和它交流起來該有多麼痛苦。

我們來設想這麼個場景:你吃著東西滿手都是油,或者在洗碗滿手都是泡沫,總之你騰不出手擺弄你的音響。這時你突然想聽一首歌,於是你對音響說:

- 給我放首 Justin 的歌兒。

- 是名字裡帶有 Justin 的歌曲?還是歌手是 Justin 的歌?

- 歌手是 Justin 的歌。

- 是賈老闆 Justin Timberlake,還是賈斯丁?逼寶?

- 賈斯丁?逼寶。

- 你是想聽他最新的歌曲?還是榜單位置最高的歌曲?還是播放次數最高的歌曲?還是點贊次數最高的歌曲?

你覺得有點煩,但還是說 「都行。」

- 你想從 Spotify 播放?還是 YouTube 播放?還是 iTunes 播放?

這時你臉色已經很難看了,但考慮到你的人工智慧是個人工智障,你還是強壓怒火說,「那就 YouTube 吧」。

- YouTube 您想聽播放量最高的視頻、還是評論數最高的視頻、還是好評率最高的、還是最新視頻?

讓機器真正懂你的意思,就是 Mosaix 想達成的目標之一。

這麼說吧,我們人和人交流,是從耳朵(聽到別人講話)、到大腦(明白別人的意思)、再到用手腳執行大腦發出的命令。

人和機器交流也一樣:先到機器的 「耳朵」,也就是負責聽懂我們人類到底在說些什麼的語音技術;再到負責理解這句話意思的大腦,也就是 Mosaix;再到執行命令,也就是連著 Mosaix 的各種服務。

Mosaix CSO 勞逆告訴小探,現在語音喚醒、語音識別之類的技術已經比較成熟,機器已經能夠比較準確地把我們人類說話時發出的聲音變成一句話。

現在的難點是:機器還是不太懂每句話都是什麼意思、到底該怎麼把它翻譯成一個可以直接在網上執行的命令?這部分就是 Mosaix 做的語義理解。

而機器之所以經常聽不懂我們人類說話,是因為我們有時說話會說不清楚,也就是 「語義缺失」。

「我想放鬆一下」

什麼叫「語義缺失」?小探給你舉個例子:

找下五公里內最便宜的加油站」 和 「我想放鬆一下」 這兩句話,你覺得哪句更容易被機器聽懂?

答案是第一句,因為這句話已經包含了機器語言所有的要素:

先以你的位置為圓心、畫個半徑為五公里的圓

然後把所有商家都找出來

再按商戶類型過濾出加油站

選出價格最低的一個

搞定!

換句話說,「找下五公里內所有加油站」 這句我們人類說的話,和機器所熟悉的語言很像、沒有缺失的語義,所以機器能直接把這句話翻譯成它能執行的語言。

但當機器聽到 「我想放鬆一下」 這種非常抽象的話時,機器的內心是茫然而懵逼的,因為機器也不知道你的意思到底是播某一類的歌?某一類的電影?還是導航去什麼地方。

不過,如果一位和你很熟悉的朋友聽到這句話,他/她估計就能秒懂你的意思。感情深一口悶?別逗了,誰能聽懂你只說了一半的話,誰才叫和你感情深。

這就是 Mosaix 想讓機器做的事情,Mosaix 想幫機器把缺失的語義 —— 也就是我們說話太模糊的部分 —— 填進句子里,而且還不能填錯、曲解你的意思。

有意思的是,等這個技術再發展成熟些時,它對一個人的了解可能比那個人的老公或老婆還多。比如,你的老公或老婆可能記住了你喜歡 A,但他/她不知道你為什麼喜歡 A,換個場景他/她又要重新死記硬背。但 Mosaix 做的 AI 就能理解其背後邏輯、因此能舉一反三,不僅知其然、還知其所以然。

這還不算完!Mosaix 除了能理解你說話的意思,還能在聽懂後執行你的要求。比如你說你想聽首 Justin Bieber 的歌,它還要自己決定從哪兒播放這首歌、從哪兒獲取信息。如果你有 Spotify 賬號,它就知道自己從 Spotify 上搜;如果你說你想看劇,那它也會自己去愛奇藝、搜狐視頻之類的網站給你搜劇。

Mosaix 聲控電視

讓你直接對音箱、電視發號施令

讓機器能明白你說的話到底是什麼意思,只是 Mosaix 做的 「語音搜索」 這件事情的一部分。

什麼,你說你不明白什麼叫語音搜索?你可以把它簡單理解為:

Mosaix = 聲控搜索引擎(百度或谷歌)+ 個人語音助理(亞馬遜的 Alexa 或蘋果的 Siri)

用其 Chief Scientist 勞逆的話說,Mosaix 是 「用自然對話的方式,解決 『搜索』 這個本質問題」。我們剛才說的讓機器聽懂你說的話、比你老公 / 老婆更懂你,只是個人語音助理這部分。

說完了語音助理,我們再來說說 「聲控搜索引擎」 這部分。

現在聲控搜索引擎主要有兩個問題:1 搜索得太「笨」,一字一句搜;2 設備不夠智能。

搜索得太笨| 我們可以把人粗略地分成兩種:在度娘或 Google 上搜 「紅燒肉 做法」 的人(比如你),和搜 「紅燒肉應該怎麼做比較好吃呢?」 的人(比如你媽你姥姥)。如果你想得到盡量多的結果,很明顯前一種更好。

這就是傳統搜索引擎的問題:它更傾向於一字一句地搜索。在人家輸入 「紅燒肉應該怎麼做比較好吃呢?」 的時候,它不一定能把這個問題簡化成 「紅燒肉 做法」。

你說搜索引擎笨吧,它的確有全世界幾乎所有問題的答案;你說他聰明吧,稍微換種說法問,它又回答不上來了...

除了搜索本身的不足,搜索設備也有局限性 —— 語音搜索更是如此。

設備不夠智能| 我們現在能用語音給手機下些簡單的指令,但還沒辦法用換著法子用更高級的語音完成任務。換句話說,我們可以對 Echo 說 「把燈關了」,然後 Echo 自己就關燈,不用我們動手,這是簡單聲控。

現在的電腦、電視,就停留在 「簡單聲控」 階段:你可以對著電腦或電視說 「我要看《蜘蛛俠》」,然後電視自己給你播放。但如果你說 「我今天很累,來點有意思的」,電視可能就懵掉了。

Mosaix 的解決方法是:以其 App 為入口,用它的雲端服務連接電視、汽車系統、音箱...等各種設備。然後 Mosaix 在後端處理你的請求,不論你用什麼設備發出請求,請求都會百川匯海發給 Mosaix,等 Mosaix 處理好後再把答案發回去。

比如你在洗碗時對著帶有麥克風的智能音箱說,「給我來點帶勁的」,音箱聽到這個指示,就會問在後台運行的 Mosaix:「 『給我來電帶勁的』 這句話啥意思?」 Mosaix 計算一番,弄明白意思後,就會告訴音箱放哪首歌。這樣從頭到尾,你只用聲控就能聽歌、看電影、看新聞了。

Mosaix 與上汽合作工作圖

Mosaix 在成立之初,專門只做車上的應用,現在則計劃擴張到電視、音箱等任何不需要你盯著看、可以邊洗碗邊聽的事情上。

人類調教出來的 AI,就要比我們聰明了嗎?

基於機器學習的自然語言理解有兩種主要方式:強監督學習,和弱監督學習。

所謂強監督學習,就是在訓練機器聽懂我們說話的過程中,由人類插手,親自告訴機器哪句話是什麼意思、應該怎麼理解,因為只有人類才知道 「這句話等於那句話」。或者讓機器從網上扒數據,再由人類提供反饋。

這種方式有個問題:對於智能搜索需要面對的極大量的內容來說,強監督學習效率太低、很難規模化。

另外,「由人類插手」 意味著無法避免人為影響,所以最後 AI 理解的內容做不到完全客觀、可能會有主觀色彩,而導致產生潛在的偏差。

而弱監督學習則是 「不用人教、讓機器自己自主學習」。

據勞逆介紹,現在 Siri、Alexa 等語音助理,用的都是我們上兩段提到的強監督學習,強監督學習也因此被認為是正統。與之相反,很長一段時間來弱監督學習一直被當成 「非主流」。

對這種觀點發起挑戰的,正是 Mosaix。

2017 年起,勞逆和他帶領的團隊就開始利用弱監督加強學習解決自然語言理解問題(順帶提一句,勞逆作為絕對的學術大牛,曾在谷歌擔任資深科學家多年,是自然語言領域理解和機器學習領域的專家,也是多個學術會議和期刊的編委或主席,但接受小探採訪時人卻非常低調謙虛)。

截止 2018年,他們所開發的語義引擎在自然語言問答三大公開數據集上(斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL),力壓微軟、谷歌、斯坦福、耶魯等機構,取得了弱監督條件下排名第一的好成績。

勞逆非常自豪地說,這證明了弱監督加強學習在自然語言理解領域的潛力。對於語義明確的問題弱監督學習可以達到非常接近強監督學習的效果。如果換成有 「語義缺失」的問題,強監督學習會遇到人類智能的瓶頸,而弱監督學習就可以輕易超越。

我們以 「機器下圍棋」 為例:

如果說強監督學習是人類高手手把手教機器揣摩圍棋的話,那麼弱監督學習就是機器本身以圍棋規則為準、自己去 「領悟」、自己去總結,從而學習下圍棋的。

圍棋 AI 的代表 AlphaGo,最初是在人類棋譜的調教下,以強監督學習的方式學習下圍棋,它可以 60:0 戰勝人類頂尖高手。讓人沒想到的是,後來出現的 AlphaGoZero 青出於藍 —— 依靠弱監督加強學習的 AlphaGoZero 讓機器自己去 「領悟」,並最終以 89:11 戰勝 AlphaGo。

有沒有搞錯?!和人類學下棋的 AI,最後輸給了純靠學規則、自己教自己下棋的 AI...

而 Mosaix 對加強機器學習在自然語言理解領域的應用,也和 AlphaGoZero 有異曲同工之處。

當然,這並不是說弱監督學習已經完全戰勝強監督學習了,兩者根據應用場景不同,有時難分高下,但至少隨著 Mosaix 的技術突破,提供了一種 「以弱勝強」 的可能性。

從商業角度看,Mosaix 意在把弱監督學習產品化,變成能懂你心、當你的貼心小棉襖的深度語義搜索

從 2017 年起,Mosaix 與上汽集團開始探索技術在出行領域的應用。在完成了預研項目的基礎上,上汽北美創新中心認為 「Mosaix 在語義識別方面積累的兩項獨特優勢 —— 『基於位置的自然語言理解』 和 『基於海外(小)語種的語義分析』 可以幫助上汽集團差異化地進軍海外、拓展國際市場。」 除了汽車,Mosaix 還與全球領先的智能電視、電商、以及機器人品牌都展開了合作。

Mosaix 為上汽自動駕駛場景設計開發智能助手

不過,Mosaix 的野心顯然不止於此。

有預測顯示,2020 年時全球 50% 的搜索將是語音搜索。那些語音搜索的內容,網上都能找到答案,但關鍵是怎樣給整個互聯網安上一個大腦,使它能夠聽得懂我們說的話?否則就算互聯網有答案,如果它聽不懂我們語音搜索時說的是什麼,也還是不知道怎麼回答我們 「給我放首 Justin 的歌」 之類的問題 —— 儘管 Justin 的歌就在網上。

而 Mosaix 正是想在 「讓互聯網聽懂我們說的話」 這個轉變過程中扮演關鍵角色。Mosaix 的長期目標是未來某一天,人們能以更方便的模式—— 自然語言、或自然語言+屏幕交互 ——接觸真正的、全新的、你直接說話它就能聽懂的互聯網。

這個任務當然非常艱巨,誰也無法保證成功,但就像勞逆和 Sam 在採訪結尾時說的,「夢想總是要有的,萬一成功了呢?」


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 矽谷密探 的精彩文章:

中美對抗持續升級,超級計算機霸主花落誰家?
中興認罰,美國又開始調查華為谷歌的合作協議

TAG:矽谷密探 |