Live回顧| 展望通用智能大融合下的終極矩陣
【大咖Live】聲智專場,聲智科技合伙人、副總裁李智勇先生帶來了關於「假如人類要打造終極的矩陣,那麼一共需要幾步」的主題分享,引領我們思考未來AIoT到底會帶來什麼,分享智能語音交互在終極矩陣中所扮演的角色。目前,本期分享音頻及全文實錄已上線,「AI投研邦」會員可進「AI投研邦」頁面免費查看。
本文對本次分享進行要點總結及PPT整理,以幫助大家提前清晰地了解本場分享重點。
打造終極矩陣三步曲
AIoT到底會帶來什麼
計算方式的個性化脈絡
以下為聲智科技合伙人、副總裁李智勇的實錄摘取,【AI投研邦】在不改變原意的基礎上做了整理和精編。
打造終極矩陣三步曲
各位同學晚上好,今天帶大家一起把眼光抬高几寸,稍微看看未來。所以我們的題目叫假如人類打造終極的矩陣,那麼一共需要幾步?最近幾年經常提到的一個詞是人工智慧,但很多人可能沒有注意到,人工智慧其實有兩種完全不一樣的具體表現形式,一種可以用電影黑客帝國來表示。黑客帝國裡邊有一個真正的終極的矩陣,電影名字就叫矩陣,矩陣裡面有很多外邊跑的章魚,那些章魚本身並不是一個獨立的個體,所有的這些章魚都要連接到矩陣,在矩陣的指揮下行動,這是一種表現形式。
還有一種表現形式是什麼呢?就是大白。超能陸戰隊里的大白本身不需要連接到什麼其他的網路裡邊,自己也能夠進行獨立的行動,並且有自己的觀念,把大白和黑客帝國里的章魚放在一起,你就會發現這是兩個完全不一樣的人工智慧。但是我們現在的世界正在往哪個方向發展,很多人當然很喜歡大白了,但現實很殘酷,其實我們正在往矩陣的方向發展。我們每個人都使用微信,微信是怎麼樣的一個形態呢?比如說有10億用戶都連到微信的伺服器,然後在微信的終端上做各種操作,所有這些東西都要經過最終微信的伺服器才能產生最終的作用。
電商網站,其他社交網站本質上都是這樣的一個類別。如果跳出來看一看,這和很多的章魚連在矩陣上面,其實本質上並沒有什麼差別,只是程度的不一樣。假如說我們真的最終會有一個像黑客帝國裡面所描述的矩陣那樣的一個無所不知、無所不能的超級智能一共需要幾步?這就是我們今天的話題。第一步需要什麼?其實是需要一種持續的反饋,從技術到商業到體驗,並且能獲得商業成功的這樣一種反饋。為什麼需要這樣?因為像矩陣這樣東西來到世界上,一定需要很多人很長時間持續的努力,如果沒有一種商業上的正向反饋,這種投入就會在某個點上停止掉。
我們很慶幸當前第一次的正向循環已經啟動了。是指什麼?我們當前所謂的互聯網本身做的就是這個事情,最開始從pc互聯網到移動互聯網,其實每一步都可以看成我們數據化的程度進一步加深的一個過程。在之前的PC互聯網的時候,我們數據化的東西其實是一些日常的消費信息搜索的信息,接著到移動互聯網的時候,整個我們每個人包括你的位置,你每次消費所有這些東西都被數據化掉了。而在這個數據化過程中做得最好的公司,通常也就是現在世界上最成功的公司。
在我們這個時間點,世界上市值最大的公司已經不再是像沃爾瑪通用汽車這些公司,而全部都是和這些數據連接相關的公司,包括我們常說的谷歌亞馬遜等等。這正好就是一個從技術到產品到商業的一個一次反饋。接下來整個數據化的程度本身,以及對這數據化相應的控制的程度,最終就會決定一個公司它的成敗。整個過程花了從2000年開始算,到現在是差不多20年,相當於第一步的事情已經做完了。現在我們這個時間點正在發生什麼,我們正在把整個世界的數據化程度進一步向下推進。
這就是上面所說的叫徹底的數據化,不徹底的智能。這是什麼意思呢?我們還是可以把這件事情放回到時間軸上。在pc互聯網的時候,我們的位置信息,包括我們很多的支付信息本身並沒有真的都體現在互聯網上,但在移動互聯網的時候,我們的位置,我們的出行記錄,這些完全的數據化了,還有哪些東西沒有數據化?
接下來我們再看一下所謂人工智慧的時候典型的一些產品,就能深刻的理解,究竟現在還有什麼東西還沒有數據化,人工智慧里有一個比較典型的產品,就是我們經常提的AR眼鏡。AR眼鏡會根據現場掃描的各種信息實時建模,接下來把真實場景下以及一些虛擬的東西相結合。所謂真實場景就包含我們房間的大小,包括我們每走一步所看到的位置,這些東西在原來移動互聯網的時候本身是沒有數據化的。通過各種新型的感測器感知周圍的環境,包含我們人所身處的位置,我們周圍的噪音,這些要進一步對它進行感知,接下來產生新的行為,這是當前所說的人工智慧很根本的一個特徵。智能音箱,AR眼鏡,自動駕駛等等都符合這個基本模式,這會導致一個非常明顯的後果,我們每時每刻所處的環境,我們身處的位置,我們看到了什麼?所有這些都會被進一步的數據化。這個時候核心的問題是什麼呢?其實正好就是當前人工智慧的瓶頸。隨著感測器精度的提高,我們周圍所能感知的信息進一步提高,但是我們本身處理這些數據的演算法,或者是我們經常說的人工智慧的這部分,整個它的水平是不夠的。
總結來說這叫什麼?這就叫徹底的數據化,不徹底的智能。這體現在什麼上面?可以舉個例子。最典型的就是我們每個人都用的智能音箱,我們每個人都會覺得他不太智能。這種智能有待於比如新的自然語言處理的演算法進一步提高,但是不管感測器的精度獲得多大的提高,但後端的演算法沒有進一步的提高的話,我們是不能夠完整地利用所有的數據的,因為利用這些數據的過程本身需要人的介入,人的這種介入反過來就會導致兩個不太好的後果,第一個後果相當於是對數據的使用是不充分的。第二個後果顯然實時性就不會很好。
到這個時間點我們可以往下再想一想,想像什麼呢?包括我們自己的所有行為,我們周圍的環境,所有這些都已經數據化了。我們任何想看到的事情,我們都可以在整個數字空間里看到,假設說已經達成了這樣的一個臨界點。這個時候如果出現我們經常說的通用智能會發生什麼?相當於徹底的數據化加通用智能。這個時候就經常出現很多書里講的說,通用智能很可能在極短的時間內就把所有的我們累積下來的知識消化掉,它也可以實時的感知整個世界任何一個角落裡的信息。
這樣的話大家會不會感覺和黑客帝國里描述的矩陣就很像了?這裡面很有意思的事情是,也許有的人不喜歡這樣的一種結果。但事實上當第一個從技術到產品到商業成功這個閉環形成之後,整個發展就踏上了它應該有的這條脈絡。現在你很難讓一個公司說你不要加深數據化,不要發展人工智慧,因為這會影響他們的商業成功。也就是說不管喜歡不喜歡,前面所講的三步,本身都是註定會發生的事實。
我再做個簡單的總結。第一步相當於是說需要從技術到商業的成功。這種成功本質上會吸引無數的資金和人才投入到把這個閉環進一步強化的過程里來。有了第一步,第二步就是一種必然。所以說現在成功的互聯網公司都極度關注人工智慧,也會逐漸打造新的這種終端設備,包括微軟打造的Hololens,亞馬遜打造的Alexa,谷歌積極推動的自動駕駛,這第二步就會導致世界的徹底數據化,而最終他的控制點其實是在數據空間之中,這個過程不可停止,停止的人就會在競爭中拋棄。
所有這些都為最終終極矩陣的出現準備了充分的條件,只需要演算法的一個火花。演算法上的火花就是指相對通用智能的出現。我們其實不能真的在時間軸上很精確的描述什麼時候會到達步驟三,但其實我們可以知道現在我們究竟在哪個節點上。我們的節點就是通過20年的努力讓初步數據化完成,但數據化本身並不徹底,所以現在出現了新的AIoT。
AIoT到底會帶來什麼
AloT會帶來什麼?又是什麼?首先我們現在說的AloT本身起源於這樣四個基本點上的變化。
第一個是各種感測器的微型化以及精度進一步提高,其次就是我們連接速度的進一步提升。我們經常說的5G以及後端GPU提升之後,整個計算能力的提升,人工智慧提供了相應的是數據處理方法的提升。AloT最終由這四個關鍵詞點所組成,它會帶來什麼?它會帶來的事情是這樣也很簡單,就相當於我們所有原本一些啞的設備最終都會聯網,都會產生數據,很大一部分還會加上新的這種交互方式。這裡所說啞的設備就包含我們經常會用的空調、冰箱、電燈、開關、門鎖等等。
AloT和手機有本質的不一樣,手機是一個品類佔有極大的銷量。但AloT的品類高度分散。我們再拿一個具體的例子來看一看,AloT本身這個事會怎麼樣改變我們的生活?因為我比較熟悉的是智能語音交互,所以我回到這個點來給大家再進一步介紹一下。AloT到底會怎麼樣改變我們的生活?以人機交互來講,有一點年紀的人可能都還記得最早期我們都是用命令行的,然後我們就有Windows為代表的圖形用戶界面,到現在就很神奇。
而AloT這個時候就變成了比如說智能音箱,我們可以通過直接跟它對話來控制它的行為。在不同的時代里不一樣的不單是我們看到的這種形式,比如說一個是要敲鍵盤,一個要用滑鼠,一個要用觸屏,個性化路線差別也非常大。在DOS或者Windows那個年代,其實本身是不太支持什麼個性化的,只是說你可以通過自己的賬戶對UI進行一些設定,不同的人用的word其實差別不大。在移動互聯網的時候便不一樣了,最典型的應用就是我們經常用的頭條。
這個時候相當於是說每個人都自己豐富的標籤,每個人看到的東西是不一樣的。但這個時候的個性化其實是以APP為單位的,很難跨越APP的邊界。AloT有一個很神奇的特性和原來的APP非常不一樣。智能語音交互中的各種應用,比如放歌或控制電器,但這些應用本身是沒有邊界的,所以相當於全系統可以針對某個人進行徹底的優化。極端來講會是什麼樣子?現在的智能音箱本質上只是完成了第一步,你讓它幹什麼它能把這事給你幹了,你讓它放歌,它能夠精準地把你想要放的歌放出來,你就會很高興了。
但這本身並不是真的特別智能的一種交互,更像一種高級的搜索,所以真的智能交互往之後一定會變成每個人都有屬於自己的數字助手。當每個人都對同一個助手說放一首歌,他放的歌應該是不一樣的。比如說一個人,他在家裡看了西部世界第一季第二集看到15分鐘他出差了,當他出差入住酒店之後,在新的酒店的設備,比如說可能也是那時候的一個電視,他通過聲紋或者人臉介入這個系統之後,他對這套系統說播放西部世界,這個時候應該是從家裡看的停止點開始播放,這是一種更徹底的個性化方式。
計算方式的個性化脈絡
這種時候本質上我們所使用的經常跟人相關的計算模式就發生了變化。當前我們所有的計算本質上是以手機為中心的,手機幾乎是人和數字空間唯一的介面,但當AloT充分發達之後,你在家裡,車裡,旅店,走在路上,都不需要帶一個專有的手機,便可以充分利用當時那個場景更為強大的感測器或者展示設備,但背後給你提供體驗的這種交互方式的數字助理是不會變化的。這種個性化當前做的好的比如頭條上的推薦,這種個性化程度還是不一樣的,顯然會更深化很多。
總結一下我們第一個講了,整個為了打造終極矩陣,一共需要有幾個步驟,一個需要商業閉環,導致整個社會的力量投進來,這就會進一步導致數據化程度的加深。我們會面臨一個百分之百數據化的事件,這是通過感測器5G這些東西實現的。然後我們又講了,當前我們究竟處在這三步的哪個階段?我們當前顯然處在第二個階段,我們花了20年很多公司獲得了商業上的成功,但AIoT本身是不充分的,AloT要乾的事就是通過各種新的感測器,新的連接方式,新的計算能力,新的演算法,讓世界的數據化程度進一步提高。接下來我們又會講了,本身就是這第二步完成或者基本完成的時候,我們的生活會什麼樣子。這裡我們專門講了,只要這第二步完成我們消費數據的方式,我們消費計算的模式會發生變化,會從純粹的以手機為中心變成以場景為中心,不同場景的本身不同場景下展示或者使用獲取數據的方式會變化,但背後給你提供體驗的這種交互方數字助理不會變化。
比如說在家裡或旅店的時候,我們可能就喜歡用大屏,這樣可以獲得更真切的信息,有的時候可能需要用VR設備,走路的時候可能就用耳機,在每個場景都會有專屬於那個場景特別適合的顯示或者感測器。但背後統一提供服務的方式是不變的。這就是我們前面所講的事情,我們處在第二步剛剛開始,遠遠遠沒有達到說第二步測數據世界徹底數據化這個程度。但我們可以在這個基礎上想像未來會發生哪些變化。額外還講了一點點,就是整個這個過程,也許有人喜歡,有人不喜歡,但其實很可能不可重置,就是照我們現在的既有的脈絡發展下去,所有前面說的雖然是下步或者下下步,幾乎一定會發生。
關於聲智
下邊我簡單介紹一下我們公司。聲智科技是能夠完整提供整個智能語音交互鏈條各個技術以及整套系統體驗的公司。形象講是這樣,就是任何一種設備只要接入我們提供的服務,這種服務裡邊其實是打包了很多的技術,比如說我們說的喚醒、降噪、識別、NLP以及相關的內容以及交互的方式等等,只要接入這些雲服務,任何一種設備都可以很快具備語音交互的能力,我們把這套系統命名為叫Azero。為了滿足不同場景的需求,在這套系統之上,我們又做了很多的延展。
比如說在特定的場景有些用戶可能需要一些完整的設備,這個時候我們就會把整機的產品提供給他。而在某些特定場景,比如說市場上可能還有很多存量的電視,這些電視想獲得智能語音交互能力就比新產品會更難一些,這時候我們就會出一些小的晶元來支持這些設備獲得語音交互的能力。我們也推出了一些模組,讓更多的產品只要集成了這個模組就可以自動獲得語音交互的能力。同時還有很多同學想接觸智能語音交互,所以我們也推出了相應的開發板。
基於開發板可以比較迅速地體驗,在上面進行定製和編程,體驗遠場語音交互。在遠場語音交互方面,聲智屬於發展相對比較快的,大家耳熟能詳的一些產品其實背後都用了聲智的技術,右側列的產品就包含了BAT,小米,華為的這些主力產品,我就不一一展開了。但當前最終說一點是什麼?這就和前面我講AloT所處的階段是一樣的。整個智能語音交互在國內的發展其實是比國外晚的,真正啟動是回到2017年下半年。但作為一種產品來看,其實在過去並沒有一種產品有像智能音箱這種增速,智能音箱是智能語音交互一個比較成功的載體。
在智能音箱之前,我們做的好多智能設備通常都把百萬級看成一個巨大的門檻,但智能音箱幾乎就這一年多整個銷量迅速突破千萬級,所以說從這上面也可以反過來理解到智能語音交互的目的,這也是我們公司本身自己想達成的目標。我們期望更多的設備,原來很多啞的設備如燈,玩具,開關等,幫助這些設備更容易的獲得智能語音交互的這種能力,這也是一個會進一步高速發展的行業!最後說個數字,我們在過去整個設備上,電腦的那個時候全球銷量大概是3到4個億,接下來到手機這可能要有13到14個億,具體數字我記不準,但整個AloT上的設備量累加起來,應該會比手機還有數量級的增長,所以幾乎說這是一個無限大的空間,也會讓大家進一步關注智能語音交互,也歡迎大家關注我們聲智科技。謝謝大家,今天我前面的分享就結束了。
會員問答
為更深入的解決聽眾的困惑,「Live」在分享結束後開設問答環節,李智勇對雷鋒網(公眾號:雷鋒網)「AI投研邦」會員部分疑問進行了解答。
Q1:語音交互產品進入千家萬戶後,如果防範黑客監聽?
這位同學提到了一個安全問題,確實這是一個很關鍵的點,因為我們數據化越充分,每個人越會變成透明人,安全問題就會變得越凸顯。但本身說一個很關鍵的是,在AloT這個時代,它的安全問題本身不太能依賴於第三方,一定依賴於提供這種服務的公司。因為這和比如說我們用Windows或者用手機還不太一樣,這是一種端到端打通的系統。也就是說你終端上已經開始使用某個公司的服務了,這個公司的服務會進一步比如和他的雲端相連接,這個時候提供服務的公司就更加關鍵,這就好比說你真的接到黑客帝國的矩陣裡邊,這個時候本身安全事實上就轉移到矩陣去了。用微信其實有同樣的問題,當你使用微信的時候,你的聊天記錄,你的交易整個過程事實上就轉移到開發微信這個公司去了。
Q2:距離實現徹底的智能化還有多遠的距離,可以在時間上進行評估嗎?
離徹底的智能化這個事情其實有很大的偶然因素的。我們面對的問題其實是兩類,一類是相當於只要把體驗做好,沒有真的技術瓶頸,只要把體驗做好,只要商業模式成立,它就會迅速鋪開,這類問題我們是大概能估時間的。比如說現在你要問我什麼時候能徹底數據化,我覺得這個問題還是能估一下,比如說可能他也許也許比如說再搞三年五年或者十年,我們的數據化程度一定會比較徹底。
我們很難估計的事情是真正什麼時候能徹底的智能化,因為現在的技術水平達不到,這有非常大的偶然因素。這個時候真的依賴一些天才,他們需要把現有的技術往前再推一步,才有可能實現所謂的徹底的智能化。但經常大家講的一點是什麼?如果說真的打造出這類的智能,進化的速度很可能就很快。也許做出來了,比如說需要30年50年或者什麼時候,但他真正進化成一種進化成一種超級智能,很可能就要幾分鐘。前面再說一下,我們可以回過頭來看看,其實從互聯網真正開始走上正軌到現在大概花了不到20年,已經把我們生活改變成這個樣了,如果拿20年一個周期來看,以數據化的角度看,20年後一定會有一個更加翻天覆地的變化的。
Q3:請問未來智能語音設備與手機之間的關係會變成怎樣的,您覺得會取代手機嗎?手機會不會作為智能設備的個人中樞存在?
這就是剛才說的那個問題,如果說AloT充分發展,它的計算模式會和手機有非常大的不同,手機是唯一節點,但AloT不是這樣,AloT充分發展之後相當於不同場景,其實你可利用的,不管是感測器或者說顯示方式都會不一樣,只有在特定場景下你的體驗才能最佳。這很好理解,比如說你真的用VR的時候,一定是那種場景使用這種方式才能獲得最佳體驗。但手機不可能覆蓋所有這些場景。曾經專門有過一個概念,具體的詞叫什麼有點不記得了,大概是說我們可以享受無處不在的這種計算,但這種計算本身是鑲嵌在具體場景里的。
更多內容和視頻查看可進入「AI投研邦」查看
※你愛喝的百事可樂里藏著這些人工智慧
※國行版華為 P30 價格公布,除了拍照逆天,這些功能也很強
TAG:雷鋒網 |