AI峰谷有時,如何抓住確定性探討不確定性?
雷鋒網報道,在9月18日下午上海交通大學與氪信科技聯合承辦的世界人工智慧大會特色活動——新世代·新疆界·新引擎:青年AI科學家暢談論壇上,1994年圖靈獎得主、卡內基梅隆大學教授Raj Reddy(羅傑·瑞迪),微軟全球執行副總裁沈向洋,攜程董事局主席梁建章,招商局創投總經理呂克儉,富士康工業互聯網首席戰略官姚忠佑,亞利桑那州立大學凱瑞商學院副院長、上海交通大學上海高級金融學院教授顧彬,及人工智慧學術界和工業界的青年科創家們分享了精彩的發言。
在AI前沿產學研對話圓桌環節,商湯科技聯合創始人、副總裁徐冰,曠視科技首席科學家孫劍,Momenta創始人兼CEO曹旭東,微軟亞洲研究院資深研究員韋福如齊聚一堂,上海交通大學教授、博導盧策吾擔任主持人。
下為對話原文,雷鋒網作了不改變原意的編輯:
主持人:請教各位,你對基礎性研究的當前格局有什麼看法,它的機遇挑戰會在哪裡?以及你們個人和公司的研究計劃是怎麼樣的?
孫劍:之前,我們也討論過這個問題。這波AI能夠起來是靠深度學習。今天將很多東西積攢在一起,能夠讓深度學習系統訓練起來,所有人都可以用。只要有足夠多的數據就可以做,這是這波AI能夠繁榮的源動力。
同時也有人會說,前兩年的研究進展非常快,每天都有顛覆性的新東西發布,在性能、方法各方面。這個狀態維持了兩三年。到了今年,各界都在擔心趨勢會不會放緩,雖然整體數量上來了,但是突破性技術是不是放緩了。在我看來,這個情況是很正常的,技術也會有小的波峰、波谷。
另外一個問題可能是,下一波紅利會在哪裡?我個人不是很關心紅利,這波紅利沒來之前我也很有信心,我認為這種技術非常有用,只不過現在加速了。我相信大家投入這麼多精力去做會變得越來越好。
主持人:您的意思是說還有波峰、波谷,持續投入研究的成果總是會增長?
孫劍:接下來需要突破深度學習在解釋性方面的問題,研究深度學習的基本組件、SGD優化問題的工作機理。其實我跟策吾做的項目,參數比訓練數據多10倍、20倍、上百倍。以圖片監測來說,人的精度是非常高的,機器的精度是遠低於人的,雖然數字不斷刷新。正如策吾說的,「你要增加同樣的數字,你要增加一倍的數據」,這個現象讓我們感覺到蠻力的增加計算量和數據量,不一定能夠達到我們預期的。要解決問題,現在的檢測框架應該拋棄原有的一些東西,加入AI的機制。如果大家研究清楚,可能會更容易找到下一個突破點和方向是什麼。
徐冰:徐立(商湯科技CEO)一直都說他知道我講不了技術研究,首先我也是一個青年,我是沒有畢業的博士,但每天被徐立逼迫著要輟學,他成天給我講許多應用案例。我是2008年大學本科讀了這塊的博士,做多媒體方面的工作。我們是一個趕上了這一波的團隊,解決了視覺方面的問題。
其實從研究角度上說,我們在2011年就開始做深度學習,直到2014年這幾年都挺困難的。當時人臉識別在20萬的資料庫做訓練工作,訓練半個月才出一個結果,這個是極大的局限,演算法創新的瓶頸,一年只能迭代24次。包括現在我發現很多企業做深度學習,剛開始用深度學習做大量數據的處理,可能起步的時候都會遇到這個問題。你用什麼樣的結算結構能夠把演算法迭代的速度提上來。
2014年我們創立商湯,至今已有四年,我們對外公布融資額是接近20億美金。我是負責給商湯融資的,基本上脫離了學術研究範圍,但我經常跟徐立研究這筆錢怎麼樣花,用於做遠期的戰略部署。從學術角度上去看,深度學習往前去走,但做學術研究也要解決實際問題,不管是數據,還是問題,是極大演化的。當我們與政府、客戶打交道的時候,面對的問題是非受限的問題。
以智慧城市為例,如果只是在一個攝像頭做人臉識別,很多企業都可以做到這樣的水平。深圳市有19萬支公安連接的攝像頭,找尋恐怖分子、罪犯或者是識別某一種不文明行為,都是城市治理和日常的公安等的剛性需求。如果在一個城市範圍做這樣規模的識別,10萬支攝像頭每天拍下來的照片,僅僅是人臉的照片就是10億的規模。假如說恐怖分子數量是10萬,基本上1天之內要發生的速度是100萬億次,99%的演算法是不可用的。在這樣的規模之下,可能就需要你從硬體上和演算法生產都可以支持100億,甚至更大規模的數量少,做深度學習。這樣層次的問題,遠遠跳出了我們在學校裡面做學術研究面對的問題。
你也可以發現,現在學術界和工業界做深度學習真的是不一樣的,業界所獲數據規模遠遠超過學術界。同時還要求基礎設施的過硬。三年前我們看到了軍備競賽,我們花很多錢買了很多硬體設備,最後建設了一個計算能力很強的計算平台,基於此,才能支撐城市級別的場景。這是商湯大部分人在乾的事情。深度學習這幾年經歷了跳躍式的進步,從原來要花半個月的時間才能從幾十萬小時的錄像中找到犯罪分子,變成一張照片15分鐘找出來,技術真的改造產業的工作模式和效率。
在解決行業問題的時候,我們說一定要講非受限的問題,而不是把問題極度簡化,不然做出來的產品經常是過渡性產品,終有一天會被過渡掉,終有一天被百億級的訓練顛覆。
主持人:您這一塊有什麼樣的看法,無人車最大的研究問題是什麼?
曹旭東:回到基礎研究問題思考,我準備從兩方面回答這個問題,第一個確定性,第二個不確定性。對於創業公司來說,這兩件事情非常重要。只有確定性,則沒有未來,但是只有不確定性,現在就會「死掉」。所以要抓住確定性去探討不確定性。第一個大數據,第二個計算,第三個演算法。
剛才有人提到數據優化,我們考慮的是怎麼樣把1塊錢一張圖變成1毛錢一張圖,再怎麼樣把1毛錢標註一張圖,這個對安全性很重要。所以任何一個演算法需要做到八個九,需要多大數據呢?不同級別的增加是不一樣的,L4級別的需要100個。但100個我們燒不起,每張圖1塊錢投資人就不投了。我們在做的數據生產線使用AI演算法的優化,但是零部件有一些問題,標數據也是一樣的,如果標註錯誤怎麼辦?另外標註工具怎麼樣去設計?怎麼樣去交互是最優的,這樣的設計方案,這個人大概30秒可以標出來,這個東西如何使用?標註的數據我們都可以收集到,如何通過演算法去優化。
除了數據之外,我們還做了更多的探索,怎麼樣打通商業閉環,技術變成產品,產品變成大數據,形成閉環。一個小例子,就是我們做的車隊安全管理產品,然後給車隊提供一些ADS功能車隊的安全性可以提高30-50%,這樣對於1000車輛規模的車隊,這樣在安全上節省的費用是千萬的規模。對社會來說利益更大,司機駕駛行為的數據是非常有用的,每個車隊都會有很厲害的老司機,省油。如果分析物流這個行業,會發現司機的工資成本只佔了10%+,油費佔了20%。這意味著,老司機開得好一年省油2萬,你能很多老司機的經驗收集到,變成產品裡面的演算法,然後再應用到自動駕駛裡面去。
徐冰介紹了很多商湯的大計算,這裡想補充一點的就是做這件事情的原因。緣由是目前還是實驗科學,做實驗跟實驗效率有關係。同樣都是聰明人,如果你的實驗效率比別人快100倍,至少整個研發迭代的效率比另外一個團隊快10倍就變得很重要了。這個也是我們在努力的方向,現在可以做到的千萬數據級到億萬數據集的速度也會不一樣,差不多一天可以訓練完。
第三點演算法。之前在學術界,數據量很小,參數量挺多,結果較難得到。隨著時代發展之,這件事情反轉過來了,你會要求儘可能小的計算量,這樣可以用更便宜的晶元實現產品。如何在小模型,參數很小的模型上,然後去學到一個很好的效果。其實數據量有很強的擬合能力,是不是這些參數都充分的應用了。另外在工業界非常重要的是,如何在有限參數和現定的參數和計算設計的情況下,學出來一個更好的結果?
從2015年開始,我發現自動學習論文越來越多。這一兩年更多的是學習框架和硬體,聯合學習是未來比較有趣的方向。我們做了這個方向,有一些已經投入到產品使用。以上所說都是「確定性」的,確定性的東西用一個現象來總結就是條件反射。實際上整個突破到現在來說,都是學習跟影射。現在用深度學習感知智能的一些問題已經得到很好的解決。當然,數據、模型、算力優化會更好。
韋福如:這3-5年,深度學習除了在圖像,在自然語言處理、文本生成上都取得了突破性的結果。在大數據,計算力之外,還有兩個重點。
第一個點端到端的自然語言模型,我們希望人去定義、處理句子,先分句子,做詞性標註,再做語法分析,然後得到最後結果。包括機器翻譯、閱讀理解都是這樣大的框架下面去做的。給定了比較多的數據情況下,其實模型的學習能力還是很強的,包括在很多的領域裡面達到或者突破人的水平。
另外一塊是目前我們看到的預訓練的模型。人在學語言的也是一步一步來的,這種預訓練的模型就有預訓練的詞向量。最近在閱讀理解任務上,一戰成名的上下文相關的詞恩向量,使得把預訓練的效果發揮更大了。這樣一個技術在後面的其他任務裡面也得到一些驗證。端到端+預訓練,是自然語言能夠取得突破性結果很重要的兩個方面。
自然語言處理為什麼很難?有以下的原因。語言天生有歧義性,這個在深度學習,詞向量表示的情況下,得到了很好的緩解,能夠計算句子、片語,某種程度上緩解了一個意思有多種表示的挑戰。機器不知道常識和知識,而一般人類知識都在非結構化的文本中。某種意義上來講,我們要在探索如何利用常識或者知識的情況下取得一個折中方式。我們現在能夠有一定的方式獲得非結構化文本的知識,還有一些存在結構化裡面這個接下來很好研究的。另外,推理也是需要突破的難點。
更多資訊,請關注雷鋒網AI金融評論
※關於今夜蘋果發布會的預測,靠譜的有這些
※Model X 致命車禍初步調查結果出爐,我們發現了這些未解細節
TAG:雷鋒網 |