商湯王曉剛:你所不知的商湯三維視覺產品世界丨CCF-GAIR 2019
7月12日-7月14日,2019第四屆全球人工智慧與機器人峰會(CCF-GAIR 2019)於深圳正式召開。
峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智慧與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智慧領域極具實力的跨界交流合作平台。
7月14日下午,在「智慧城市·視覺智能」專場上,商湯科技聯合創始人、研究院院長、移動智能事業群總裁王曉剛帶來了題為《從學術到產業化的人工智慧》的主題分享。
王曉剛回顧了人臉識別從學術到工業界的持續進步歷程,以及人臉識別在智慧城市、智慧通行、手機、AR、遊戲等具體場景中的應用。
他提出,計算機視覺研究有幾個比較重要的部分:
一是基礎層,包括晶元、AI超算平台、深度學習平台等基礎方面的研究,在這方面,中國還有很長地路要走,西方尤其是美國領先我們很多。
二是應用層,這一塊中國是比較擅長的,我們有非常豐富的應用場景,這些應用場景可以給我們更多的反饋,驅動我們的演算法不斷地進步。
三是工具鏈層,人工智慧賦能百業,當不同領域需要人工智慧技術越來越多的時候,它對科學家或者研究員的需求是線性增長的。如何讓普通的開發者、公測人員可以根據我們的工具鏈迅速開發出合適的人工智慧解決方案,使其生產力充分釋放出來,這是未來我們需要面臨的重大課題。
在這個過程中,商湯以往、現在以及未來持續會做的是:在演算法精度不斷提升的前提下,拓展智慧城市從1到N的業務邊界、促進2D感知到3D世界的落地,以及場景現實到虛擬現實的融合。
2014年,商湯糰隊發表DeepID系列人臉識別演算法,使其全球首次超過人眼識別率,之後隨著技術的持續進步,業務也不斷突破邊界,從相對簡單的1:1識別向1:N進發。
目前,商湯所做的工作是如何從幾萬到幾十萬人中,識別和分析出用戶想要找的人或者物,隨著場景不斷地拓展,王曉剛認為人臉會逐漸成為人的身份標誌。
另外,在3D的應用上,商湯的3D人臉識別方案也已經在很多手機上得到應用。
王曉剛現場展示了手機上通過3D攝像頭拍攝的人臉、物體以及人體圖像進行3D重建,未來2D的相冊還能拓展到3D相冊,人體的跟蹤上也從2D延伸到3D。
商湯科技聯合創始人、研究院院長、移動智能事業群總裁王曉剛
以下是王曉剛教授大會現場全部演講內容,雷鋒網作了不改變原意的整理及編輯:
王曉剛:感謝大會的邀請,我是香港中文大學的一名教授,同時也參與商湯在人工智慧產業方面的落地,今天非常高興能有機會與大家分享我在學術研究與工業化落地方面的一點個人體會與看法。
我自己有這樣的一些經歷,我們在實驗室帶著學生做研究,更多地是利用有限的計算資源和數據資源做學術界里的經典問題,「作坊式」地實現一些創新和突破。
隨著人工智慧在工業界大規模落地,市場給了技術發展很大的助力,包括可研究的內容、可研究的工具、可研究的形式。
我比較認同賈佳亞老師(上一位演講嘉賓)所說的未來不同研究領域的一些融合。
我認為現在我們的研究更多地停留在演算法層次,未來的人工智慧研究很重要的方面是軟硬的結合、演算法和晶元的結合、演算法和感測器的聯合優化,這些都是比較重要的幾個方向。
而這些方向往往都需要更強的工業界支持,因為後者可以提供更多的硬體能力、更大的研究課題。
首先,業務系統對於我們的研究是非常重要的。比如一個普通城市,至少都有上萬個攝像頭,一年積累的人臉數據超過上千億,如果將這些攝像頭連在同一個平台上,如何在大平台上進行高效率地圖像搜索和大數據分析,這是實驗室中難以接觸到的問題。
另外,我們的計算平台在現有的一些工業研究領域,能夠同時使用幾百塊GPU訓練一個模型,從而做到快速反饋。
同時,還有很多長尾的人工智慧問題需要解決。我們需要建立一套高效的工具鏈,可以做到全面的測試和評估。
比如我們做人臉識別、計算機視覺識別問題,在學術領域,我們在實驗室里也有工具,但真正工業應用落地其實要做大量的測試,後者會反饋出非常多的問題。
而以上這些要素,均是學術實驗室所不具備的。
商湯科技成立於2014年,初創研究團隊來自於香港中文大學,大概有20年歷史的學術積澱。
我們一直與學術界保持著密切地交流,包括與MIT、南洋理工、清華、北大等高校都設有聯合實驗室,可以提供不同行業的人工智慧演算法和解決方案。
過去幾年,我們除了做一些工業落地方面的研究,也會兼顧學術方面的探索,在ICCV、ECCV上發表了幾百篇論文。
我們和香港中文大學聯合實驗室共同啟動OpenMMLab開源演算法庫,其中包含了大家經常關注的計算機視覺問題,如物體的檢測、行為的識別和超分等。
經典演算法開源,可以幫助大家更好地復現,目前也有一些其他院校加入到了這個開源平台的構建中。
同時,我們還提供了SenseAR增強現實的開發者平台,這是學術和工業聯合研究的例子。
它不僅有增強現實AR和AI功能集成,從SLAM到人臉、人體的識別等,還可以部署到不同的手機上,目前這個平台已經部署在超過5000萬台的手機上。
我們認為做計算機視覺或者人工智慧方面的研究有幾個比較重要的方面:
一是基礎層,包括晶元、AI超算平台、深度學習平台等基礎方面的研究,在這方面,我們還有很長地路要走,西方尤其是美國領先我們很多。
二是應用層,這一塊中國是比較擅長的,我們有非常豐富的應用場景,這些應用場景可以給我們更多的反饋,驅動我們的演算法不斷地進步。
三是工具鏈層,人工智慧賦能百業,當不同領域需要人工智慧技術越來越多的時候,它對科學家或者研究員的需求是線性增長的,如何讓普通的開發者、公測人員可以根據我們的工具鏈迅速開發出合適的人工智慧解決方案,使其生產力充分釋放出來,這是未來我們需要面臨的重大課題。
舉幾個例子,在演算法精度不斷提升的前提下,如何拓展智慧城市從1到N的業務邊界、促進2D感知到3D世界的落地,以及現實到虛擬現實的融合?
我們知道,人工智慧的工業應用時間點是在2014年,2014年商湯糰隊發表DeepID系列人臉識別演算法全球首次超過人眼識別率。
而後,很多人認為當技術超過肉眼識別率時,問題就已經解決的差不多了,其實不是這樣,現實生活中,很多場景對於技術的需求遠遠超過肉眼識別的水平。
2014年,當時的技術誤識率是在千分之一,現在每年都有幾個量級的增長。從過去幾年中可以看到,隨著人臉識別技術精度持續增長,它可以不斷地突破業務的邊界。
此前,識別率比較低時,可以做1:1比對,如人臉、身份證進行線上線下認證,現在很多產品已經出現在機場、酒店中。
從2017年開始,人臉識別技術開始應用於手機解鎖功能,手機雖小但其要求更高,因為手機不但要識別準確,還要防止活體攻擊,這其中還包含各種各樣活體攻擊方式,從照片到視頻再到3D模型。
過去幾年裡,我們的SenseID人臉識別、活體檢測水平持續提升,可以讓這一項技術進入普羅大眾的日常生活中。
據統計,現在人們每天使用手機人臉解鎖這項功能超過100億次。
如果1:1是相對簡單的問題,1:N就更加複雜。
我們需要有資料庫,這裡的資料庫可能是幾萬或者幾十萬量級。在門禁、閘機等通行場景中,一個大樓或者公司有1、2萬人的資料庫;智慧城市的資料庫可能達到幾十萬的量級。
商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展,我們可以看到人臉漸漸的成為人的身份標誌。
現在大家看到的是我們在上海西岸的「智慧公共空間管理平台」,這個區域有密集的攝像頭,可以通過人臉識別、跟物體的關聯等,尋找到我們想要找的人或者丟失的東西。
現在智慧城市應用里,我們可以看到有越來越多的攝像頭具有AI的功能,越來越多的攝像頭可以連接在同一個平台上。
為了數據安全和數據隱私的保護,我們會逐漸減少人工干預和標註,數據可以存儲在客戶那一端。
以前我們說演算法性能的提升依靠人工標註,現在我們的數據量有幾十億甚至上百億的量級,不太可能靠人工標註,我們需要依靠機器終身學習,使數據得到自動更新,部署系統和訓練系統可以實現完美融合。
在3D應用方面,手機已經從單個RGB攝像頭到多攝到3D攝像頭。
2017年開始,蘋果應用了結構光3D攝像頭,後面我們可以陸續看到很多手機廠商不斷地推出這樣的機型,把有深度學習的攝像頭裝在手機上,可以帶來很多新的研究課題和新的應用。
回顧一些大家比較熟悉的場景,看它如何從2D成長到3D併產生相應的應用。
比如最開始人臉的關鍵點,我們推出106個人臉關鍵點,主要是做人臉的屬性、人臉特效,用在互聯網直播等。
我們從106點到更稠密的240個人臉關鍵點,做的事情不僅是增加特效了,而且還有美妝,對人臉關鍵點的定位要求更準確。
化妝後出現關鍵點偏移,比如紅嘴唇塗到牙齒上等等,這是我們不希望看到的,根據關鍵點,我們有智能的美顏、美妝,更多的功能需要更多稠密的關鍵點和定位。
現在手機上有了3D攝像頭,我們可以實現人臉3D重建,它對於技術的精度、計算複雜性、幾何複雜性都提出了更高挑戰。
目前,我們已經在OPPO、vivo手機上實現了商湯人臉3D重建,根據這個可以進行3D美顏、捏臉、微整形等。
更有趣的是3D Avatar,通過人臉驅動3D Avatar,除了人臉的重建還有人體和一般物體的重建,正是因為手機上有了深度的信息,可以給我們帶來不一樣的體驗,2D相冊在未來可以拓展到3D相冊。
人體關鍵點定位跟蹤是學術界研究很長時間的課題,未來這個應用可以落地在很多場景中。
包括服裝、膚質的識別,我們可以根據你的服裝生成人體的形象,在互聯網直播場景中,以前給人加各種各樣的特效,現在還可以針對每一個人做虛擬形象。
另外,還可以設立虛擬觀眾席,如果大家不能在現場參加像今天這樣的大會,作為粉絲,你可以有自己的Avatar形象,可以在家裡參加並進行互動。
最後,我想介紹人工智慧和AR(增強現實)的結合。
2017年被大家看作是增強現實的元年,這一年蘋果、谷歌發布了ARKit和ARCore的平台,商湯科技從2016年有自己的增強現實平台SenseAR。
2016年我們主要支持娛樂互聯網的直播、特效等功能。
2018年,商湯以原創AR開發者平台SenseAR為基礎,聯合OPPO共同打造OPPO ARunit平台,通過這個平台吸引更多的開發者加入,後面包括小米等互聯網公司也加入進來並基於此做了開發。
這其中有SLAM技術、有各種AI功能,隨著手機3D攝像頭的出現,我們還有基於RGBD的SLAM和物體的重建。
除了手機端,我們也提供AR雲形成多雲共享,幾個人可以同時在虛擬空間里交互、遊戲。
可以看到SLAM技術的落地面臨諸多挑戰,需要應對動態的場景、弱紋理、複雜運動以及室外大場景。
這裡為大家展示的是OPPO手機上有了SLAM技術和深度攝像頭可以做AR測量,你可以拿著手機測量任何一個物體的大小,還可以自動的檢測場景中的各種形狀,如方形、圓形、測量身高等。
現在對標蘋果AR尺子的技術,在準確性或者數字化、速度上等各方面上,我們可以做得更好一些。
我們還做了AR導航,大家可以在大的購物中心、酒店等室內場景里找到自己的位置,在技術實現上,這是極具挑戰的。
杭州國博中心是一個非常大的場景,我們可以進行3D地圖重建,用SLAM的技術實現室內導航。
如果你走丟了,可以通過手機AR導航功能選擇路線,導航會自動帶你到想要去的位置。可以看到它在進行場景的重建和定位,進行手機的導航。
另外,我們的AR遊戲跟《王者榮耀》合作,可以通過手機拍攝真實的場景,遊戲里的人物會進行虛擬和現實的融合。
接下來為大家展示多人共享的AR雲(SenseAR),針對單個前端的設備,我們利用SLAM技術進行場景的理解和定位。
如果幾個人同時想玩一個遊戲,我們的AR雲可以把他們不同手機上的坐標系統一到同一個坐標系下,實現跨平台的互動。
我們的SenseAR和手機廠合作,可以從手機到AR的平台,再到渲染的平台,貫穿開發給開發者,將來有更多的開發應用和更好的體驗。
上個月,我們還成立了中國增強現實核心技術產業聯盟(China Augmented Reality Core Technology Industry Alliance,簡稱CARA),我們知道國外的增強現實是由谷歌、蘋果等巨頭主導,很多研究和創新需要聯合產業鏈上下游的力量綜合實現創新。
該聯盟由手機廠商、研究機構、模組廠商、演算法提供商和Sensor廠商組成,可以形成聯合創新。
這就是開始時談到的——現在和未來AI的研究不單單是在實驗室研究單點的問題,我們要聯動產業鏈上下游,通過緊密的合作和市場反饋提供新的問題,實現創新的突破。
我們相信未來隨著應用場景不斷的豐富會給我們AI研究提出更多新的課題,我們和學術界、產業界一起把AI的研究推向更前端,有更多的落地場景。
謝謝大家!
現場觀眾提問:王老師好,我是香港中文大學的Ph.D,商湯研究院有這麼多博士,我相信這是非常強大的學術組織,但畢竟商湯是商業化的公司,我特別好奇商湯研究院如何平衡商業回報和學術成果?
王曉剛:我們對於學術成果的看重不只是發論文,雖然今天PPT中展示我們有多少篇論文,但這不是最重要的。我們要求大家要做到在學術界有影響力,且能帶來突破以及可行的工作成果。
所謂的商業回報和學術突破二者並不是完全矛盾的,它們可以有更緊密的結合。我們已經有非常多的研究員深入到各種實際應用中,發現問題、解決問題。
人工智慧與其他很多研究不太一樣,如果研究電磁學,在實驗室里就可以了;但人工智慧是賦能產業的,不能待在實驗室,一定要理解客戶真正的問題是什麼。
我們希望產業可以給學術提出新的問題、新的數據,在這些問題上實現產業和學術的結合。雷鋒網
![](https://pic.pimg.tw/zzuyanan/1488615166-1259157397.png)
![](https://pic.pimg.tw/zzuyanan/1482887990-2595557020.jpg)
※三星前後雙屏幕設計專利曝光;ofo已無可執行財產;美國擬立法不承認華為專利丨雷鋒早報
※被蘋果拋棄之後,英特爾打算出售 8000 多項無線通信專利
TAG:雷鋒網 |