重塑技術與商業模態「智慧城市·視覺智能」專場回顧

新聞 07-16

編者按：7月12日-7月14日，2019第四屆全球人工智慧與機器人峰會（CCF-GAIR 2019）於深圳正式召開。峰會由中國計算機學會（CCF）主辦，雷鋒網、香港中文大學（深圳）承辦，深圳市人工智慧與機器人研究院協辦，得到了深圳市政府的大力指導，是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會，旨在打造國內人工智慧領域極具實力的跨界交流合作平台。

7月14日，「智慧城市·視覺智能」專場正式拉開帷幕。本專場全面圍繞「未來城市級視覺AI的發展方向」這一主題展開。

其中，騰訊賈佳亞、曠視孫劍、商湯王曉剛、雲從溫浩、澎思申省梅、加州大學洛杉磯分校Demetri Terzopoulos、千視通胡大鵬，從產學交叉的視角，提出了新的視覺智能技術研究方向與產品化方法論。

以下是本次大會的精彩回顧：

騰訊賈佳亞：《人工智慧的多模態發展》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

騰訊優圖實驗室聯合負責人賈佳亞教授

人工智慧的終極應用離我們還有多久？

賈佳亞在演講中提出了這個問題，他給出的答案是可能還需要50-100年的發展路徑。

而人工智慧學科發展與人類智能差距之一就是「多模態信息的智能化理解」。

人造信息量帶來了更大多樣性，視覺、聲音、符號語言、嗅覺和觸覺等信息，具有無限多樣性。

而多模態人工智慧還存在不少基礎難點：第一是數據模態多種多樣，包括2D圖像、3D模型、結構化信息、文本、聲音及更多無法量化的數據；第二是多模態數據的不對應，如從圖像到文字，從文字到圖像，都是「一對多」的過程，會有多種的描述和呈現；第三是多模態數據的融合，一個軟體或演算法的進步較為容易，但多個演算法一起，難度將幾何級上升，如「告訴機器人拿桌子左邊的瓶子」，會經過語言模型、三維建模、自動尋路、圖像分析這些步驟；第四是多模態監督，「如何告訴機器人拿錯了」「哪一步驟拿錯了」也是目前的難點。

而要解決這些多模態信息的難題，賈佳亞提出要更好研究嗅覺、味覺、觸覺、心理學等難以量化的信號問題，通過多模態數據使得計算成為可能，進行協同學習、用一個資源豐富的模態信息輔助另一個資源貧瘠的模態。

多模態人工智慧問題的解決，就會是人工智慧更多落地的未來。

商湯王曉剛：《從學術到產業化的人工智慧》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

商湯科技聯合創始人、研究院院長王曉剛

王曉剛則回顧了人臉識別從學術到工業界逐步的進步，以及人臉識別在智慧城市、智慧通行、手機、AR、遊戲等具體場景的應用。

王曉剛提出計算機視覺的研究有幾個重要的層次：

一是基礎層，包括晶元、AI超算平台、深度學習平台、AI平台等基礎方面的研究，目前西方尤其是美國領先；二是應用層，其中中國有很多豐富的場景，能給予反饋，是我國擅長的領域；三是工具鏈層，未來需要面臨的課題是如何讓普通的開發者、公測人員根據工具鏈迅速開發出人工智慧的解決方案，使其生產力釋放出來。

而商湯以往、現在以及未來持續會做的就是，在演算法精度不斷提升的前提下，拓展智慧城市從1到N的業務邊界、促進2D的感知到3D世界的落地，以及現實到虛擬現實的融合。

2014年商湯糰隊發表DeepID系列人臉識別演算法，使其全球首次超過人眼識別率，人臉識別超越肉眼突破工業應用紅線，之後隨著技術的持續進步，業務也不斷突破邊界，從相對簡單的1：1識別，向1：N進發。

王曉剛列舉了數據，在門禁、閘機等通行場景中，一棟大樓或公司有1、2萬人的資料庫，智慧城市的資料庫可能達到幾十萬的量級。商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展，王曉剛認為人臉會逐漸成為人的身份標誌。

另外，在3D的應用上，商湯的3D人臉識別方案也已經在很多手機上得到應用。王曉剛現場展示了手機上通過3D攝像頭拍攝的人臉、物體以及人體圖像進行3D重建，未來2D的相冊還能拓展到3D相冊。人體的跟蹤上也從2D延伸到3D，目前商湯已將其應用於體感遊戲。

雲從溫浩：《泛在智能城市下的人機協同平台》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

雲從科技聯合創始人溫浩

人工智慧如何落地？

溫浩提出一定要構建「感知、認知、決策」的智能經濟的AI閉環。創業公司必須感知、認知、決策環節都涉及。

而場景上，可分為邊緣場景和雲端場景，但邊緣場景和雲端要根據場景進行智能的分配。

邊緣端和終端承載需要本地實時響應的推理任務，並獨立完成數據收集、環境感知、人機交互以及部分決策控制。邊緣端如自動駕駛場景中，斷網下進行獨立的本地處理；智能安防中，要對超大數據量本地處理；移動互聯網場景，要保證低功耗和數據安全；智能家居和智能製造場景，要求異構和實時響應。

雲端則負責承載智能數據分析、模型訓練和部分對傳輸帶寬要求不高的推理任務。

溫浩認為，目前AI還並不成熟，很多產業中的需求也很多樣。而為了解決這一問題，應該實現「人機協同」。

人機協同有幾個階段，第一是要做人機交互，首先讓機器知道你是誰，這就是為什麼要先做人臉識別的原因。

第二步做人機融合，如銀行的產品經理，只能設計十幾種產品，但基於大數據和AI，他可以針對每個小微企業設計成百上千種AI的金融產品。

然後是人機共創，未來就可以創造一些新的場景、新的業務，新的服務、新的流程。如零售門店可以進行二次陳列，和精準引流，這就是人機共創。

曠視孫劍：《深度學習變革視覺計算》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

曠視首席科學家孫劍

曠視首席科學家孫劍從視覺智能、計算機攝影學以及視覺計算等方面介紹了計算機視覺研究領域的變革。

孫劍也回顧了深度學習發展的歷史。他介紹道，深度學習發展到今天並不容易，過程中遇到兩個障礙：

第一，深度神經網路能否很好的被訓練，在今天深度學習成功之前被很多人懷疑。相比傳統的機器學習理論，深度學習神經網路的參數要比數據還要大10倍甚至上百倍，如何很好地學習出來，很多人並不相信。

第二，當時的訓練過程非常不穩定，論文即使給出了神經網路訓練方法，但其他研究者很難把結果復現出來。

這些障礙直到2012年開始慢慢被解除。

孫劍認為，在很多實際中，深度學習和傳統機器學習最大的差別，就是隨著數據量越來越大，用更大的神經網路就有可能很大程度上超越人類的性能。

而具體到計算平台上，包括雲、端、芯上的很多智能硬體。目前的一個趨勢是如何自適應地根據計算平台做自動模型設計，最新的方式是用權重分享的方式。

在這方面，曠視提出了Single Path One-Shot Nas的新方法，分為兩步：第一步是訓練一個SuperNet，是一個超網路，包含任何想搜索的子網路，先訓SuperNet所有的權重；第二步是搜索sub-nets子網咯，好處是第二步不需要訓練，非常高效，訓練時間是正常訓練時間快1.5-2倍，可以得到非常好的效果。目前在多個測試集上得到了領先的結果。

此外，為了構建核心技術，曠視還打造了自研的人工智慧框架Brain++，包括具備多中心、強大算力的Brain++ Infrastructure，公司全員使用的深度學習引擎Brain++ Engine，以及整合最新模型搜索的AutoML技術；同時，曠視還有人工智慧數據管理平台Data++，藉助演算法輔助數據清洗和標註。

澎思申省梅：《後深度學習時代的智能視覺技術落地》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

澎思科技首席科學家申省梅

作為人工智慧領域嶄露頭角的公司，申省梅介紹道，澎思科技從感測器-圖像處理到3D幾何，從機器學習到深度學習，到增強學習，從監督學習到半監督、無監督學習都有布局，團隊擁有計算機視覺全棧技術，並在人臉檢測和識別、行人檢測和跟蹤、行人再識別、車輛識別、自動駕駛、移動操作機器人等多項大賽中拿到冠軍。

在限制條件下的人臉識別已經取得了很好的成績，但對於如何提高非受限條件下的動態人臉識別效率，申省梅認為除了在人臉識別技術上不斷提高外，還要從源端著手，採用圖像增強的方法，用AI圖像增強，去除運動模糊、降噪、去抖動、去霧、去雨、去雲等。

另外，在視覺的落地上，申省梅認為應該堅持「以商業價值為導向的演算法開發」。用「最有效的演算法+最經濟的軟硬體」解決客戶的剛需，更重要的是，演算法-軟硬體變動更新速度，要快速對接客戶的不同需求，形成敏捷而有價值的運營模式。

而要得到一個好的模型也並不容易。申省梅判斷，獲得最佳視覺模型最簡單的規則是，足夠多的平衡數據、足夠好的數據標註、足夠深的網路。隨著大量數據的生成，半監督無監督的探討有所突破，計算機視覺的未來發展十分樂觀。隨著工業界對計算機視覺的持續青睞，眾多企業將結合實際應用場景來剪枝優化遷移，不斷開拓新的應用領域，人工智慧行業的發展還遠沒有到巔峰，還有眾多的落地機會。

英國皇家科學院Demetri Terzopoulos：《視覺智能的未來》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

三院院士 Demetri Terzopoulos

Demetri Terzopoulos講解了虛擬視覺的應用，及其在智慧城市中起到的作用。Demetri Terzopoulos認為，虛擬視覺實際上包含了各種組合以描述感覺，計算機圖形、計算機視覺都是視覺計算的領域。

他所做的一項重要的工作就是虛擬人類生命的模型，然後基於物理的虛擬世界或現實的計算機圖形，渲染這些世界，用虛擬事實表現視覺。

Demetri Terzopoulos以其以往的實驗為例，這些實驗中包括對人體的肌肉和運動的模擬，及體感遊戲中對環境和遊戲角色的模擬。這些虛擬視覺還能應用於模擬多個攝像頭、對多個人體運動的追蹤，體現攝像頭採用怎樣的拍攝角度對人進行拍攝，多個攝像頭間如何形成更好的聯動。

虛擬視覺的優勢在於，可以通過加速設計測試和科學方法應用於這些系統，從而對現實進行演示。一直以來，虛擬系統正變得越來越現實。從長遠來看，虛擬現實應該和我們生活於其中的物理現實不再有區別。

Demetri Terzopoulos還對未來的工作進行了展望，未來他們將構建物理感測器網路，將演算法移植進去，將它們部署到現實世界中的物理網路中，當然這還需要更好的虛擬攝像機。

而未來，更大的感測器網路可能在天空中，無人機等，甚至整個城市。

千視通胡大鵬：《千視通AIoT智慧社區無感通行》

重塑技術與商業模態「智慧城市·視覺智能」專場回顧

千視通聯合創始人兼CTO胡大鵬

又一企業殺進了智慧園區的市場。此前提出了「AIoT場景融合戰略」的千視通胡大鵬介紹道，千視通目前正專攻三維人臉，同時將Face-ID和ReID融合起來，打造「無感通行」。

二維視覺有什麼問題？胡大鵬提出，二維人臉主要在非約束條件下存在問題，在角度比較大，強烈照度的情況下準確度會不停下降，如側光、逆光、暗光等都會導致演算法不準。

而三維人臉的應用優勢，首先是可以防偽，適合對安全、保安標準比較重要的行業，然後是光線、不同的人臉照度，以及化妝問題，都能有更好的解決。

什麼是無感通行？胡大鵬提出希望利用不同攝像頭提取出關鍵的車、人、物等，將其都關聯起來。例如人進入園區，通過閘機，去哪裡都可以用人臉+ReID整合進來。通過每個時間段的軌跡，分解出每一個人、車、物的屬性，可以做到無感出入、無感考勤、無感追蹤、無感布控等，在園區、社區、校園、零售等不同的場景應用。

「智慧城市·視覺智能」專場結語：視覺落地，去偽存真

計算機視覺無疑是AI領域最熱門的研究與應用方向，目前視覺智能技術已落地至手機、家居、交通、零售、安防等各個城市戶外場景與城市戶內生活當中。

但一方面智能視覺，在向著準確率高歌猛進，另一方面，準確率在多大程度上轉化成了應用的效益，仍是個問題。

而計算機視覺起家，經過打磨的AI企業們，也開始走自己的差異化路線以圖破局。

智能視覺企業們正逐步由以技術驅動業務，拿「鎚子找釘子」的狀態演進成以「業務」為重心的發展模式：左手「技術的詩和遠方」，研究更前沿的演算法，使得AI具備更強大的識別精度和認知能力；右手「經營的田間地頭」，讓視覺產品在保證高精度的前提下，大幅降低前期研發與後期運算成本。

腳踏實地，仰望星空，智能視覺企業們正探索更遠大的方向，AI掘金志也將再度站在演算法、工程和產品的最前沿，推動行業認知升級。

我們將會在本次峰會後，在「AI投研邦」上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書，包括機器人前沿專場、智能交通專場、智慧城市專場、AI晶元專場、AI金融專場、AI醫療專場、智慧教育專場等。「AI投研邦」會員們可免費觀看全年峰會視頻與研報內容，掃碼進入會員頁面了解更多。峰會期間專享立減399元福利，可進入頁面直接領取，或私信助教小慕（微信：moocmm）諮詢。（最後一天50個名額，速搶。）雷鋒網雷鋒網雷鋒網

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷鋒網 的精彩文章:

※12 英寸 MacBook 和前代 MacBook Air，退出了歷史舞台
※語音識別巨頭 Nuance 推出 ACI 技術，「無感體驗」讓醫生擺脫臨床文檔負擔

TAG:雷鋒網 |

重塑技術與商業模態 「智慧城市·視覺智能」專場回顧

重塑技術與商業模態「智慧城市·視覺智能」專場回顧