專訪格靈深瞳鄧亞峰:計算機視覺通往光明的未來之路才剛剛開始
雷鋒網 AI 科技評論按:目前,儘管人工智慧領域頻頻湧現「人工智慧寒冬」的擔憂,然而無論是企業圈還是學術圈,擁抱人工智慧的熱情只增不減。在這種背景色中,和語音識別、自然語言理解一起並稱為人工智慧三大主要技術領域的計算機視覺,更成為了 Google、微軟、百度、騰訊等國內外科技巨頭重點發力的研究領域,以及創業公司進入人工智慧領域的重要切入口。
而隨著深度學習、人臉識別、物體識別、圖像分割、三維重建等技術迎來蓬勃發展以及演算法性能大幅提升,計算機視覺在機器人、自動駕駛、AR/VR、醫療等多個領域得到廣泛應用,不過,在實際的應用場景中,仍有很多新的技術需求和研究挑戰有待解決和突破。對於計算機視覺在實際應用場景中的技術需求,企業圈往往比學術圈了解得多一些;而對於這一領域面臨的挑戰,創業公司或許更加深有體會。
在雷鋒網 AI 科技評論的專訪中,人工智慧創業公司格靈深瞳 CTO 鄧亞峰既從一家創業公司的角度,也從一位在計算機視覺領域深耕 16 載的科學家的視角,針對計算機視覺的發展以及在應用場景落地方面所面臨的挑戰等問題表達了自己的見解。
鄧亞峰,現任格靈深瞳信息技術有限公司首席技術官,畢業於清華大學,具有 16 年的計算機視覺和人工智慧方向的研發經驗。在過去的工作中,他發表過論文十餘篇,申請中國專利超過 100 項,其中已經授權的有 95 項。他曾任職百度深度學習研究院,負責人臉識別方向,曾經多次帶領團隊在主流的人臉檢測、人臉識別競賽上取得過優異成績。其主要的興趣是關注人工智慧特別是計算機視覺技術如何從技術、產品和商業角度在真實世界中大規模落地。
計算機視覺的重要性和研究進程沉浸計算機視覺領域十幾年,鄧亞峰對於計算機視覺在整個人工智慧領域的地位和影響有著非常深刻的理解和體會,他表示:
一方面,人獲取信息的方式有很多種,其中 80% 左右獲取的信息來自於視覺,視覺本身對於人類的重要性不言而喻,承載這一感官的計算機視覺技術也會對人類以及其所在世界的各個領域產生重要的影響;
另一方面,計算機(機器)視覺是目前最活躍也是投資額最高的人工智慧領域之一,它從應用角度來看非常重要,機器人、自動駕駛、智慧醫療、智慧城市、智慧工業、智慧商業、增強現實等多個 AI 應用領域都依賴機器視覺技術。
計算機視覺領域歷經 50 多年的發展,到今天為止,在深度學習技術的推動下已經取得了長足進步,可以在一些應用領域達到實用水平,甚至在一些場景下已經超越了人類的水平。而技術逐漸能夠在應用領域達到實用水平,也是計算機視覺領域不斷吸引大企業不斷投入和創業公司不斷湧入的重要原因。
針對當下 Google、微軟、Facebook 等國外科技巨頭與百度、騰訊等國內科技巨頭競相發力計算機視覺領域,AI 科技評論也從中美兩國的層面上,問到了鄧亞峰對於二者在這一領域的研究進程、側重點的差異以及各自優劣勢的看法。他說道,在這一研究領域中,華人(包括在國外工作的中國人)是非常重要的一股力量,例如在計算機視覺頂級會議的接受論文中,華人學者大概可以佔到 40%+。相對而言,美國在基礎研究領域有更好的氛圍、政策,也吸引了更多的人才,這都使得其在基礎技術方面比中國更有優勢;而中國在應用方面則更活躍,更有優勢,其擁有比美國更巨大的市場、更多數量的數據和更寬容的政策,比如在創業公司數量、融資額度,以及人臉識別等技術水平方面,都是中國更領先。
計算機視覺領域應用場景落地方面的挑戰雖然國內外科技企業以及領域研究學者都積極地推動計算機領域的突破和前進,人臉識別、視頻結構化等一系列技術也逐漸走向成熟,但是實際上我們也可以明顯看到,現在計算機視覺領域真正的大規模成熟應用還是屈指可數。對於計算機視覺技術在應用場景落地方面存在的瓶頸和問題,他指出,一項技術能否大規模落地,取決於性能指標(準確率、速度)、成本、場景適應性以及創造的價值等幾個因素。目前看,計算機視覺技術在上述幾個方面都或多或少存在著一些問題。後續,對於準確率和場景適應性,將主要取決於演算法方面的精雕細刻、數據量的增長以及算力的提升;而速度和成本方面,則主要取決於硬體的發展以及異構計算優化手段的進步。另外,對於可以創造價值的計算機視覺技術,則需要為其不斷找到更有價值、更適合落地的產品場景。
從他的回答中,我們其實不難發現,現在計算機視覺所面臨的應用場景落地方面的挑戰很大程度上還是來自於底層技術,其中就包括已成為計算機視覺「標配」的深度學習與數據的規模間的平衡問題:一方面,深度學習對於大規模數據具有非常強的依賴性;另一方面,在很多現實應用場景中又往往難以獲得大規模的數據。對此,鄧亞峰指出,深度學習對數據的依賴是由於其模型學習過程中的優化方式決定的,如果想根本上改變,需要優化方式有非常巨大的突破,而這在短期內是比較難實現的。
儘管深度學習與大規模數據平衡問題在短期內無法得到理想化的解決方法,但鄧亞峰也針對該問題提出了當下可行性較強的解決方案:
首先,可以考慮減少數據依賴的方式,比如利用遷移學習思路以及其它領域的數據訓練模型的基底,再用少量領域數據去學習;又比如利用半監督或非監督方法,將大量的未標註數據利用起來。
其次,還可以考慮利用問題的約束條件,加強對模型的約束,提升泛化能力,減少對數據的依賴。
數據增廣也是非常重要的提升數據量的方法,不過在目前的技術條件下,在工業界,如何低成本獲取大量標註數據依然應該是最先被想到的方法。
在探討了計算機視覺領域所存在的諸多來自技術和應用場景落地方面的挑戰後,鄧亞峰還是對自己從事了十幾年的計算機視覺的發展和應用,懷抱堅定的信心:「相對於人的水平而言,特別是一些非常有挑戰的場景下,很多視覺任務依然無法達到實用要求。但我非常相信,在計算硬體發展(特別是人工智慧晶元)、演算法進步、應用數據產生以及場景優化的共同推動下,會有越來越多的視覺任務達到使用要求,開始落地產生實用價值,並最終形成商業價值、產品、技術、人才的良性循環,在未來二十年甚至更久對世界產生深遠影響。某種意義上,通往光明的未來之路才剛剛開始。」
深耕機器視覺領域十六年、曾發表多篇論文、獲得多項專利,還曾帶領團隊開發出世界第一的人臉檢測、人臉識別演算法,而當被問及「怎樣看待自己在研究生涯所取得的成果和為該領域所帶來的影響」,鄧亞峰也流露出科學家們一貫的謙遜態度,「作為計算機視覺領域的一名老兵,我參與了很多事情,也培養了一些小朋友,但和許多優秀的朋友相比,我還差了很遠。之所以我可以在這個領域堅持下來,並做了一些事情,主要是因為自己很喜歡這個領域,並看好其未來的價值。我過去所做的事情,嚴格來講,還沒有一件能夠對行業產生真正的影響,希望自己有生之年可以做出一些對產業和領域有價值和真正影響的事情。 」
大規模視覺計算系統的現實意義在即將召開的 GIAC 全球互聯網架構大會上,鄧亞峰將作為聯席主席以及 AI 專場出品人兼講師,給大家帶來「如何打造大規模視覺計算系統」的演講。本次他將主要從演算法、數據、計算等角度來分析打造大規模計算系統上的難點、關鍵點以及大規模視覺計算系統的現實意義。
「計算機視覺的終極目標是希望讓各種視覺感測器擁有智能,理解物理世界中人、車、物的特徵、身份、行為、關係,將物理世界數字化。目前為止,還沒有產生真正的大規模視覺計算系統。打造大規模視覺計算系統的難點和關鍵在於:
一是需要不斷提升演算法的準確性和場景適應性,才能在海量數據中,產生可以接受的錯誤;
二是需要不斷提升演算法的效率並降低成本,使得對於海量數據的處理時間和成本可以承受;
三是需要配合大數據技術挖掘跨感測器目標間的關係。
一旦能夠真正打造出成本可接受的大規模視覺計算系統,那麼其將會在智慧城市、智慧商業等很多領域中對安全、管理和商業運營都會產生巨大的影響,使得線下世界將可以用更加智能、數字化的方式運營,線下世界和線上世界將融合打通,產生更多的商業模式和價值。」
最後,他也表達了自己對於本次參加論壇的計算機科學研究和從業人員的期待:「大家拿出寶貴時間來參加大會,表明大家非常熱愛技術,希望學習到知識。我希望大家對我組織的部分感興趣,我也希望通過這次活動結識更多的朋友,更希望我講解的內容能幫助大家了解機器視覺方向的前沿技術、關鍵因素以及應用方向,能夠讓大家少走彎路。 」
鄧亞鋒 格靈深瞳 CTO
11 月 23 日 14:30-15:30《如何打造大規模視覺計算系統》
11 月 23-24 日,由 msup 和高可用架構社區聯合主辦的 GIAC 全球互聯網架構大會將於上海淳大萬麗酒店舉行。GIAC 是中國互聯網技術領域一年一度的行業盛事,組委會從互聯網架構最熱門系統架構設計、工程效率、機器學習、未來的編程語言、分散式架構等領域甄選前沿的有典型代表的技術創新及研發實踐的架構案例,分享他們在本年度最值得的總結、盤點的實踐啟示。
本次大會共有 5 大板塊方向,20 場技術專題,70 個互聯網架構案例。目前已確定有微軟、騰訊、阿里巴巴、螞蟻金服、華為、科大訊飛、新浪微博、京東、七牛、美團點評、餓了么、才雲、格靈深瞳、Databricks 等公司專家出席,圍繞新興編程語言、區塊鏈、大前端、微服務、大數據&AI、音視頻、Cloud Native 等專題分享他們的實踐經驗、遇到的問題及解決方案。
關於 GIAC 大會的更多信息,請前往 http://2018.thegiac.com/?qd=leifengAI查看。雷鋒網
※阿里巴巴宣布:馬雲一年後辭任董事局主席 現任CEO張勇接棒
※教師解放新前沿:讓機器給作文打分
TAG:雷鋒網 |