人工智慧正驅動機器人發展
專業 服務
聚焦機器人產業
致力智能系統技術
GIF
上一代機器人依賴的是計算智能,這個時代的機器人通過各種感測器在一定程度上實現了感知智能,未來的機器人將進一步實現高性能的感知智能並且實現認知智能的效果。人工智慧驅動機器人發展主要是基於人工智慧的四個元素:Perceiving(感知)、Learning(學習)、Reasoning(推理)和Behaving(行為)。本文整理自2018深圳國際機器人與智能系統院士論壇上IEEE Fellow 優必選悉尼大學人工智慧研究院陶大程教授名為《Robots driven by AI》的演講稿。
IEEE Fellow優必選悉尼大學人工智慧研究院
陶大程教授
《Robots driven by AI》
機器人感知與交互能力
感知是利用各種各樣的感測器來獲取環境信息,使得機器人理解外部環境。我們目前關注的是攝像機獲取的環境信息,因為利用攝像機獲取的環境信息可以做很多東西,比如物體的檢測和跟蹤、場景分析等,這樣機器人就有機會在我們的環境中完成人所需要它完成的任務,達到機器人擴展「人」的智能的目標。
物體檢測對人來說輕而易舉,我們可以很輕鬆地從場景中檢測到這裡有一隻杯子,那裡有一個人。對於機器人來說,目標是一致的,但是實現高性能的檢測卻不容易。傳統的物體檢測是通過窗掃描來實現的。掃描窗從左上角的第一個像素開始,逐像素掃描到右下角的最後一個像素,並且掃描若干次不斷調整掃描窗的尺寸。這種方式只適合檢測某一種固定的物體,即便如此效率也非常低下。我們知道掃描的過程中產生的各種掃描窗有大量的冗餘,且很多掃描窗也不能是物體,這就驅動我們去考慮採用一個體量很小的神經網路來快速找到那些有可能包含我們所關心的物體的圖像區域。這個網路就是Proposal Network,目前已經被廣泛地採用了。獲得這些可能包含物體的圖像區域後,我們就可以使用一個高精度的分類網路,對圖像區域進行分類,這樣就能夠快速地檢測場景中的物體。
有了高效的檢測框架,我們能幹什麼事呢?舉個例子,一張照片裡面有很多人,如果讓人來數,時間代價很大。但是用機器數一下就知道了,人臉檢測器能夠檢測出來大約850張人臉;實際上拍這個照片的時候統計為1000人,因為一些人離攝像頭太遠了,解析度很低;另外,有些站在後面的人可能被前面的人擋住了。這些人臉要檢測出來還是有很多挑戰的。
機器人所處的環境是動態的,人和物體都在動,機器人的本體也在運動。機器人需要理解物體和人的行為。要理解實現行為理解,跟蹤所有的物體是必不可少的。首先說一下單目標跟蹤,這個任務的挑戰性來源於多種因素的影響,比如說光線變化、物體的變形等。要想長時間穩定的跟蹤運動物體,僅僅靠跟蹤是不夠的。通常,我們會把跟蹤和檢測放到一起。
跟蹤完單個目標之後,往往還需要跟蹤多個目標。比如在這個監控場景裡面包含了很多人,很顯然,這是一個多目標跟蹤的問題。除了單目標跟蹤遇到的各種挑戰,在多目標跟蹤裡面, 還有運動物體的互相遮擋這一挑戰。多目標跟蹤有很多應用,比如無人駕駛中,我們需要理解目標區域裡面所有人的行為。
機器人要充分理解一個場景,還非常依賴於場景分割。場景分割可以幫助機器人知道場景中有哪些物體、物體在什麼位置,包括物體的大小、體量甚至一些詳細的屬性標籤等。目前深度神經網路已經可以做到對靜態場景比較精確的標註。在運動場景中,機器也已經能夠做到相對比較精準的分割,協助完成,比如自動駕駛。實現高性能的場景分割,我們需要實現高效的多特徵、多尺度信息融合。
我們在看一個場景的時候,可以知道哪個物體離我們比較近、哪個離得比較遠。場景分割告訴我們有什麼物體,這些物體在哪裡,我們還需知道場景的深度信息,這樣我們就能夠知道物體的遠近。距離信息對於機器人在場景中的導航定位、物體抓取等都非常重要。我們知道目前大部分機器人只安裝了一台攝像機。那麼我們需要從單張照片中獲取深度信息。我們知道這個問題是非常困難的,但我們可以利用很多歷史數據對來訓練一個深度神經網路。我們把彩色圖像輸入到一個深度卷及網路,輸出是深度圖。如果我們有大量的數據對,似乎感覺就能夠實現這樣的目標。但即便如此,要想達到很好的效果也很困難。我們在做這個問題時,有兩個發現:(1)在高解析度彩色圖像上直接回歸這個深度信息是非常不準的,但如果我們把深度信息進行量化,分成若干塊,變成一個分類問題,我們卻可以達到非常好的效果;(2)我們依然需要連續的深度信息,這時候我們把彩色圖像的解析度降低,在低解析度的彩色圖像上回歸連續的深度信息,我們也能夠得到非常好的效果。剩下的問題就是如何把兩個發現有效的結合起來,實現高精度的單張圖像的深度回歸。
我們並不期望這樣的系統能夠替代16線、64線的激光雷達,畢竟回歸的精度和激光雷達的測量精度還是有很大差距的。但是,這樣的系統對於一些不需要剛精度深度信息的應用卻是非常有效的。另外,也可以和激光雷達進行信息融合,得到空間高解析度的場景深度信息。
現在的機器人識別,比如一個家庭裡面的五六個人已經沒什麼問題了。甚至稍微增加模型的複雜度,除了可以識別家庭成員,還可以識別家庭成員的朋友,大的場景在一定程度上也能夠實現,這主要歸功於深度神經網路。
人臉識別是身份認證非常直接的手段。當然,還可以通過人的行走的方式,甚至穿著信息。布局多攝像機網路的智慧城市系統中有這樣一個問題,一個人穿過若干攝像機,那麼如何把這個人的行動軌跡恢復出來?這個問題就可以通過行人重驗證來解決,甚至我們可以利用穿著信息去找特定的人。比如找一個上身是藍色衣服,下身是黑色褲子。我們就可以知道這個人在一定區域內的行動軌跡。在Market 1501的資料庫上,系統Rank-one的識別率已經超過了95%。
人機交互是非常複雜的,因為如何理解人的意圖是非常困難。那麼把這個問題簡化一下,我們首先考慮檢測人的關節點、跟蹤人的姿態。總的來說,在光線不算糟糕的情況下,基本上可以做到有效跟蹤。比如最近CMU的框架,甚至可以識別到手的關節,這樣就可以幫我們分析手的動作、甚至做手語識別。有了這樣的人體姿態跟蹤的框架,我們可以做機器人的控制,還可以分析球場上每個運動員的動作,知道他是射門還是投球。除此之外,還可以做Fine-Grained Classification,比如說識別世界上的鳥,利用關鍵點檢測技術,或者說基於我們的Pose-net,我們可以檢測到鳥的嘴、頭和腳等。然後在每個區域上提取精細的特徵,這樣我們就可以比較準確地識別出鳥的類別。
這些都只是機器視覺感知的一部分。除了視覺感知,還有自然語言理解、語音識別等。在這些例子中,我們對輸入的數據是有質量要求的。如果現實中輸入圖像或者視頻數據的質量比較差,比如有雜訊、霧霾等,都會給後續的識別造成困擾。所以,我們需要做圖像質量評價。
圖像解析度也是一個問題。現在的攝像機已經很好了,一般都可以獲取到非常高解析度的圖像和視頻,但不都是這樣,比如說攝像機離物體比較遠。當數據的解析度低的時候,檢測、跟蹤、識別都會很難,所以對解析度的提升就非常關鍵。
機器人自我學習能力
機器人在感知環境之後,它所獲取的信息對於系統性能的提升是有一定幫助的。要進一步提升機器人的性能,就需要機器人自我學習,把不同類型的信息進行有效的整合,這些都和機器學習有很多的關係。
人是一個多任務學習的實體,我們希望機器人也是多任務學習的實體。目前大部分網路都是單一任務驅動的,人臉識別就是人臉識別、表情識別就是表情識別。但是我給你一張照片你能得到很多信息,比如這個人是男的還是女的、戴眼鏡沒、甚至這個人的屬性,這就激發我們要訓練支持多任務學習的神經網路。
除了多任務學習,還有多標籤學習,給你一個圖像或者視頻,所涵蓋的標籤信息非常廣泛。這些標籤之間也是有關係的,而這個關係就是非對稱的因果關係。利用這樣的非對稱因果關係,我們可以更為有效的進行圖像識別和理解。
再就是遷移學習。舉個例子,比如我手裡有一個東西,它是圓的、紅色的,脆的,我問大家這是什麼?大家想一想可能不知道是什麼。再比如反過來,我手裡有一個蘋果,大家描述一下這個蘋果有什麼特徵?這個非常直接,你們會告訴我,這是圓的、紅的、脆的、非常好吃。傳統的遷移學習,都是基於特徵包含標籤的假設。
當我們的標籤數據是沒有雜訊的時候,我們能夠有效的訓練模型。如果標籤有雜訊怎麼辦?現在是大數據時代,數據的標籤都是通過眾包獲取的,所以有標籤雜訊很正常。
深度學習提升了系統的性能,但是模型也變得越來越大,存儲和計算都變成了問題。有什麼辦法讓深度模型變得很小?我們就要對深度模型進行壓縮。通過傳統的DCT變換,我們可以對模型進行非常有效的壓縮,同時在一定程度上提升了原始模型的泛化能力。
最後是推理和行為。比如人的行為分析:要正確理解視頻的內容,比如這個視頻是打拳擊、洗臉,還是玩遊戲。
再比如人機交互,我們怎麼教機器人來做一些事情?傳統的方式是我們通過程序設計,未來的機器人都是試教學習或者是模仿學習,讓機器人看一下,它就知道怎麼做了。
Image或者Video Captioning(看圖說話),給機器一個小視頻讓它來識別,這樣的問題難度已經不大了,但如何對內容進行精細地理解、描述,還是很困難的。
除了看圖說話,還有看圖回答問題。這對計算機來說不容易,要理解圖像,理解問題,知道如何把問題跟圖像關聯起來。
通過深度學習,結合視頻和激光雷達,我們可以檢測到所有的人和車,可以估計他們的速度,檢測到路線,對場景進行分割,分析安全區域,讓無人車完整的感知環境,甚至還可以分析人、車未來要做的動作,無人車、機器人都給人工智慧提供了非常好的展示平台。
總之,人工智慧、機器人,給未來帶來了無限可能。
TAG:深圳市機器人協會 |