AI變身記:不光能有人的智能,還要像狗一樣「思考」
譯者 | 林椿眄
編輯 | Just
【人工智慧頭條導讀】通常,我們的人工智慧系統都是以人的視角去構造的,這些系統已經用於自動駕駛、人臉識別、操作重型機器,甚至檢測疾病。那麼,我們可以從動物的角度構建一個智能系統嗎?比如讓 AI 去模擬狗的行為。
華盛頓大學與 Allen 人工智慧研究所的研究人員最新的論文公開了他們開發的一種深度學習系統,該系統可以訓練並模擬狗的行為特徵。研究人員表示訓練智能機器的目標是使其能夠充當一個智能視覺體的角色。不過,讓智能機器充當狗的角色這個想法是非常具有挑戰性的任務。
▌簡介
我們研究了如何直接構建一個視覺智能體(visually intelligent agent)。通常,計算機視覺技術專註於解決與視覺智能相關的各種子任務。但我們的研究不同於這種標準的計算機視覺方法。相反,我們嘗試直接構建一個視覺智能體,我們的模型將視覺信息作為輸入,並直接預測智能體在未來的行為。
此外,我們引入了 DECADE 數據集,這是一個以狗的視角所搜集的狗的行為數據集。利用這些數據,我們可以模擬狗的行為和動作規劃方式。在多種度量方法下,對於給定的視覺輸入,我們成功地構建了一個視覺智能體,它能夠準確預測並模擬狗的行為。不僅如此,與圖像分類任務學到的特徵表徵相比,我們的智能體學習到的特徵能夠編碼不同的信息,也可以推廣到其他領域。尤其需要指出的是,通過將這種狗的建模任務作為表示學習,我們在可行走區域預測和場景分類任務中取得非常卓越的結果。
▌方法與模型
為了訓練,研究人員使用了一個叫做 Kelp 的阿拉斯加雪橇犬,並在其腿部配備了 GoPro 相機,尾部和後備箱上配備六個慣性測量感測器,一個麥克風以及一個把這些數據綁在一起的 Arduino 開發板。研究人員在超過 50 個不同的地點,在長達數小時的時間內,記錄了 Kelp 的活動數據,如步行、追蹤、抓取,與其他狗互動以及跟蹤物體等。利用英偉達提供的 GeForce GTX 1080 GPU,TITAN X GPU 以及 cuDNN 加速的深度學習框架,研究人員用所獲得的視覺和感官信息來訓練神經網路。
在這裡,研究人員解決了三個問題:
像狗一樣行動:根據一系列先前看到的圖像,神經網路的目標是預測狗未來的運動軌跡;
像狗一樣規劃:目標是找到一系列動作,讓狗在給定的一對圖像的位置之間移動。
從狗身上學習:我們將學習的表現用於第三項任務(如可行走的表面評估(Walkable surface estimation),預測狗的可行走區域)。
這些任務需要一些相當複雜的數據:例如,就像真的狗一樣,我們的 AI 系統必須知道,當它需要從一個地點移動到另一地點的時候,可行走區域的位置有哪些。它不能在樹上或汽車上行走,也不能在沙發上行走(這也取決於房子)。因此,我們的模型也要學會這一點,它可以作為一個獨立的計算機視覺模型,在一張給定圖像中找出一個寵物(或一個有足機器人)所能夠到達的位置。下面我們將逐一介紹這三個任務所用到的模型結構。
這是用於模擬狗的行為的模型結構。這個模型是一個編碼-解碼器結構的神經網路,編碼器接收成對的圖片流作為輸入,而解碼器輸出每個節點未來的行動決策。在編碼器和解碼器之間有一個全連接層(FC),它能夠更好地捕捉區域內的行為變化。在解碼器中,每個時步輸出的行動概率將被用於下一個時步(timestep)。我們在兩個 ResNet 中共享模型的權重參數。
這是用於規劃狗的行為的模型結構。這個模型是卷積神經網路 CNN 和長短期記憶模型 LSTM 的結合體。模型的輸入是兩張圖片 I1 和 IN,這是在視頻系列的第 N-1 時間步截取來的數據。長短期記憶模型 LSTM 接收 CNN 的特徵作為輸入,並輸出狗從 I1 移動到 IN 過程的行動序列。
這是用於可行走區域預測的模型結構。我們用 ResNet 模型的後四層,對其進行卷積、反卷積來推斷可行走區域。
▌評估指標
在實驗評估階段,我們使用多種不同的評價指標來綜合地評判我們的方法,包括分類精度、混淆度(perplexity)等。
定量分析結果:我們展示了模型識別視頻中 5 幀數據的結果,視頻中一個男人開始向一隻狗投擲一個球。在視頻中,當球飛向那隻狗時,狗會向右方移動以躲避球飛過來的方向。僅僅使用這 5 幀數據,模型就能夠在球飛來時準確地預測出狗的移動方向。
▌實驗結果
「像狗一樣行動」的結果: 我們觀察了 5 幀的視頻序列並預測了接下來的 5 個動作。
「像狗一樣規劃」的結果:在開始和結束幀之間進行規劃, 我們考慮了相隔 5 步的起始圖像。
持續評估和全節點評估。在第一欄中數值越低越好,在第二欄中數值越高越好。
「步行式表面評估」結果。我們將在 ImageNet 上訓練的網路結果與為我們做任務訓練的網路進行了比較。 評估指標是 IOU。
實驗結果表明,我們的模型能夠在不同的情況下學習並模擬狗的行為,並像狗一樣的規劃並採取行動。
在研究報告中,研究人員指出,「狗的行動空間比人類要簡單得多,這使得我們的任務更加易於處理。然而,它們能夠清楚地表現出智能視覺的能力,如識別食物、障礙物、其他人類和動物,並對這些輸入做出相應地反應,但我們對於這些行為的目標和動機常常知之甚少。」
▌未來展望
研究人員提到,他們的評估實驗顯示出有趣而富有希望的結果。他們的模型可以在各種情況下預測狗的行為,並能像狗一樣採取行動,還能像狗一樣計劃如何從一種狀態轉移到另一種狀態。
在未來的應用中,研究團隊表示這只是一個初步的實驗。他們打算從多隻狗身上收集更多數據(建立多樣的資料庫),並考慮引入更多的感官信息,如找到一些捕捉聲音、觸覺和嗅覺的方法。他們希望這項工作能夠為人類更好理解視覺智能和生物智能奠定基礎。
論文鏈接:https://arxiv.org/pdf/1803.10827.pdf
https://news.developer.nvidia.com/researchers-train-ai-to-think-like-a-dog/
※免費!微軟的AI培訓課程來了
※Google發布最新「語音命令」數據集,可有效提高關鍵詞識別系統性能
TAG:人工智慧頭條 |