揭秘MIT-IBM Watson AI,如何教機器識別行為
一個人在觀看視頻時,很容易辨別不同情景下相同類型的動作,比如一扇打開的門,一本正在閱讀的書,一朵盛開的花,一隻打哈欠的狗,等等。但是對計算機來講,識別這些動作還是存在一定難度的。
「計算機模型在辨別這些東西上慘敗於人類。那麼,人類是如何毫不費力地做到這一點的呢?「MIT-IBM Watson AI實驗室的首席研究員兼IBM Research的工作人員Dan Gutfreund問道。
「我們人類可以完成在空間和時間上處理信息。怎麼做才能讓計算機模型也擁有這項能力呢?」其實,這個問題的答案也是MIT-IBM Watson AI實驗室正在進行的一項新項目背後的重大意義。
MIT-IBM Watson AI實驗室是人工智慧前沿領域研究的合作項目,於去年秋季啟動,旨在讓麻省理工學院和IBM研究人員合作,一起研究人工智慧演算法,人工智慧在工業中的應用,人工智慧的物理原理以及通過人工智慧來共同推進社會的進步。
Moments in Time是由該實驗室進行的與AI演算法有關的項目之一。Gutfreund和麻省理工學院計算機科學與人工智慧實驗室的首席研究科學家Aude Oliva是這一項目的主要研究人員,同時,他們也是MIT-IBM Watson AI實驗室的執行主任。
簡單來說,Moments in Time建立在一個收集了100萬加註釋的動態事件的視頻的基礎上,會在三秒鐘內展開,而Gutfreund和Oliva要做的是使用這些片段來解決人工智慧的下一個重大問題——教機器識別行為。
這個問題聽起來很複雜,它是如何實現的呢?
從動態場景中展開學習
研究人員表示,他們的目標是提供深度學習演算法,對視覺和聽覺的時刻生態系統進行大範圍的覆蓋,以便讓模型能夠學習非監督方式教授的信息,並推廣到新的情境和任務。
「隨著成長,我們會環顧四周,觀察移動的人群和物體,聽他們發出的聲音。人類有很多視覺和聽覺體驗,人工智慧系統也需要以相同的方式進行學習,獲得視頻和動態信息。」
對於數據集中的每個動作類別,如烹飪,跑步或打開物體,每個都有超過2000個視頻。這些短視頻可以讓計算機模型能夠更好地了解特定行為及其意義和其多樣性。
Oliva補充說:「這個數據集可以作為開發AI模型的新挑戰,它可以擴展到人類日常工作的複雜性和抽象推理的水平。」不同的事件包括了不同的人物,對象,動物和自然環境。它們可能在時間上是對稱的,舉個例子,打開意味著以相反的順序關閉。它們可以是暫時的,也可以是持續的。
Oliva和Gutfreund以及來自MIT和IBM的其他研究員共同合作,以解決諸如怎樣選擇注釋的動作類別,在哪裡尋找視頻已經怎樣組合多種陣列讓AI系統學習沒有偏見等技術問題。該團隊還開發了用來擴展數據集的機器學習模型。
「我們非常一致,因為我們有一樣的熱情和共同的目標,」Olivia表示。
增強人類智能
實驗室的一個關鍵目標是AI系統的發展,用於解決更複雜的問題,並從強大和持續的學習中受益。對此,IBM Research首席運營官Sophie V. Vandebroek表示,「我們正在尋找新的演算法,不僅可以利用大數據,還可以從有限的數據中展開學習以增強人類智能。」
除了配合每個組織的獨特技術和科學優勢外,IBM還為麻省理工學院的研究人員帶來了大量資源,以未來10年2.4億美元的AI投入為標誌,致力於MIT-IBM Watson AI實驗室的研究。根據研究人員的說法,MIT-IBM對AI的研究是有益的。
迄今為止,該實驗室的定性結果表明,其模型能夠很好地識別動作額框架和閉合度,但當類別細化或存在背景混亂的情況時,它們會出現問題。Oliva稱,麻省理工學院和IBM研究人員已經提交了一篇文章,描述了在數據集上訓練的神經網路模型的性能,而這個模型本身被共享的觀點深化過的。
※未來AI發展趨勢:想像力將成為AI研究員最重要的技能
※人工智慧領域興起環境計算,亞馬遜谷歌已經進入
TAG:人工智慧觀察 |