超越圖像識別,機器看得懂動作!IBM和MIT鼓搗著讓機器識別動態行為
高層速讀
關鍵信息:MIT-IBM Watson AI Lab正在利用百萬規模的動作視頻數據集訓練模型,想要教機器識別游泳、關門等動作,該數據集叫做Moments in Time,可在其網站上下載使用。
關鍵數據:Moments in Time內含了100萬個標註動作的視頻,每個動作類別的視頻數量均在2000個以上,每段視頻的時間均為3秒。
關鍵意義:教機器識別動作,將是人工智慧的下一重大進展。
我們在看視頻時,很容易理解每一段視頻中所描繪的動作,比如一扇打開的門,一本打開的書,一朵盛開的鮮花或是一隻正在打哈欠的狗。而計算機模型卻不能識別到物體的「動作」。
這也是MIT-IBM Watson AI Lab正在研究的項目,該實驗室推出了一個百萬規模的視頻理解數據集:Moments in Time。它內含100萬個標註了動作的視頻,如拍手、開門、游泳、降落等,每個動作類別的視頻數量均在2000個以上,每一段視頻的時間是相同的,均為3秒。
▲數據集動作分類
Gutfreund與麻省理工學院計算機科學與人工智慧實驗室的首席研究科學家Aude Oliva,是該項目的負責人,同時,他們也是MIT-IBM Watson AILab的執行主任。
Gutfreund 和Aude Oliva正在利用這些視頻片段來推動人工智慧的下一重大進展:教機器識別動作。
▲Gutfreund 和Aude Oliva
如何教機器識別動作呢?
一、從動態的場景中學習
研究人員說,他們的目標是提供深度學習演算法,對視覺和聽覺生態系統進行大量的覆蓋,從而讓模型能夠學習非監督方式教授的信息,並推廣到新的情境和任務中。
「當我們不再是嬰兒時,我們環顧四周可以看到人和物體在移動,我們聽到人們和物體發出的聲音,我們有很多視覺和聽覺的體驗。人工智能系統也需要以同樣的方式進行學習,並通過動態視頻來獲取信息。」Oliva說。
視頻數據集中的每一個動作類別都超過2,000個視頻,這些片段使計算機模型能夠更好地了解關於特定行為和事件的多樣性。
Oliva補充道:「該數據集可以作為開發人工智慧模型的新挑戰,它可以擴展到人類日常工作的複雜性和抽象推理的水平。不同的事件包括了不同的人物,對象,動物和自然環境,它們可能在時間上是對稱的。舉個例子,打開意味著以相反的順序關閉。它們可以是暫時的,也可以是持續的。」
Gutfreund 、Aude Oliva以及MIT和IBM的其他研究人員,經常會在一起討論技術問題,比如如何選擇標註的動作類別、在哪裡可以找到合適的視頻,以及如何組合數組等,如此人工智慧系統方可毫無偏見地學習。
該團隊還開發了機器學習模型,用於擴展數據收集。 Oliva說:「我們的合作很好,因為我們有同樣的熱情和相同的目標。」
二、增強人類智能
該實驗室的一個關鍵目標是開發人工智慧系統,用於解決更複雜的問題,並從強大和持續的學習中受益。「我們正在尋找新的演算法,使其可以從有限的數據中學習,以增強人類的智力,」IBM Research首席運營官Sophie V. Vandebroek說。
除了將各自的技術和科學優勢結合起來,IBM還為MIT的研究人員帶來了大量資源,未來10年,將投資2.4億美元用於人工智慧研發。根據研究人員的說法,MIT-IBM對AI的研究是有益的。
IBM對MIT在開發基於視覺的人工智慧系統很感興趣,並稱這是一項新奇的事業。
現在,二者的合作已經達到了100萬個動作視頻數據集,用戶可以訪問他們的網站,下載數據集和深度學習模型,用以識別物體動作的研究。」
到目前為止的定性結果顯示,其模型能夠很好地識別動作額框架和閉合度,但當類別細化或存在背景混亂的情況時,它們會出現問題。Oliva稱,麻省理工學院和IBM研究人員已經提交了一篇文章,描述了在數據集上訓練的神經網路模型的性能,而這個模型本身被共享的觀點深化過的。
Oliva還提到:「IBM研究人員給我們提供了一些想法,讓我們在醫療保健和體育等領域增加動作的類別,擴大了我們的視野,他們還給了我們關於AI如何從商業和消費需求中產生影響的想法。」
Moments in Time數據集的第一版是最大的帶有人類注釋的視頻數據集,涵蓋了可視的和可聽的短事件。所有數據都被標記在339個不同類別中,包括廣泛的常用動詞或者活動標籤。
研究人員打算生成更多具有各種抽象層次的數據集,以作為開發學習演算法的基礎,同時讓這些演算法可以在事物之間建立類比,通過想像合成新事件,並完成場景解釋。
「換句話說,他們才剛剛開始,」Gutfreund說,「我們希望Moments in Time數據集能夠讓模型充分理解視頻中的動作和動態。」
分享這篇文章
與同仁共同探討AI行業動向
往期文章
「AI商業報道」現已入駐
知乎號 | 頭條號 | 百家號 | 網易號 | ZAKER
※覆蓋音樂營銷!智能數據才是音樂行業最好的營銷手段
※扎克伯格正式道歉,15項修改嚴厲把控數據使用權
TAG:AI商業報道 |