密歇根大學研發新軟體提升無人駕駛汽車的計算機視覺能力

科技 07-11

（圖片來源：密歇根大學官網）

蓋世汽車訊據外媒報道，在進行探測「極度虛假」視頻的項目中，密歇根大學（University of Michigan）的工程師研發出一種軟體，可利用視頻片段提高計算機追蹤物體的能力，而且計算機的物體追蹤能力平均提高了11%。該軟體名為BubbleNets，可為人類選擇出最好的視頻幀，以便進行人工注射。除了能夠幫助訓練演算法識別出被篡改的視頻片段，該軟體還能夠提升無人駕駛汽車、無人機、監控和家庭機器人等新興領域內的計算機視覺能力。

目前分析視頻片段的軟體都需要依靠人工在視頻中標記物體，如標記人、動物和車輛。隨後，「視頻物體分割」演算法將通過視頻，跟蹤此類物體的邊界。

如今的先進「深度學習」程序需要人類只標出單個視頻幀，而通常呈現給人類的視頻幀都是視頻的第一幀，在很少的情況下，該視頻幀會是最佳選擇。但是截至目前，也沒有自動化的方法選出更好的視頻幀。

因此，當美國國防部研究計劃局（DARPA）要求能夠自動選出更好的視頻幀，密歇根大學研究團隊對此表示很懷疑，認為無法實現，因為該軟體都不知道人們需要跟蹤的是什麼，怎麼能夠推薦視頻幀呢？

但是，依靠深度學習技術，密歇根大學研究人員發現無需選擇出最佳的已經有注釋的視頻幀，演算法就可以做到這一點。他們所面臨的挑戰是創造足夠多的「訓練」數據，讓演算法能夠從大量的例子中得出自己的結論。

研究人員研究了60個視頻，此類視頻中每一幀都已經有注釋。如果研究人員提問：「每個視頻中哪一幀的注釋最好」，他們只會得到60個訓練數據。相反，利用「BubbleNets」軟體，研究人員可以一次比較兩個視頻幀，該軟體可以預測，如果選擇某一幀進行人工注釋，可以讓視頻分割處理軟體更貼近物體的邊界，從而可為他們提供近74.5萬對視頻幀，以訓練該演算法。

很難確切地說明BubbleNets在已經有注釋的視頻幀中在尋找什麼，但是測試顯示該軟體更喜歡的視頻幀是：

1、? 不是特別靠近視頻開頭或結尾的視頻幀；

2、? 看起來與視頻中其他幀相似的視頻幀；

3、? 顯示了物體清晰圖像的視頻幀。