Google添加局部化敘事註解補充Open Images數據集

科技 02-28

Google發布了Open Images V6，這擴展了Open Images數據集註解，加入像是狗接飛盤這樣的視覺關係，以及女人跳躍等人類動作註解，還添加了大量的圖片等級（Image-Level）的註解，圖片等級註解為整張圖像提供整體的註解。特別的是，這個補充數據集還多了局部化敘事（Localized Narrative）註解，這是一種全新的多模式註解決方案式，可以在對象描述上同步語音、文本和滑鼠軌跡。

Google提到，局部化敘事的目的之一，便是研究以及利用視覺和語言之間的關聯，配對圖像以及人類撰寫的描述，也就是為圖像加上圖說。而圖像加圖說的限制，則是缺乏視覺基礎，也就是無法將圖像內容對應到文本描述中，（下圖中）過去的方式是將文本描述中的名詞，在圖像中以各種顏色搭建出最小邊界框（Bounding Box）。

而在Google的局部化敘事中（上圖右），每個在文本描述中的單詞都是基礎，局部化敘事由註解者產生，註解者提供圖像的語音描述，並同時將游標移到描述的圖像區域上，Google表示，語音註解是方法的核心，因為可以將描述和參照的圖像區域關聯起來。而為了使描述更容易訪問，註解者會手動轉錄他們的描述，並與自動轉錄的結果進行比對，以恢復描述的時間戳，確保語音、文本和游標軌跡正確且同步。

由於同步語音和游標指示很直觀，所以Google並沒有給註解者很明確的任務說明，因此註解者可能會以螺旋或是畫下底線的方式在圖上註記，而這可能為Google未來的用戶介面設計研究，帶來新的想法。新加入的局部化敘事註解數據集非常豐富，滑鼠軌跡總長有6,400公里，不停播放所有的描述語音，則需要花費1.5年的時間。

在Open Images V6中，Google還增加視覺關係類型註解，添加像是男人踩著滑板、男人女人牽著手，以及狗接住飛盤等範例（下圖）。Google提到，在計算機視覺中，圖像中的人是計算機視覺感興趣的重點，而對於許多應用程序來說，了解圖像中人們的行為則至關重要。Open Images V6還包含了跳躍、微笑和躺下等獨立動作。另外，Google也增加了2,350萬個經人工驗證的圖像等級標籤，因此現在於2萬類別中，已經有接近6,000萬個標籤。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

請您繼續閱讀更多來自 十輪網 的精彩文章:

※ThinkMod轉接卡讓舊筆記本加裝NVMe SSD成真！
※McAfee買下瀏覽器隔離技術開發商