阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

新聞 07-26

機器之心專欄

作者：方廣、磐君、思淘

在 CVPR 2017 開幕當天的文章《CVPR 2017國內外亮點論文彙集：史上最盛大會議，華人佔據半壁江山》中，我們獲悉國內電商巨頭阿里巴巴共有四篇論文被接收。本文是對阿里 iDST 被接收的論文《Video2Shop: Exactly Matching Clothes in Videos to Online Shopping Images》的解讀。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

論文鏈接：http://openaccess.thecvf.com/content_cvpr_2017/papers/Cheng_Video2Shop_Exact_Matching_CVPR_2017_paper.pdf

阿里巴巴 iDST 視頻分析團隊被 CVPR 2017 收錄的論文《從視頻到電商：視頻衣物精確檢索》圍繞視頻電商業務場景，提出了一個在線視頻衣物精確檢索系統。該系統能夠滿足用戶在觀看影視劇時想要同時購買明星同款的需求。整個系統採用了目前最先進的衣物檢測和跟蹤技術。針對明星同款檢索中存在的多角度、多場景、遮擋等問題。提出可變化的深度樹形結構（Reconfigurable Deep Tree structure）利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。該結構可以認為是對現有 attention 模型的一種擴展，可以用來解決多模型融合問題。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

論文技術在天貓魔盒視頻中應用

業務場景及研究問題：視頻電商中的衣物精確匹配

早在 2014 年，阿里與優酷土豆發布視頻電商戰略，稱未來可以實現邊看邊買，使得視頻電商的概念，繼微博電商，朋友圈電商之後浮出水面。電商平台擁有少量商品，而視頻網站具有巨大的流量，二者結合是發展的必然結果。電商平台可以藉助視頻網站的流量來實現導流和平台下沉，而視頻網站則需要通過廣告點擊和商品成交來實現流量變現，因此二者的結合可謂一拍即合。視頻電商的商業主旨是打造以視頻為入口的購物服務，視頻中出現所有物體都可能是商品，提供包括邊看邊買、明星同款、廣告投放等服務，它集娛樂、休閑、購物於一體，給用戶構造出一種「身臨其境」情境營銷，或者是明星同款的衝動式消費。視頻電商目前已經不是停留在概念層次了，視頻網站向電商的導流轉化也一直在不斷的嘗試中。

影視劇中的服飾存在較大的差異性和異構性，同一個目標往往展現出較大的差異。服飾購物圖像通常具有雜亂、多樣的背景，而且常在戶外拍攝。多樣化的背景可能是建築物，街道、風景、汽車等多種情況。由於自然場景下受到光線、角度、大小、分辨率、幾何學和光度學的變化等影響，使得服飾呈現出現的外形極為複雜，即使是同一件服飾也會出現變化較大的效果。同時在線網站為更好地展示服飾的效果，通常聘請時尚模特穿著所售商品，模特/人物姿勢變化也是導致服飾變化的一個重要因素。由於以上這些因素，使得視頻明星同款搜索成為了一個極具挑戰性的技術問題。

網路結構及技術細節：

AsymNet 網路結構：整個 Asymnet 深度神經網路結構如圖 1 所示。當用戶通過機頂盒（天貓魔盒）觀看視頻時，該網路將從電商網站（淘寶、天貓）檢索到與之匹配的衣服，並推薦給用戶。為忽略複雜背景對檢索結果的影響，更準確的進行服裝定位，我們首先應用服飾檢測技術，提取得到服飾區域一組候選框。然後對這些候選框進行跟蹤，得到明星同款在視頻中的的運動軌跡。對於衣物候選區域和運動軌跡我們分別利用用圖像特徵網路（IFN）和視頻特徵網路（VFN）進行特徵學習。考慮到服裝的運動軌跡，衣物精確檢索問題被定義為不對稱（多對單）匹配問題，我們提出可變化的深度樹形結（Reconfigurable Deep Tree Structure），利用多幀之間的相似匹配解決單一幀檢索存在的遮擋、模糊等問題。後續本文將詳細介紹模型的各個部分。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

圖 1 Asymnet 深度神經網路結構

圖像特徵網路（IFN）：傳統 CNN 網路要求輸入圖像為固定的 227x227（因為 CNN 網路中的卷積層需要有一個確定的預定義的維度）。在視頻電商業務場景中，因為衣物檢測候選框為任意大小，尺度變化很大，傳統 CNN 網路無法進行有效的特徵學習。針對這一問題，我們利用空間金字塔池化結構（SPP）體系結構，如圖 2 所示。它通過空間池聚合最後一個卷積層的特徵，從而使池區域的大小與輸入的大小無關。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

圖 2 Asymnet 圖像特徵網路（IFN）

視頻特徵網路 (VFN)：為了更好的考慮視頻的空間序列模式，進一步提高衣物檢索的性能。基於 LSTM，我們提出了視頻特徵網路 (VFN)，如圖 3 所示。其中實驗驗證明兩層堆疊式 LSTM 結構能夠在視頻特徵學習中得到最佳性能。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

圖 3 Asymnet 視頻特徵網路 (VFN)

相似性網路：明星同款匹配不同於近似衣物檢索，精確匹配要求完全一致。在完全一致的要求下，傳統的通過相似性計算來進行檢索的方法，不能滿足明星同款精確匹配要求。已有的方法通常將精確匹配問題轉換為一個二分類問題，但這種方式適應性差，只能利用單一時刻的視頻幀。為了能夠利用整個衣物運動軌跡，我們提出了如下的可變化的深度樹形結構（Reconfigurable Deep Tree structure）將匹配問題轉換為邏輯回歸問題。匹配網路擬採用基於混合專家系統的邏輯回歸網路。該結構可以認為是對現有 attention 模型的一種擴展，可以用來解決多模型融合問題。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

圖 4 Asymnet 相似性網路

整個模型的目標函數是綜合考慮每一幀的匹配結果，得到基於整個衣物運動序列和電商衣物的相似性，整個系統可以建模為對如下目標公式進行求解：

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

類似於 attention 機制，我們提出如下後驗概率模型，來對上式進行求解：

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

得到如下梯度並採用端到端方式進行網路學習。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

試驗結果：我們利用業務數據和最新的衣物檢索方法進行了對比，試驗結果如下表所示。相對於 alexnet，Asymnet 在前 20 的檢索精確率指標上，其性能幾乎提高了進一倍。相對於其他 2 種網路 CS 和 RC，我們發現 RC 的性能略優於 CS，因為 RC 具有較強的識別能力差異較小（採用多任務學習）。甚至在對於某些類別（無明顯差別）RC 在精確率上甚至略好於 AsymNet，但是總的來說 AsymNet 比目前現有的方法擁有更好的性能。因為 Asymnet 可以處理現有的視頻的時空動態變化，並結合自動視頻幀的自動調節爐排判別信息的融合策略。

阿里iDST CVPR 2017論文解讀：視頻衣物精確檢索

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※CVPR 2017最佳論文解讀：密集連接卷積網路
※Magic Leap最新論文：邁向幾何型深度 SLAM
※CVPR 2017論文解讀：特徵金字塔網路FPN
※DeepMind ICML 2017論文：超越傳統強化學習的價值分布方法

TAG:機器之心 |

您可能感興趣

※VideoLAN VLC發布3.0版HDR和360度視頻
※詳細介紹Visbit 360度視頻基準測試VB2018VR
※Summit Tech在MWC 2018展示VR視頻通話
※NTT Docomo推出8K 360視頻解決方案
※【火器酷視頻】Shot Show 2018 - FN SCAR-SC步槍介紹
※NAB SHOW 2018視頻影像專題丨HHI帶來全新VR視頻編解碼器，夏普將展示其8K生態系統
※Facebook推出360度視頻傳輸質量評估標準：SSIM360和360QVM
※高通正式發布VR/AR專用晶元XR1：支持4K 60fps視頻
※MWC2018索尼發布驍龍845旗艦Xperia XZ2 支持4KHDR視頻錄製
※發力360度VR視頻，英偉達推VRWorks 360 Video SDK v1.5
※NVIDIA新顯卡或支持HDMI2.1：實現4K 120Hz視頻輸出
※視頻 | 王一博偶像少年的型格圖鑑-KIMISS CELEBRITY53
※ASPEED發布360度視頻的球形圖像處理器Cupola360
※GPDR條例和視頻檢索論文閱讀
※【RD出品】羅傑杜比DBEX0536腕錶視頻評測
※1080P高清視頻盯盯拍mini ONE促銷中
※Win10 RS5預覽版17639上手視頻：Sets激動
※谷歌推出圖片、視頻編輯工具 VR180 Creator
※Core i5-2500K、GT 1030也能帶動VR遊戲？視頻博主教你精打細算
※Lumia 950安裝Windows 10 ARM視頻