手機搖一搖測體積,2019菜鳥全球科技挑戰賽助力智能物流
近日,2019 菜鳥全球科技挑戰賽在杭州落幕。在菜鳥柔性自動化實驗室資深總監寒帥、菜鳥人工智慧部研究員徐盈輝、曠視南京研究院院長魏秀參、阿里集團高德視覺技術攻堅小組研究員任小楓、菜鳥北京技術中心資深技術專家陳罡等評委的審議下,比賽最終決出了前三名。這些隊伍獲得了共計 60 萬元的高額獎金。
5 月 28 日,以「數字化再加速」為主題的 2019 全球智慧物流峰會在杭州舉行。來自國內外的行業專家、企業高管共同探討了「物流和供應鏈的數字化如何帶動新零售」、「各種模式如何加速行業數字化的時代引擎等」熱點話題。
在峰會上,菜鳥全球科技挑戰賽總決賽成為了人們關注的焦點。賽題「智能體積測量」關注物流要素「長寬高」進行數字化,希望引起技術人才對物流業的關注。
這場科技競賽由菜鳥網路舉辦,自 3 月份即開始了預賽的爭奪。在總決賽中,10 支隊伍共同展示了各自的解決方案,並現場測量不同的物體。第一名「泰坦」隊獲得 30 萬獎金、第二名「VMeasure」獲得 20 萬獎金、第三名「Wonder」則獲得 10 萬獎金。
打開今日頭條,查看更多圖片圖註:在決賽後,第一名隊伍的代表登台領獎。
這是一場相當硬核的挑戰賽,解決的也是物流行業的痛點問題。
菜鳥首席技術官谷雪梅在決賽中表示,「今天物流行業已經從傳統的人力密集型,向資本和技術密集型轉變。我們在用物聯網、人工智慧、區塊鏈等等新的技術在做物流,空間非常大。我們舉辦菜鳥全球科技挑戰賽,是希望有更多青年才俊關注物流。」
面向未來物流的賽題
作為一場科技競賽,高額的獎金不僅在告訴我們賽題難度有多大,也在暗示:體積測量這件事非常重要。但對於大多數人而言,我們並不清楚它的重要性。自動測量的意義主要體現在物流的倉儲、運輸和派送三個環節。
自動準確測量物體體積後,我們就能合理規劃包裝的耗材,從而大大降低包裝成本。在運輸中,如果知道每一件商品的正確體積,那麼分配運輸工具就非常方便了。在物流的派送環節中,準確知曉商品尺寸可以讓快遞員有規劃地將貨物投遞到不同尺寸的快遞箱中,幫助節約存儲空間與效率。
這就是本次競賽的賽題:「對於規則的箱體(如天貓超市紙箱)和不規則物體(如洗衣液、籃球),通過手機拍攝圖像,獲取其最小外接長方體的長、寬、高尺寸(單位 mm),計算其體積(長×寬×高)。根據測量值與被測物體的真實尺寸差值,評估其測量精度。」
挑戰賽設定被測物體在 50mm 到 500mm 之間,且它們都是在空曠的平面上完成測量。在實際測量時,比賽要求選手通過普通手機「自動」測量出物體的垂直高和最小外接矩形的長寬。雖然描述很簡單,但其中有三個關鍵點,即普通手機、自動化和求最小。
- 首先必須是普通手機,我們需要確保可以在市面上買到,且不能定製化或增加外部裝置,例如手持雲台或外接深度感測器等。
- 其次是自動化,賽會希望解決方案能自動採集並求出被測物體的體積。因此我們在測量時並不能標記被測物體,或者使用某些具有測量功能的 APP。理想狀態下,手機只要拍幾張照或一個小視頻,就能立即給出被測物體的長寬高。
- 最後,在通過最高點求出被測物體的高之後,挑戰賽要求我們求最小外接矩形作為長和寬。即將物體投影到水平面後,邊界框的面積應該是最小的。
本次比賽要求「手機級普適性」。實際上目前使用深度相機的測量方案已經非常成熟,但成本較高,應用還不夠廣泛。如果能夠使用普通手機測量,可以加速應用。這也顯示出菜鳥有意在引導技術人才關注物流實務。
下圖展示的是決賽中的被測物體。分別是兩種規則、不規則物體:
解決方案:三維重建是核心
在進入決賽的前十組選手的展示中,我們可以看到很多不同的解決方案。很多選手通過 visual SLAM(即時定位與地圖構建)重建 3D 點雲,再結合慣性測量單元(IMU)或標誌物而獲得 3D 點雲的實際尺度;也有選手通過被測物體和標誌物重建出深度圖,然後融合不同的深度圖而構建真實尺度的 3D 點雲。這兩類方法都可根據 3D 點雲計算最小外接立方體。
儘管十支團隊的方案各有各的特點,但它們都遵循一個基本的解題思路:先獲得被測物體在像素空間中的信息,再獲得被測物體在真實世界中的尺寸信息,最後計算被測物體的最小外接立方體。
根據測量精度、設備普適性和技術創新性等多個維度,評審們最終選出排名前三的解決方案。
決賽評委陣容。
第一名:基於全局姿態與 MVSNet 的體積測量
第一名方案是由東華大學等院校的在校師生完成的,他們的方法只需標誌物和圖像信息就能預測被測物的真實尺寸。在這種方案下,我們可以在被測物周圍放幾張列印的標誌物,然後從多個視角拍攝多組圖片,這些圖片能通過 MVSNet 生成多視角深度圖。最後,對不同視角的深度圖進行濾波與融合操作,模型就能重建帶尺度的 3D 稠密點雲。下圖展示了該方案的主要流程:
東華大學蔡棽老師表示,對比 ARKit 等結合 vSLAM 和 IMU 的方案,他們方法最大的優勢在於重建完整度高。其中 vSLAM 在魯棒性上有很多劣勢,即使在位移和旋轉都比較小的情況下,它還是會丟棄一些無紋理物體。這主要是因為 vSLAM 並不追求重建精度,它是一種稀疏重建,因此在算外接立方體時容易產生誤差。
因此我們需要 SFM(Structure from Motion)這種關注魯棒性點雲重建方法,它在精度上比傳統 vSLAM 和基於 AR SDK 的方法高。開發者們也正是沿著 SFM 與 MVS 這一思路走下去,從而重建稠密的 3D 點雲。相比傳統的 MVS 演算法,新方法在保持重建準確度的同時,極大地提高了模型的重建完整度。
當然,這種重建完整度很大程度上都是由 MVSNet 帶來的,它不僅效果好,運行速度也比之前的 state-of-the-art 快了數倍。
通過基於標定板的精確外參數標定方案,開發者在解決 vSLAM 演算法的不魯棒性、SFM 演算法兩兩特徵匹配的計算耗時問題,重建精度、魯棒性、運行速度等各方面都基本滿足了實際測量需求。特別的是,對於無紋理的日常超市物體,該方法仍然適用。
手機搖一搖,極速測體積
如果說第一名團隊重點關注測量精度與效果,那麼第二名團隊 VMeasure 則著重打造一個便捷、快速的解決方案。它的 APK 安裝包只有 4.3MB,且無需輔助計算設備、參照物,就可離線使用。這支隊伍的方法平均測量時間在 10 秒以內,且對於紋理比較豐富的物體,誤差能控制在 5% 以內。
更重要的是,他們設計的應用有一個刷新鍵,當我們對測量結果不滿意時,點擊按鈕就能快速生成更加完善的立方體。用戶根據可視化結果決定是否刷新測量的立方體,因此正確測量的概率要高得多。
既然要面嚮應用,那麼演算法就應該簡潔一些。VMeasure 的思路非常清晰,首先基於 ARCore 完成立體重構,然後再計算最小外接立方體。
其中對於 ARCore 的調用,模型會根據紋理特徵確定關鍵點,在手機圍繞被測物體拍攝時,這些關鍵點會產生位移或視差信息,它們再結合 IMU 感測器就能獲取三維信息了。
手動標數據的體積測量
在第三名 Wonder 隊(獨立參賽者)的解決方案中,選手從一個非常直觀的想法出發,探討怎樣分兩步解決體積測量問題。即先感知被測物體在像素空間中的位置與大小,然後建立像素世界與現實世界之間的聯繫。
將這種思想帶入到任務中時,就需要設計兩個模塊:利用目標檢測獲取邊界框,從而快速算出像素上的長和寬;利用 ARKit 內嵌的方法,開發者可以得到屏幕中一個點在現實世界中的大致坐標位置,即建像素與現實尺度的橋樑。
雖然 Wonder 隊的做法非常簡潔,但它也有非常特殊的地方:選手自行標註了 1700 多張真實圖片和 2800 多張合成圖片。這些圖片模擬了真實場景下利用手機測量體積會拍到的樣子,我們可以用來檢測目標的邊界框。
該隊選手表示,這 4500 張圖片可用來精調預訓練的 MobileNet V2,它可作為主幹網路來預測左上和右下兩個關鍵點。因為 MobileNet 是一種非常精簡的架構,所以計算力和準確率都能有比較好的保證。
最終,開發者設計方案結合了計算機視覺和 ARKit 技術,所有的測量和計算都發生在手機端,不需要網路和額外的計算資源。
在這場精彩的比賽中,選手們提出的方法各具特色。除體積測量外,物流還有更多的任務需要探討,例如三維裝箱問題。物流業正處於技術大變革中,新興技術的應用,將加快物流的數智化發展。
※CVPR聲明力挺華為:同屬IEEE,論文評審、參加會議無限制
※MIT發明10美元AI觸覺手套:識別物體,又能稱重,論文已上Nature
TAG:機器之心 |