當前位置:
首頁 > 新聞 > AI和工業4.0之間,還有多遠的差距?

AI和工業4.0之間,還有多遠的差距?

本文為 AI 研習社編譯的技術博客,原標題 :

Spanning the reality gap between AI and Industry 4.0

作者 | Philip Montsho

翻譯 | ciky奇、Ophria

校對 | 鄧普斯?傑弗 審核| 永恆如新的日常 整理 | 菠蘿妹

原文鏈接:

https://medium.com/@p.k.montsho/a-summary-of-industry-ready-state-of-the-art-computer-vision-techniques-a7f2b893de2f

AI和工業4.0之間,還有多遠的差距?

行業級最先進的計算機視覺技術摘要

如今,人工智慧在工業領域有著蓬勃發展趨勢,因為自動化以及優化仍是數字革命的主要焦點。在本文中,我們將回顧近幾年在AI社區中那些令人興奮的最先進的計算機視覺技術,這些技術被認為是工業就緒的,而且對工業用例產生重大而又實際的影響。其中一些技術對性能的提升達到了令人難以置信的程度,超越了人類能達到的性能水平,從而超出了大多數行業所期望的精度和可靠性標準。在基本的計算機視覺任務(例如圖像分類)中取得的驚人進步,使得可靠地結合多種技術來創建新的複合技術從而實現之前從未在工業環境中探索過的全新用例成為可能。話雖如此,這些新技術已經證明其結果可與那些只能通過非常密集的硬體專用系統才能獲得的精度和可靠性結果相媲美。雖然在實現這些專用系統和安裝與之相關的硬體方面存在實際的困難和限制,但相機是很容易買到的,從而極大地擴大了用例範圍。AI賦能的計算機視覺系統使得有可能跨入到一個新的領域,加速了工業4.0,真正數字化和物理現實增強的進程。

在我們深入了解計算機視覺領域的最新進展之前,讓我們先介紹一些基本概念以及深度學習和計算機視覺這方面的歷史事件。

計算機視覺簡介

計算機視覺是一門科學,旨在使計算機能夠理解並從圖形和視頻中洞悉信息。計算機視覺,即自動執行視覺任務的能力,例如從圖形或視頻中提取和分析有用的信息。

機器學習和深度學習簡介

機器學習是演算法和統計模型的科學研究,它依賴於數據驅動的方法來做決策而不是基於規則的方法。給定大量高質量數據並通過改進演算法,機器學習系統能夠逐步提高其在特定任務上的性能。深度學習是機器學習的子類,完全側重於一組可描述為網路的數學演算法。它們起初受到人腦中發現的生物神經網路的啟發,同樣,人工神經網路具有數百萬個人工突觸,數學上由數百萬個簡單的線性代數方程表示。

深度學習驅動計算機視覺

自2012年深度學習神經網路一直是計算機視覺的主要關注點是有理由的。由深度學習驅動的計算機視覺系統的優點是它們具有更高準確性,更靈活,且對大量的光線條件變化,視點,尺度,方向,與背景融合,類內差異,變形以及視覺遮擋等情況具有更高容忍度。但最重要的是,它們啟發了新的用例。

早期的計算機視覺模型依賴於原始像素數據作為機器學習模型的輸入。然而,單獨的原始像素數據不足以包含圖像中對象的千變萬化。

深度學習驅動的計算機視覺基於深度神經網路可在訓練階段自動提取和創建特定任務的特徵,然後將其用於執行計算機視覺任務。

下圖突出了深度學習和計算機視覺近6年歷史中最重要的一些事件。

  1. 2012年引入深度神經網路所帶來的突破使得圖像分類誤差減少了約10%(從2011年的25.8%降至2012年的16.4%)。

  2. 2015年最先進的演算法在圖像分類方面的表現超過了人類水平(5.1%,Russakovsky et al.),準確率為3.57%。

  3. 總體而言,深度神經網路的引入導致圖像分類誤差減少10倍(從2011年的25.8%將至2017年的2.3%)。

AI和工業4.0之間,還有多遠的差距?

值得注意的是,上述結果是在ImageNet數據集上實現的,其中20,000個類別具有典型類別,例如「氣球」或「草莓」,由數百個低解析度469x387像素圖像組成。計算機視覺系統應用於具有較少類別,較少變化和較多數量的較高解析度圖像的特定任務時,其準確度可以高達99.9%。這使得完全獨立自信地運行一個系統成為可能。

現在我們已經介紹了基礎知識,我們可以更詳細地了解這些技術了。

圖像分類

在本節中,我們將介紹圖像分類,這是將一組固定類別中的一個標籤分配給圖像的任務。這是計算機視覺中的核心問題之一,儘管其簡單,但其具有各種各樣的實際應用。許多其它看似不同的計算機視覺任務(例如圖像 字幕,目標檢測,關鍵點檢測和分割)可以簡化為圖像分類,其它任務利用全新的神經網路架構。以下視頻片段說明了一個非常簡單的分類事例。

AI和工業4.0之間,還有多遠的差距?

Simple Image Classification using Convolutional Neural Network (Venkatesh Tata Dec 2017)

圖像關鍵字和字幕

該技術處於計算機視覺和自然語言處理(NLP)這兩AI中最有趣領域的交點。關鍵字是用於描述照片或圖像元素的單詞。關鍵字是對照片添加描述性術語的過程。

圖像字幕是指基於圖像中的對象和動作從圖像或視頻生成文本描述的過程。在下圖中可以看到這方面的一個例子。

AI和工業4.0之間,還有多遠的差距?

Image Captioning based on Deep Reinforcement Learning (Shi et al. Aug 2018)

目標檢測

目標檢測是一種計算機視覺技術,用於識別和定點陣圖像或視頻中的對象。這通常通過帶邊框標記的框包圍對象來完成。目標檢測是自動駕駛汽車背後的關鍵技術,使它們能夠識別其他汽車或區分行人與燈柱。它還可以用於各種應用,例如工業檢測和機器人視覺。由於ImageNet競賽,僅2010年至2014年間,定位誤差(從42.5%降至25.3%)就減少了1.7倍。下面的視頻片段顯示了該技術的實時實施結果,用於檢測城市中發現的與一輛自動駕駛視覺系統相關的車,人以及其他常見物體。

AI和工業4.0之間,還有多遠的差距?

YOLO v3: An Incremental Improvement (Redmon et al. Apr 2018)

關鍵點檢測和姿態估計

關鍵點被視為圖像有趣或重要部分的特徵。它們是圖像中的空間位置或點,定義圖像中有趣的內容或突出的內容。關鍵點之所以特殊,是因為它使得跟蹤修改後的圖像中的相同關鍵點成為可能,其中圖像或圖像中的對象會發生旋轉、收縮/膨脹或變形。

姿態估計是計算機視覺中的一個普遍問題,其目的是檢測物體的位置和方向。這通常意味著檢測對象的關鍵點位置。這種技術可以用來創建一個非常精確的二維/三維模型,描述對象關鍵點的位置,然後可以用來創建一個數字孿生兄弟。

例如,在姿態估計問題中,可以檢測到常見的方形家居對象的角點,從而可以深入了解對象在環境中的三維位置。

AI和工業4.0之間,還有多遠的差距?

Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects (Trembley et al. Sep 2018)

同樣的方法也可以用於檢測人體姿勢,人體上的關鍵點如肩膀、肘部、手、膝蓋和腳都會被檢測到。

AI和工業4.0之間,還有多遠的差距?

OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (Cao et al. 18 Dec 2018)

語義分割

下一種技術稱為語義分割(也稱為對象掩蔽),它解決了計算機視覺領域的一個關鍵問題:直觀地分離圖像中的物體。從大的圖像上看,語義分割為完全理解場景鋪平了道路。這是非常有用的,因為它使計算機能夠精確地識別不同物體的邊界。場景理解作為一個計算機視覺的核心問題,其重要性在於從語義分割中所獲得的知識使得越來越多的應用程序的健壯性得以提升。在下面所示的自動駕駛汽車示例中,它幫助汽車識別道路和其他物體的準確位置。

AI和工業4.0之間,還有多遠的差距?

深度學習之語義分割(喬治·塞夫2018年9月)

下面提到的技術屬於圖像到圖像轉化的範疇。對於下面的技術,網路通過提高質量而不是提取見解或得出結論來增強圖像和視頻。

超解析度:

此任務的目標是在同時提高細節級別的同時提高圖像的解析度。一個非常深的神經網路最近在圖像超解析度方面取得了巨大的成功。放大倍數適用於2倍放大,如下圖所示。

AI和工業4.0之間,還有多遠的差距?

超解析度圖像殘留的密集網路(Zhang等人,2018日三月)

夜視

在弱光下成像是一項挑戰。短曝光圖像會產生雜訊,長曝光時間會導致動態模糊。後者通常也不切實際,尤其是對於手持攝影。人們已經提出了各種去噪、去模糊和增強技術,但它們的效果在極端條件下是有限的,例如夜間高速攝影。為了提高目前的標準,研究人員引入了一種基於深度網路端到端訓練的低光圖像處理技術。該網路直接利用原始感測器數據,取代了許多傳統的圖像處理技術。這可以在下面的圖像中清楚地看到,暗雜訊圖像得到了顯著的增強。

AI和工業4.0之間,還有多遠的差距?

在黑暗中學會看東西(Chen等人,2018年五月)

Super SloMo

視頻插值旨在在兩個連續幀之間生成中間幀。這些人工生成的畫面與原始圖像有著不可區分的視覺特徵。這項技術是放大攝像系統性能的理想方法。對多個數據集的實驗結果表明,深度學習方法比現有的方法具有更好的一致性。這項技術的結果可以在下面的視頻剪輯中看到,在原始幀之間添加7個中間幀來創建平滑的慢動作視頻。

AI和工業4.0之間,還有多遠的差距?

Super SloMo:視頻插值多中間幀的高質量估計(Jiang等人,2018年7月)

在本文中,我們研究了許多計算機視覺技術,這些技術是由最近幾個月開發的深入學習提供動力的,並且已經展示了令人難以置信的結果,並準備在行業中實施。這些技術處於技術的前沿,通過提高速度、準確性、可靠性和靈活性,表現出明顯的優於以前的技術。

創新的關鍵驅動因素是近年來人工智慧研究論文的數量激增,特別是在計算機視覺領域,使充分利用技術進步來改善工業運營的最新趨勢變得更加重要。

謝謝你的閱讀!希望,你學到了一些新的和有用的關於最先進的計算機視覺技術的東西,這些技術已經為工業上的實際應用做好了準備。

如果你想了解更多,請一定要為這篇文章鼓掌,並跟隨我。

如果你想討論一個與你的生產環境相關的用例,請直接聯繫我philip@beamberlin.com。

想要繼續查看該篇文章相關鏈接和參考文獻?

長按鏈接點擊打開或點擊【AI和工業4.0之間,還有多遠的差距?】:

https://ai.yanxishe.com/page/TextTranslation/1410

AI研習社每日更新精彩內容,觀看更多精彩內容:雷鋒網雷鋒網雷鋒網

盤點圖像分類的竅門動態編程:二項式序列如何用Keras來構建LSTM模型,並且調參一文教你如何用PyTorch構建 Faster RCNN

等你來譯:

如何在神經NLP處理中引用語義結構你睡著了嗎?不如起來給你的睡眠分個類吧!高級DQNs:利用深度強化學習玩吃豆人遊戲深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智能體

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

從稠州銀行,看城商行的數字化轉型思考
Facebook 發布無梯度優化開源工具 Nevergrad,可應用於各類機器學習問題

TAG:雷鋒網 |