如何將深度學習應用於無人機圖像的目標檢測
本文為 AI 研習社編譯的技術博客,原標題 :
How to easily do Object Detection on Drone Imagery using Deep learning
作者 |Gaurav Kaila
翻譯 | zackary、Disillusion、劉劉1126
校對 | 醬番梨 整理 | 菠蘿妹
https://medium.com/nanonets/how-we-flew-a-drone-to-monitor-construction-projects-in-africa-using-deep-learning-b792f5c9c471
如何將深度學習應用於無人機圖像的目標檢測
本文全面概述了基於深度學習的對無人機航拍圖像進行物體檢測的方法。我們還介紹了一個應用示例:利用無人機監測一個非洲住房項目的建設進度。
第一部分:我們剛發布了Nano Drone APIs!
您是否知道無人機及其相關功能將在2023年成為一項價值500億美元的產業? 截至今天,無人機被用於農業,建築,公共安全和安全等領域,同時也被其他領域迅速採用。隨著基於深度學習的計算機視覺為這些無人機「提供動力」,行業專家們預測無人機將在以前難以想像的應用場景中被前所未有地廣泛使用。
我們將探索一些應用以及伴隨著它們的挑戰,這些應用基於深度學習完成了基於無人機的自動化監測。
在最後,我們將展示一個使用Nanonets機器學習框架對非洲住房項目進行遠程監測的案例。
第一部分:航拍圖像——簡要背景
人們總是對從高處俯瞰世界著迷,從高聳的大樓上、從瞭望塔上、從堡壘,還征服了最高的山峰。為了能捕捉這樣的瞬間並且和全世界分享,人們竭盡全力,藉助梯子、高樓、風箏、氣球、飛機和火箭,挑戰地心引力。
1906年,從風箏上拍攝的舊金山全景(來源:國會圖書館)
如今,即使是普通大眾也可以使用能夠飛到2公里高處的無人機。這些無人機配有高解析度的攝像頭,能夠捕捉高質量的圖像,用於各種分析。
農田的航拍圖像
第二部分:無人機及其工業應用
隨著無人機的普及,我們看到很多攝影師和業餘愛好者的日常愛好和活動,他們使用無人機進行一些創造性項目,諸如捕捉南非的不平等現象,或者拍攝足以讓伍迪艾倫(Woody Allen)都感到驕傲的紐約奇景。
雖然這一切看起來很輕巧,但是價值500億美元的無人機產業核心在於工業應用。
在這裡我們探討一二:
能源:太陽能發電廠的檢測
太陽能發電廠的日常檢測和維護是一項艱巨的任務。傳統的人工檢測方式只能支持每三個月/次的檢測頻率。由於環境惡劣,太陽能電池板可能會有缺陷。損壞的太陽能電池板部件降低了功率輸出效率。
左圖:太陽能電池板的原始熱圖像
右圖:因特爾自動化系統檢測的缺陷定位和分類
農業:植物早期病害的檢測
倫敦帝國理工學院(Imperial College London)的研究人員在無人機上安裝多光譜相機,這些相機將使用特殊的過濾器從選定的電磁光譜區域捕捉反射光。有病害的植物通常會顯示出一種有別於健康植物「光譜特徵」。
帶有病原和營養不足的植物葉片的光譜圖像
公共安全:鯊魚偵測
對一大片土地/水域的俯視圖進行分析,可以獲取大量關於治安和公共安全方面的信息。其中一個例子就是在澳大利亞沿海水域發現鯊魚。澳大利亞西太平洋集團開發了一種基於深度學習的目標探測系統來偵測水中的鯊魚。
除此之外,還有各種各樣的航拍圖像應用程序,比如土木工程(橋樑日常檢查,電線監測和交通調查),石油和天然氣(近海石油和天然氣平台、鑽井設備的檢查),公共安全(機動車事故、核事故、建築火災、船舶碰撞、飛機和火車事故)及治安(交通監測、邊境監測、海岸監測、敵對遊行示威及暴動控制)。
第三部分:獲取和處理工業級無人機圖像
為了全面捕捉地形和景觀,航拍圖像的獲取過程可以分為兩個步驟。
攝影測量:在無人機飛行過程中,為了確保圖象重疊,需要每隔一段時間拍攝幾張圖像。這一步很重要,這樣才能測量成像物體間的距離。廣義上講,這一過程被稱為攝影測量學。對於需要用於數據分析和製圖的圖像,還需要相應的元數據進行圖像拼接。這些元數據由無人機上的微型計算機自動嵌入。
圖像拼接:一旦數據採集完成後,第二步是將單個航拍圖像合併成一張有用的地圖,通常使用一種專門的攝影測量技術將圖像快速拼接在一起。這種特殊的攝影測量技術被稱為從運動信息中恢復三維場景結構(Sfm)。Sfm軟體從不同角度將同一場景的圖像進行比較、匹配,並測量每幅圖象中物體間的角度後,拼接在一起。在這個步驟里,可能需要參考圖象的地理信息,以便將位置信息附加到每個圖象上。
完成圖像拼接後,生成的圖像可用於上述提到各種應用分析中。
第四部分:人工智慧遇上無人機
高解析度航空影像在全球範圍內越來越常見,它包含大量可與維護、土地開發、疾病控制、缺陷定位、監測、等應用相關聯的信息。不幸的是,這些數據通常是高度非結構化的,因此即便有密集的人工分析,從中大規模提取有意義的見解還是充滿挑戰性。
例如,城市用地的分類通常是根據訓練有素的專業人員的測量。所以這項任務是勞動密集型的、不頻繁的、緩慢的和昂貴的。因此,這些數據大多只在那些擁有收集和管理這些數據所需的資源和遠見的發達國家和大城市中才有。
自動分析航空影像的另一個動機是預測有關地區變化的迫切需要。例如,在大型公眾集會(如音樂會、足球比賽、抗議活動等)上,經常需要進行群眾計數和群眾行為。傳統上,會有專人來分析從閉路電視攝像頭直接傳送到指揮中心的圖像。正如你想像的那樣,這種方法存在幾個問題,例如在檢測事件時人為的延遲或錯誤,以及標準的靜態閉路電視(CCTV)缺乏足夠的視圖。
以下是使用航空影像時經常遇到的一些挑戰。
航空影像自動化的挑戰與限制
當自動分析無人機圖像時,有幾個挑戰需要克服。下面列出了其中的一些,並
給出了有前景的解決方案:
對物體的平視和小視:當前的計算機視覺演算法和數據集是用以人為中心通過水平拍攝的近距離物體照片的實驗室設置而設計和評估的。對於垂直拍攝的無人機圖像,感興趣的對象相對較小且特徵較少,主要表現為平面和矩形。如,從無人機上拍攝的建築物圖像只顯示屋頂,而建築物的地面圖像將具有門、窗和牆等特徵。
數據標註困難:按照上述觀點,即使我們可以獲得大量的圖像,我們仍需對其進行標註。這是一項手工任務,需要精確性和準確性,因為「輸入垃圾意味著輸出垃圾」。 除了手動完成之外,沒有什麼神奇方法來解決標籤問題。在Nanonet,我們根據需要提供 可以為你標記數據的注釋器。
圖像尺寸大:無人機圖像尺寸很大,大多數情況下解析度超過3000px X 3000px。這增加了處理此類圖像時的計算複雜度。為了克服這一問題,我們將預處理方法應用於航空成像,以便使它們為我們的模型訓練階段做好準備。這包括以不同的解析度、角度和姿勢裁剪圖像,以使我們的訓練不受這些變化的影響。
對象重疊:分割圖像的問題之一是同一個對象可能出現在兩張不同的圖像中。這會導致重複檢測和計數錯誤。此外,在檢測過程中,某些彼此非常接近的對象也可能具有重疊的邊框。克服這個問題的方法之一是通過滑動窗口向上採樣,以尋找小的、密集的對象。
第五部分:Nanonets案例研究:非洲建築項目遠程自動化檢視
務實大師(Pragmatic Master),一家南非機器人即服務(robotics-as-a-service )公司與Nanonets合作對非洲一個住房建設項目進展進行遠程自動化監控。
這些項目通常因為誤報而產生拖延和盜竊,這可能通過頻繁的無人機飛行測繪和記錄來解決
我們的目標是通過探測以下基礎設施來捕捉房屋在不同階段的建造進度:
地基(開始)
牆面板(正在進行)
屋頂(部分完成)
護牆(收尾)
熱水器(可以搬入)
Pragmatic Master之所以選擇Nanonet作為深度學習的提供者是因為Nanonet易於使用的web平台和即插即用的APIs。
使用Nanonet API的端到端流程非常簡單,只需四個步驟。
End-to-end flow of the Nanonets API
1.上傳圖片:從無人機獲取的圖片可以直接上傳到我們的上傳頁面。在當前的案例研究中,我們總共獲得了1442張低空拍攝的建築工地照片。上傳圖片的例子會在下方給出。
2. 圖像的標記:在任何監督機器學習流程中,標記圖像可能是最困難和最耗時的步驟,但是在Nanonets,我們可以為你完成標記。我們有多年航空成像工作經驗的內部專家。他們將精準及準確地注釋你的圖像,以進行更好的模型訓練。對於Pragmatic Master的用例,我們標記了以下對象及其在所有圖像中的總數。
屋頂: 2299
熱水器: 6556
牆面板: 1043
護牆: 8730
標記了熱水器的圖像
3. 模型訓練:在Nanonets,我們同時採用遷移學習的原則對你的圖像進行訓練。這包括重新訓練一個已經用大量的航空成像預訓練過的模型。這有助於模型更容易在你的圖像上識別微圖像如邊緣、線條和輪廓和關注更具體的宏觀模式如房屋、樹木、人類和汽車等。遷移學習也縮減了訓練時間因為模型不需要進行大量的迭代也能有良好性能。
我們專有的深度學習軟體能聰明地選擇最佳的模型,並根據你的用例優化超參數。這涉及到使用高級搜索演算法在多個模型和多維參數間進行搜索。
最難探測的對象是最小的對象,因為它們的解析度較低。我們的模型訓練策略被優化,以檢測非常小的物體,如只有幾個像素麵積的熱水器和護牆。
檢測到完整的房子
下面是每個類的平均精度,
屋頂:95.1%
熱水器:88%
牆面板:92%
護牆:81%
注意:添加更多的圖像可以提高平均精度。我們的API還支持在同一圖像中檢測多個對象,例如在一個圖像中檢測屋頂和護牆。
4. 測試與集成:在模型訓練好後,你可以將Nanonet的API直接集成到您的系統中或者我們還提供一個鏡像,其中包含你訓練過的模型和推理代碼。鏡像可以方便地進行縮放,並提供容錯推理系統。
最後一步,圖像被拼接起來並使用與每幅圖像相關聯的GIS數據創建整個景觀視圖。
預測的圖像拼接在一起創造了整個景觀視圖
第6部分:數據私隱
客戶信任是我們的首要。我們致力於在任何時候為你提供所有權和你內容的控制。我們提供了兩個使用我們服務的套餐,
開發人員:你上傳的用例圖像可能被我們用來預訓練我們的模型,我們可以進一步將其用於我們的其他應用程序。
企業:你的數據就是你的!我們永遠不會將你的數據用於任何模型的預訓練。
在這兩個套餐中,我們與我們的雲合作夥伴Amazon Web Services合作,使用高度複雜的數據隱私和安全協議。你的數據集是匿名的,並且在預處理和訓練過程中經過最少的人工干預。我們所有人都簽署了保密協議(NDA),以保護你的數據不落入壞人之手。因為我們相信「你的數據就是你的!」,你可以要求我們在任何階段從我們的伺服器上刪除你的數據。
Nanonet是一種web服務,它使得使用深度學習變得容易。你可以用你自己的數據構建一個模型,以實現更高的準確性,並使用我們的APIs將其集成到你的應用程序中。
更多細節請訪問:https://nanonets.com/drone
務實大師(Pragmatic Master)是一家南非機器人即服務公司,提供裝配相機的無人機,以獲取建築、農業和採礦工地的圖像。通過對這些圖像的分析,讓我們能跟蹤進度、識別挑戰、消除低效並提供場地的整體鳥瞰圖。
※玩轉TensorFlow?你需要知道這30功能
※BAT加快出擊智慧城市建設,建立信息共享促進數字化轉型|智慧城市周報
TAG:雷鋒網 |