張覓:基於深度卷積網路的遙感影像語義分割層次認知方法
核心提示
受人類視覺系統層次認知方式啟發,本報告主要介紹遙感影像語義分割的層次認知模型。借鑒自然影像處理中DCNN的工作方式,設計適用於高解析度遙感影像語義分割任務的深度神經網路結構,構建「數據—像素—目標—場景」層次認知模型。在GeoScience Café第197期學術交流活動中,武漢大學遙感信息工程學院博士生張覓分別介紹了多源數據增廣,像素級、目標輔助級以及場景約束級語義分割原理及方法。並以實際項目為例,分享DCNN方法在遙感影像處理方面的應用。
文字:崔松 攝影:黃雨斯 攝像:龔婧
人物名片
張覓,武漢大學遙感信息工程學院攝影測量與遙感專業博士三年級學生張覓,以第一作者身份發表學術論文4篇,其中計算機視覺與模式識別頂級會議(CVPR)一篇、SCI論文兩篇,獲發明專利一項、在審專利一項。曾榮獲博士研究生國家獎學金、地球空間協同創新中心獎學金、夏堅白繪事業創業與科技創新獎之優秀學生一等獎等。
報告現場
張覓做精彩報告
2018年5月11日,武漢大學遙感信息工程學院張覓博士做客GeoScience Café第197期學術交流活動。他結合自己的研究成果,介紹了多源數據增廣,像素級、目標輔助級以及場景約束級語義分割原理及方法。並以實際項目為例,分享DCNN方法在遙感影像處理方面的應用,讓聽眾受益匪淺。
研究背景與意義
「 十三五」 期間,我國將「 地球觀測與導航」 領域項目《 基於國產遙感衛星的典型要素提取技術》 列為國家40個重點研發計劃之一。目前實現了全天時、 全天候、全方位的對地精細化觀測。但與強大的數據獲取能力形成鮮明對比的是,我國遙感天基空間信息網路的智能感知、 認知能力仍有待進一步提升。
機器學習的目標就是如何去學習一個函數來最接近真實的世界。在具體的實現過程中,也就是通過線性和非線性函數的組合,來實現目標與預測值之間誤差最小。在自然影像的處理中,語義分割的成功主要歸結於兩個部分:基礎網路結構的改進和語義分割策略融合。但目前高解析度遙感影像語義分割存在的問題是訓練樣本缺乏、尺度變化較大、目標方向性比較顯著、場景上下文信息更加複雜。
針對上述問題,受人類視覺系統層次認知方式啟發,本報告以高解析度遙感影像智能解譯技術為出發點,借鑒自然影像處理中DCNN的工作方式,聚焦於設計適用於高解析度遙感影像語義分割任務的深度神經網路結構,構建「數據—像素—目標—場景」 的遙感影像語義分割層次認知模型。通過對高解析度遙感影像語義分割技術層次認知方法的研究,可以進一步提升在實際生產中遙感影像自動化解譯程度,提高生產效率,減少解譯過程中的人工干預,具有很重要的研究和應用價值。
國內外研究現狀
張覓主要從四個方面分析了國內外研究現狀。
(一)多源數據增廣現狀:以生成式對抗網路(GAN)為代表的方法,在高解析度室內/室外影像生成方面,獲得了很好的應用,但在高解析度遙感影像數據增廣方面,目前研究仍處於起步階段。主要代表方法有:WGAN,DCGAN,EBGAN, CoGAN,LSGAN,CycleGAN,DiscoGAN等。
(二)像素級語義分割現狀:在近五年內,深度卷積神經網路(DCNN)已被廣泛應用於目標識別方面,因此,在計算機視覺與遙感領域,大量的語義分割特徵都是通過DCNN來獲取。以MS-COCO,PASCAL VOC,ISPRS 2D Labelling 數據集為代表的測試集,極大地促進了語義分割方法的發展,但對於遙感影像,受空間上下文信息、目標多樣性的影響,語義分割中的很多問題,仍沒有解決。主要代表性方法有:FCN,SegNet,DeepLab,Dilatated ConvNet,CRF-RNN,G-CRF,RefineNet等。
(三)目標輔助級語義分割現狀:常規的CNN網路,可以應對影像平移、尺度變化所帶來的問題,但對於目標的旋轉不變性,並不能得到等價替換。目前對旋轉不變性的研究,主要集中在場景級別的識別方面,對語義分割或者目標檢測任務,仍處於研究狀態。對於室內/室外影像,目前在檢測速度和精度上取得了較好的效果;但對於高解析度遙感影像,很多目標並不是以矩形框的形式而存在,在CNN框架下仍缺少有效的檢測方式。
(四)場景約束級語義分割現狀:在影像語義分割過程中融入場景信息約束,有助於提升語義分割的可靠性,大範圍整合優化場景信息,可以抑制無關場景信息干擾。語義分割的場景信息,主要來源於兩個方面:一方面是來自原始影像或者影像塊的場景類別信息;另一方面來自於DCNN不同層特徵信息的組合。 對於前者,場景類別的約束性信息主要來源於對影像逐像素標籤中各個類別所佔比例的統計,將佔據主導比例地位的類別信息作為語義分割的場景約束信息。對於後者,主要是通過網路結構的合理設計來提升不同層次下特徵信息的整合程度,其可能導致網路結構設計越來越複雜和龐大,使昂貴的GPU計算資源成為限制語義分割性能提升的瓶頸。主要代表性方法有:SharpMask, U-Net,Ladder等。
主要研究內容與實驗分析
張覓分別從四個方面進行了介紹,分別是多源數據增廣、像素級語義分割、目標輔助級語義分割、場景約束級語義分割。
(一)多源數據增廣。前面所提及到的數據均是以場景分類為主的,那麼,在有限標註信息條件下,如何才能進行深度學習語義分割(分類)呢?答案是:利用已有的公眾數據,如OSM, OAM,天地圖,谷歌地圖等進行數據增廣,以擴充深度學習的「燃料」。計算機視覺領域的生成式對抗網路GAN(Generative Advesarial Network),為擴充數據,實現數據轉化提供了可能的思路和方法。在有了一定的標註數據作為基礎後,要實現的數據擴充(矢量—影像,影像—影像),實際上就是在GAN網路中增加條件限制約束,構成條件生成式對抗網路CGAN(Conditional Generative Adversarial Network),讓樣本的生成具有目的性。
(二)像素級語義分割。遙感影像語義分割「引擎」設計,需要考慮以下因素:尺度、感受視野、先驗知識融入以及網路的大小是否滿足實際成產單位成本要求。尺度:網路結構能應對來自不同尺度的信息,對影像特徵進行多尺度編碼;感受視野:計算局部卷積特徵時,感受視野需合適;先驗知識:幾何特徵和紋理特徵等比較明顯的,需要作為先驗知識融入end-to-end框架中;網路大小:很多生產單位,並沒有高配置的GPU集群或者單機GPU,如泰坦X顯卡等硬體設施,應設計適合大小的網路結構。
(三)目標輔助級語義分割。當得到了目標的外接旋轉矩形,可以通過兩種方式實現語義分割結果的輔助融合,即級聯式輔助和加權融合式輔助。級聯式輔助方法,首先需要獲取目標的外接旋轉矩形,然後構成相應的掩膜,通過掩膜限制語義分割方法,得到融合結果;加權融合輔助方式使用外接旋轉矩形與語義分割結果中飛機呈現綠色部分),共同構成輔助掩膜,採用CRF加權融合的方式得到目標最優語義分割結果。相比之下,採用加權融合輔助的方式,通過掩膜範圍的合理增加,可以避免目標融合優化過程中的漏檢問題。
(四)場景約束級語義分割。場景類別信息,指的是在影像中某個區域所佔主導地位的類別信息。在實現的過程中,存在兩方面的問題:其一,GPU容量有限,大幅遙感影像只能採用分塊處理的方式,使用自然影像分類的方法對遙感影像場景劃分,存在很強的不確定性,即使採用重疊度較高的「密集窗口」採樣方式來確定場景類別信息,仍然是有很大不確定性存在的。當使用分塊處理方法,混合區域場景通常無法確定其類別信息。其二,場景的粒度選取問題。常見的遙感影像場景分類數據集,如NWPS-RESISC45場景數據集、 WHU-AID場景數據集、 UCM數據集等,使用的是更為主觀的細粒度劃分方法,包含了20-40個場景影像集,這與地理國情普查實際生產所需的類別信息差別巨大,無法直接用於大幅遙感影像的語義分割任務中。
總結與展望
張覓對高解析度遙感影像語義分割技術做了系統研究,同時也指出了主要的問題和研究方向。
(一)CLS-GAN增廣影像規模評定。 CLS-GAN已經可以有效地對有限的樣本進行增廣,但增廣得到的數據是模擬數據,與真實數據間仍存在一定差異,這種差異性,主要是兩個方面因素導致的:首先是生成樣本的分布與真實數據分布偏差。其次是生成樣本與真實樣本混合訓練的權重均衡。
(二)DMSMR結構優化。本次報告提出的DMSMR方法,仍有兩方面的改進空間:其一,基礎網路結構的壓縮。本次報告中選取的VGG-16前5層作為網路結構進一步設計的基礎,但近期的研究表明,使用ResNet等深度「跨越連接」(skip-connection)結構可以進一步提升性能,這些網路的特點是顯存消耗量大,因此,需要進行網路結構「剪枝」壓縮,優化基礎網路;其二,多尺度融合方法改進。本次報告採用了常見的均值融合方法來融合各個尺度下的語義分割結果,實際上各個尺度下可能出現結果不均衡的情況,所以,研究多尺度輸出條件下,各尺度權重自動均衡的方式,對語義分割方法有著重要的意義。
(三)「空-天-地」場景結合的語義分割方法。 目前,「空-天-地」數據獲取方式已有了很大進展,從地理信息更新的角度出發,室內/室外與中高解析度航空衛星影像、中高解析度衛星影像和低解析度遙感影像之間存在相互補充,相互促進的作用,因此「空-天-地」一體化的場景集成訓練模型,能進一步提升影像解譯的準確性,甚至達到實時更新地理信息數據的要求。無監督條件下眾源數據支撐的影像語義分割。 本次報告基於DCNN的高解析度影像語義分割層次認知方法,仍停留在監督訓練模型上,但日常生活中存在各種各樣與影像相關聯的眾源數據信息,如文本、語音等,以這些未標註的數據為基礎,用於輔助無監督或者弱監督信號的影像語義分割,是另外一個可能的發展方向。
(四)語義分割層次認知模型的智能化硬體平台研發。本次報告提出的方法,在語義分割任務上的效果,主要是依賴於GPU硬體集群環境的支撐。對於遙感測繪行業,很多生產部門並不具備GPU集群設施;此外,雖然很多DCNN演算法已被集成至硬體環境中,但這些晶元和硬體,主要是針對自然影像處理而言的,對於遙感影像很多特性並未考慮在內,因此,未來有必要進一步將語義分割的層次認知方法擴展至硬體水平,推動本領域在智能化方向的發展。
觀眾認真聽講
觀眾提問
張覓(左五)與GeoScience Café團隊成員合影留念
GeoScience Café以「談笑間成就夢想」為口號,採取最自由的交流方式,每期邀請1-4位報告人,針對自己正在進行的研究展開報告。每周五晚7:30,在武漢大學測繪遙感信息工程國家重點實驗室四樓休閑廳舉行當期活動。報告內容不僅涉及一切與測繪有關的學科內容及學術方法,如測繪基礎學科、地理信息系統、攝影測量與遙感、全球定位系統、激光雷達技術、信號處理,還包括地理信息科學以外的話題,如法律和藝術等。讓任何感興趣的人——不僅是地理信息相關專業的師生,還包括其他專業的師生,甚至是文科生——都可以聽取報告,併當場向主講嘉賓提問或者會後與其交流。
更多精彩內容(報告PPT、新聞稿及下期活動消息等)敬請通過下列方式關注。
編輯:紀艷華 審稿:史禕琳
TAG:GeoScienceCafe |