對抗深度強化學習是如何解決自動駕駛汽車系統中的安全性問題的？

科技 05-05

圖源：unsplash

原文來源：arXiv

作者：Aidin Ferdowsi、 Ursula Challita、Walid Saad、Narayan B. Mandayam

「雷克世界」編譯：嗯~是阿童木呀、KABUDA

導語：對於自動駕駛汽車（AV）而言，要想在未來的智能交通系統中以真正自主的方式運行，它必須能夠處理通過大量感測器和通信鏈路所收集的數據。這對於減少車輛碰撞的可能性和改善道路上的車流量至關重要。然而，這種對通信和數據處理的依賴性使得AV很容易受到網路物理攻擊。最近，美國弗吉尼亞理工大學電氣與計算機工程系的Aidin Ferdowsi和Walid Saad教授，瑞典愛立信研究院的Ursula Challita教授，以及美國羅格斯大學的Narayan B. Mandayam教授，針對自動駕駛汽車系統中的「安全性」問題，提出了一種新型對抗深度強化學習（RL）框架，以解決自動駕駛汽車的安全性問題。

對於自動駕駛汽車（AV）而言，要想在未來的智能交通系統中以真正自主的方式運行，它必須能夠處理通過大量感測器和通信鏈路所收集的數據。這對於減少車輛碰撞的可能性和改善道路上的車流量至關重要。然而，這種對通信和數據處理的依賴性使得AV很容易受到網路物理攻擊。最近，美國弗吉尼亞理工大學電氣與計算機工程系的Aidin Ferdowsi和Walid Saad教授，瑞典愛立信研究院的Ursula Challita教授，以及美國羅格斯大學的Narayan B. Mandayam教授，針對自動駕駛汽車系統中的「安全性」問題，提出了一種新型對抗深度強化學習（RL）框架，以解決自動駕駛汽車的安全性問題。

可以這樣說，為了能夠在未來的智能城市有效地運行，自動駕駛汽車（AV）必須依靠車內感測器，如攝像頭和雷達，以及車輛間的通信。這種對於感測器和通信鏈路的依賴使得AV暴露於攻擊者的網路物理（CP）攻擊之下，他們試圖通過操縱它們的數據來控制AV。因此，為了確保安全和最佳的AV動力學控制，AV中的數據處理功能必須針對這種CP攻擊具有強大的魯棒性。為此，本文分析了在存在CP攻擊情況下監視AV動力學的狀態估計過程，並提出了一種新的對抗深度強化學習（RL）演算法，以最大化AV動力學控制針對CP攻擊的魯棒性。我們在博弈論框架中對攻擊者的行為和AV對CP攻擊的反應進行了研究。在制定的遊戲中，攻擊者試圖向AV感測器讀數中注入錯誤數據，以操縱車輛間的最佳安全間距，並潛在地增加AV事故的風險或減少道路上的車流量。與此同時，AV作為一名防守者，試圖將間距的偏差最小化，以確保具有針對攻擊者行為的魯棒性。由於AV沒有關於攻擊者行為的信息，並且由於數據值操作的無限可能性，因此玩家以往交互的結果被輸入到長短期記憶網路（LSTM）塊中。每個玩家的LSTM塊學習由其自身行為產生的預期間距偏差並將其饋送給其RL演算法。然後，攻擊者的RL演算法選擇能夠最大化間距偏差的動作，而AV的RL演算法試圖找到最小化這種偏差的最佳動作。模擬結果表明，我們所提出的對抗深度RL演算法可以提高AV動力學控制的魯棒性，因為它可以最小化AV間的間距偏差。

智能交通系統（ITS）將包括自動駕駛汽車（AV）、路邊智能感測器（RSS）、車輛通信、甚至是無人機。為了在未來的ITS中能夠以真正自主的方式運行，AV必須能夠處理通過大量感測器和通信鏈路所收集的大量ITS數據。這些數據的可靠性對於減少車輛碰撞的可能性和改善道路上的車流量至關重要。然而，這種對通信和數據處理的依賴性使得AV很容易受到網路物理攻擊。特別是，攻擊者可能會在AV數據處理階段進行插入，通過注入錯誤數據來降低測量的可靠性，並最終導致事故或危及ITS中的交通流量。這樣的流量中斷還可以波及到其他相互依賴的關鍵基礎設施中，例如為ITS提供服務的電網或蜂窩通信系統。

圖1：文中所提出的對抗深度強化學習演算法的體系結構

最近，科學家們已經提出了一些解決車輛內部安全問題的安全性解決方案。P. Kleberger、T. Olovsson和E. Jonsson在他們所著的《聯網汽車車載網路的安全問題》中，確定了車輛控制器的關鍵漏洞所在，並提出了許多入侵檢測演算法用以保護該控制器。此外，在《對聯網汽車的實際無線攻擊和車輛內部的安全協議》中，作者指出，AVs當前安全協議中的遠程無線攻擊可能會中斷其控制器區域網路。他們分析了AVs車輛內部網路對局外無線攻擊的脆弱性。同時，《插入式車輛的安全性問題》的作者解決了插電式電動汽車的安全性挑戰，同時考慮了它們對電力系統的影響。此外，在《關於嵌入式汽車網路安全威脅和保護機制的調查》中介紹了嵌入式汽車網路安全威脅和保護機制的調查。

此外，最近科學家們還研究了車輛通信安全挑戰和解決方案。分析了當前車輛通信體系架構的安全漏洞。此外，科學家們發現，通過使用短期認證方案和合作車輛計算架構，可以減輕由信標加密引起的計算開銷。

圖2：在攻擊者只攻擊信標信息的情況下，AV和攻擊者的行為、regret以及我們提出的演算法的偏差

然而，在設計安全解決方案時，以往的一些研究成果中的體系構架和解決方案沒有兼顧AV 的網路層與物理層之間的相互依賴性。此外，現有的研究沒有對攻擊者的行為和目標進行合理的建模。在這種情況下，攻擊者的行為和目標的這種網路-物理依賴性將有助於提供更好的安全解決方案。另外，在一些以往的研究成果中，現有技術沒有提供能夠增強AV動力學控制應對攻擊的魯棒性的解決方案。然而，設計一個最佳且安全的ITS需要對車輛間感測器和車輛間通信的攻擊具有魯棒性。此外，現有的ITS安全性研究往往假設攻擊者的行為處於穩定狀態，然而在許多真實情況下，攻擊者可能會自適應地改變其策略以增強攻擊對ITS的影響。

因此，本文的主要貢獻在於提出了一種新型對抗式深度強化學習（RL）框架，旨在提供具有魯棒性的AV控制。特別要強調的是，我們提出了一種車輛跟隨模型（car following model），在該模型中，我們將關注的重點放在緊跟在另一個AV後的一個AV的控制上。這樣的模型是恰當的，因為它會捕捉AV的動力學控制，同時記錄AV的感測器讀數和信標。我們考慮通過車內感測器（例如：攝像頭、雷達、RSS、車內信標）收集領先AV的四個信息源。我們認為攻擊者可以向這些信息中心注入不良數據，並試圖增加事故風險或減少車流量。相比之下，AV的目標是保持對攻擊者的數據注入攻擊（data injection attacks）具有魯棒性的同時，最大限度地控制其速度。為了分析AV和攻擊者之間的交互，我們提出了一個博弈問題，並分析了它的納什均衡（NE）。然而，我們注意到，由於存在連續的攻擊者和AV動作集以及連續的AV速度和間隔，使得在NE處獲得AV和攻擊者動作具有挑戰性。為了解決這一問題，我們提出了兩個基於長-短期記憶（long-short term memory）（LSTM）塊的深度神經網路（DNN），針對AV和攻擊者，提取過去AV動態的摘要，並將這些摘要反饋給每個玩家的RL演算法。一方面，AV的RL演算法試圖通過結合感測器讀數來從領先的AV速度中學習最佳估計。另一方面，攻擊者的RL演算法試圖欺騙AV，並偏離車輛間的最佳安全距離。模擬結果表明，所提出的深度RL演算法收斂於混合策略的納什均衡點，可以顯著提高AV針對數據注入攻擊的魯棒性。結果還表明，AV可以利用所提出的深度RL演算法來有效學習感測器融合規則，最大限度地減小速度估計誤差，從而減小了與最優安全間距的偏差。

圖3：在攻擊者攻擊所有感測器的情況下，AV和攻擊者的行為、regret和偏差

本文提出了一種新型深度RL方法，該方法能夠在感測器讀數受到數據注入攻擊的情況下，實現對AV的具有魯棒性的動力學控制（robust dynamics control）。為了分析攻擊者攻擊AV數據的動機，同時了解AV對這類攻擊的反應，我們提出了攻擊者與AV之間的博弈問題。我們已經表明，在納什均衡（the mixed strategies at Nash equilibrium）中推導出混合策略從分析角度而言具有挑戰性。因此，我們使用我們提出的深度RL演算法學習AV在每個時間步長中的最優感測器融合。在所提出的深度RL演算法中，我們使用了LSTM塊，它可以提取AV和攻擊者動作及偏差值之間的時間特徵與依懶性，並將其反饋給強化學習演算法。模擬結果表明，利用所提出的深度RL演算法，AV可以緩解數據注入攻擊對感測器數據的影響，從而保持對這些攻擊的魯棒性。

原文鏈接：https://arxiv.org/pdf/1805.00983.pdf

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 雷克世界 的精彩文章:

※伯克利提出使用隨機搜索訓練線性策略，可提高強化學習的性能表現
※Google提出新型增強現實顯微鏡，可提高醫療中癌症檢測的準確率

TAG:雷克世界 |