當前位置:
首頁 > 科技 > 如何提高自組織機器人的「協同能力」?專家提出「進化」神經網路控制器

如何提高自組織機器人的「協同能力」?專家提出「進化」神經網路控制器

圖:pixabay

作者:István Fehérvári、Wilfried Elmenreich

「雷克世界」編譯:嗯~阿童木呀

導語:對一組自組織機器人的神經網路控制器進行進化。這個2010年的研究成果使用一種自玩比賽的選擇對一組協同智能體進行進化,他們組織進行一個模擬的足球遊戲。僅僅通過500次的生成之後,一個較為理想的策略就出現了。

自組織系統通過在大量的組件或智能體之間進行典型的簡單局部交互,從而獲得例如全局系統行為。這一新興服務(emergent service)通常表現出適應性、魯棒性和可擴展性等屬性,這使得自組織範式對於像協同自主機器人(cooperative autonomous robots)這樣的技術應用程序具有至關重要的作用。可以這樣說,局部交互的行為往往很簡單,但通常很難對正確的交互規則集進行定義以實現所需的全局行為。在本文中,我們描述了一種全新的設計方法,它使用一種進化演算法和人工神經網路對設計過程中需要大部量研究工作的部分進行自動化處理。我們實施了一場模擬機器人足球比賽,從而對所提出的方法進行測試和評估。我們還引入了一種能夠與該方法相媲美的新方法,它採用Swiss System而不是完整的比賽以減少必要的模擬次數。

由多個自主移動機器人所組成的系統,這一概念之所以具有吸引力,原因如下:多個協同機器人將能夠以更好的性能表現或以更低的成本完成任務。此外,相較於執行相同任務的單個強大機器人,鬆散耦合的分散式系統往往更具有魯棒性,也更加靈活。移動機器人協同交互的好處可能是一項新興的服務,即一個漸進的結果,它遠不止是個體努力的總和。因此,一群機器人從而可以建立一個自組織系統。

FREVO框架的組成部分:通過進化演算法對智能體表示進行優化,以最大化給定問題的適應度

在過去的幾十年里 ,機器人技術的不斷發展為我們提供了大量小型的、廉價的自主設備硬體。然而,設計機器人之間的行為和交互仍然是一項非常複雜的任務。使用具有固定任務分解和分配的標準自頂向下設計方法通常會導致系統僅適用於一小部分參數。另一方面,像變化的環境或硬體故障等影響往往需要一個具有魯棒性且靈活的解決方案,從而為許多可能的系統狀態提供有用的服務。

傳統設計方法的另一種可替代性方法是將機器人組織成一個執行預定任務的自組織系統。因此,機器人通過簡單的局部交互實現了全局系統行為,而無需集中控制。正如自然界中的許多例子所展示的那樣,簡單的交互規則可以出現相當複雜的行為,同時能夠針對干擾和故障展現出可擴展性和魯棒性。這將使得簡單的控制系統,例如特定的機器人,身上具有一個小型的人工神經網路(ANN)。

一種顯示輸入、輸出和隱藏神經元組的神經網路的可能性布線方式。其中,粗線表示用更為強健的權重進行的連接,而權重較輕的連接則用灰色線表示。

不幸的是,現在還沒有一個直接的方法能夠設計這些規則,從而使整個系統顯示出所需的屬性。通常而言,這一新興服務是很難甚至是無法對其進行預測的。因此,對於系統設計人員來說,找到一組能夠使整個系統展現出所需屬性的規則是一項巨大且艱難的挑戰。主要問題在於,一個參數的微小變化可能會導致意想不到、甚至是違反直覺的結果。

要想設計一個具有所需新興行為的自組織系統,關鍵是要為系統組件(智能體)的行為找到局部規則,從而在系統規模上生成預期的行為。在大多數情況下,這需要進行大量的實驗和反覆的試錯才能夠成功,而且在這個過程中,如果系統具有高度複雜性,那麼效率將會非常低,甚至是不可能完成的。由於參數之間的意外依賴性關係,參數密集型系統也會受到結果的不可預測性影響。

使用不同I / O介面的人工神經網路(ANN)進行比賽的結果顯示

在本文中,我們討論了進化方法在設計自組織機器人團隊的基於人工神經網路控制系統中的應用。具體來說,我們對神經控制器和機器人之間的界面設計進行了處理,並詳細說明適應度函數(fitness function)參數對結果的特殊影響。作為該方法的案例研究,我們描述了模擬足球機器人的神經控制程序的演變過程。

我們已經描述了一種用於協同機器人團隊進化神經網路控制器的方法。給定一個總體目標函數,我們使用進化演算法,演化出神經網路控制器的特定權重和偏差。因此,神經網路學習對感官輸入進行解釋以控制機器人執行器,並根據有利於給定任務的策略行為進行行動。該方法是非常靈活的,可以應用於各種各樣的問題,但它依賴於一個足夠精確的模擬,以及一個能夠為進化演算法提供必要梯度的適應度函數。

模擬足球機器人比賽中,一組用於檢測球的輸入神經元

在案例研究中,我們已經對模擬足球機器人的控制行為進行了演化,從而協同性地贏得足球比賽。經過數百次的生成之後,一個團隊的球員能夠採取有用的行為方式。與相關研究工作形成對比的是,這些球員並沒有演變成諸如後衛、中場或前鋒這樣先驗定義的角色,但他們都有一個相同的神經網路控制器的實例。但是,在比賽期間,球員會根據他們所處的情況狀態而表現出不同的行為。因此,與生物系統類似,實體會以一種自組織的方式指定不同的角色。但由於這些實體是相同的,所以該系統對一些實體的失敗具有很高的魯棒性。

在實驗中,我們研究了各種因素可能會對結果造成的影響,結果顯示,最重要的因素是神經網路與感測器/執行器之間的介面設計。雖然從理論上來說,人工神經網路可以採用不同的感測器/執行器介面表示方式,但是找到一個對於人工神經網路來說具有較低「認知複雜度」的介面是很有必要的,在我們的例子中,這是一個感測器和預期的機器人運動的簡單直角坐標表示(cartesian representation)。除此之外,我們還分析了使用不同大小和類型的人工神經網路所產生的影響。雖然神經元的數量對性能表現的影響最小,但這種表示類型主要是有利於完全連接的網路類型。

未來,我們打算對所生成解決方案的魯棒性和容錯性進行評估。此外,我們的系統對表示(例如,使用不同的控制器類型)、優化方法和問題定義(例如,將方法應用於不同的問題域)呈現一個開放的狀態,而該領域仍具有很大的發展空間。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷克世界 的精彩文章:

對於這隻已經上市的「狗」,王小川認為一切只是新的開始
深度學習會不會退出AI的舞台?紐約大學為你解讀

TAG:雷克世界 |