OpenAI及DeepMind兩團隊令未來的AI機器更安全

科技 06-15

OpenAI和DeepMind的研究人員使用的新演算法從人類反饋中學習，他們希望這樣做能使人工智慧更安全。

兩家公司均為強化學習的專家，強化學習是機器學習的一個領域，其基本思想是，如果代理在特定的環境里採取正確的行動完成了任務就給予獎勵。該目標是通過一種演算法來指定的，代理經過程序後就會追逐獎勵，例如遊戲中的獲勝點。

強化學習在訓練機器如何玩如Doom或Pong等遊戲或通過模擬駕駛自主駕駛汽車等案例中取得了成功。強化學習是探索代理行為的一個有效的方法，但如果硬編碼演算法錯了或產生不良影響的話，這種方法可能也有危險。

arXiv上發表的一篇論文描述了一種有助於防止此類問題的新方法。首先，代理在其環境中執行隨機動作。預測的獎勵則是基於人類的判斷，而且獎勵被反饋到強化學習演算法中，以改變代理的行為。

OpenAI及DeepMind兩團隊令未來的AI機器更安全

系統在人類指導下制定最佳行動及學習目標

研究人員將這種演算法用於訓練一個彎曲的燈柱往後仰。代理的兩個視頻然後再交給人觀看，觀看者選擇哪一個的後仰動作更佳一些。

經過一段時間後，代理就逐漸學習了如何根據獎勵函數最有效地解釋人類的判斷來學習目標。強化學習演算法用於指導代理的行為，並可以持續在人類的批准下進行改進。

網上可找到相關的視頻。（https://www.youtube.com/watch?v=oC7Cw3fu3gU）

人類評估者花掉的時間不足一個小時。但要完成做飯或發送電子郵件等更複雜的任務就會需要更多的人類反饋，從財務的角度來看則是昂貴的。

文章的作者之一達里奧·阿莫德（Dario Amodei）是OpenAI的一名研究人員，他表示，未來研究的重點會放在減少監督方面。

他告訴記者，「泛泛而言，名為半監督學習的技術在這一塊可能有幫助。另一種可能性是提供更信息密集的反饋形式，如語言，或是讓人類在屏幕上具體指出表示良好行為的部分。更多的信息密集反饋可能會讓人類在更短的時間內更多地與演算法進行溝通。「

上述研究人員在其他模擬機器人任務和Atari遊戲里測試了他們的演算法，結果顯示機器有時可以實現超人式的性能。但這在很大程度上取決於人類評估者的判斷。

OpenAI在一篇博文里表示，「我們演算法的性能只能和人類評估者對於什麼是正確行為的直覺一樣好，所以，如果人類對一個任務沒有很好的把握，那他們可能提供不了太多有用的反饋。」

阿莫德表示，目前的結果僅局限於非常簡單的環境。但這種方法大有可能對有些很難學習的任務有用，這些任務的獎勵功能很難量化，例如駕駛、組織事件、寫作或技術支持的提供。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 ZD至頂網 的精彩文章:

※紐約時報使用谷歌的人工智慧審核評論
※企業級快閃記憶體存儲市場——抑或是供應商的墓地？
※PCIe速度水平將在2019年增至每秒128GB
※微軟遷移docs.com雲文件，並設定12月份的停用日期
※亞洲雲計算聯合會主席Bernie Trudel：雲和醫療健康

TAG:ZD至頂網 |

您可能感興趣

※賽程過半，NBA戰績盤點，第一集團穩定，東西部各一隊令人瞠目
※湖人or火箭？安東尼或許都不去，甜瓜若選擇一隊令全聯盟陷入絕望
※祖籍中國的日本運動員張本智和：戰勝中國隊令祖國為我驕傲
※季後賽首輪G1戰罷勇火鹿實力獨一檔！龍掘費3隊令聯盟失望
※這支中國部隊令日軍聞風喪膽，戰績全勝，未嘗敗果
※球隊所有球員都是可賣品，喬丹的球隊令人捉摸不透
※U21國青干不過U19對手？拼湊隊令孫繼海背鍋！國字型大小球衣都沒讓穿
※世界最強部隊排名，英國陸軍特種部隊第一，中國這支部隊令國人自豪
※國際足聯公布最新世界各國排名：中國隊令人感到意外？
※《我不是葯神》程勇的團隊令我嚮往
※最後3秒成功拆除定時炸彈，中國這支部隊令歹徒聞風喪膽
※冷兵器時代最厲害的十支軍隊，中國有哪三支軍隊令世界聞風喪膽？
※遼寧艦配國產航母：雙航母編隊令俄羅斯各種羨慕！
※海軍節中方陣容曝光，最強陣容震撼全場：驅逐艦梯隊令外刮目相看
※西部排名：勇士一戰交出榜首跌第四，火箭擠出前八，一隊令人驚奇
※就餐排隊令人頭疼，為什麼手機點單在中國更流行？
※C羅離隊令皇馬欲加速引入巴西天王抗衡巴薩球迷感慨：佛爺，內馬爾真的比C羅強嗎？
※海軍節中方陣容曝光：驅逐艦梯隊令外界刮目相看
※此軍隊令日軍膽寒，卻在一次戰役中損失慘重，10個旅長只剩1個
※十四年的戰火紛飛，中國哪個省份出力最多，此省軍隊令日軍膽顫