當前位置:
首頁 > 新聞 > Science:AI 相互協作首次戰勝人類,機器學習演算法學會了「忠誠」

Science:AI 相互協作首次戰勝人類,機器學習演算法學會了「忠誠」

Science:AI 相互協作首次戰勝人類,機器學習演算法學會了「忠誠」

新智元編譯

相關論文下載:https://arxiv.org/pdf/1703.06207.pdf

Science:AI 相互協作首次戰勝人類,機器學習演算法學會了「忠誠」

計算機第一次教會它們自己如何在遊戲中進行合作,其目的是讓所有玩家都能得到最好的結果。研究人員說,這項突破遠比訓練人工智慧在諸如國際象棋或圍棋之類雙方要麼輸要麼贏的比賽中取勝更加困難。這些進展有助於進一步增進人機合作。

20年前,超級計算機「深藍」在國際象棋比賽中贏了當時的世界冠軍 Garry Kasparov。最近,AI 研究者已經開發出在對計算要求更高的遊戲(如圍棋和撲克)中擊敗人類的程序。但是,這些都是贏者通吃,或者說「零和」(zero-sum)的遊戲,也就是說,其中一個玩家贏了的話,其餘玩家全輸。研究人員在合作遊戲方面的研究較少,這些研究的目的是讓遊戲玩家共同合作,以優化每個參與者的結果,即使從邏輯上來說每個玩家都可以通過「背叛」其他玩家以使自己的結果更好。

這類型的遊戲包括「膽小鬼博弈」(The game of chicken),其中兩名車手相對驅車而行,最先轉彎的一方被恥笑為「膽小鬼」(chicken),讓另一方勝出。還有博弈論中經典的「囚徒困境」,其中兩個人因同一件罪行被指控有罪。假如兩人彼此合作,都否認犯罪,雙方都可縮短刑期(比如說1年)。但假如一個囚犯背叛了同夥,他可為自己帶來利益(無罪開釋),但同夥會被判更長的刑期(比如說3年)。假如雙方都出賣對方,兩人分別被判2年。「囚徒困境」只有一輪的話,從邏輯來說兩名玩家都會出賣對方。但在重複的囚徒困境中,博弈反覆進行,人們會學習合作,以獲得最輕的刑期(1年)。

Jacob Crandall 是楊百翰大學計算機科學家,他和同事們想看看機器是否能夠學習玩這類「非零和博弈」的遊戲。研究人員讓人類玩家和計算機一起玩電子版的「膽小鬼博弈」和「囚徒困境」,以及另外一個名為「Alternator」(霹靂賽車)的合作策略遊戲,團隊由兩名人類玩家,兩台計算機組成,或者一名人類玩家對一台計算機。研究人員測試了25種不同的機器學習演算法,AI 程序可以通過在他們的行動和結果之間自動搜索相關性來提高表現。

讓研究人員失望的是,這些演算法都沒有能夠學會合作。但隨後,他們轉向從進化生物學獲得的啟發。他們認為,為什麼不引入人類之所以能夠合作的關鍵要素——溝通的能力呢?所以它們加入了19個預先寫好的句子,比如「我正在改變我的策略」,「我接受你的最後一個建議」,或者「你出賣了我」,這些句子可以在每個回合之後在玩家之間來回傳遞。隨著時間的推移,計算機必須使用它們的學習演算法在遊戲的語境中學習這些短語的含義。

這一次,被稱為S#(發音是 S sharp)的演算法在25種演算法中凸顯出來。當給出一個以前未知的遊戲的描述時,該演算法能學會在幾輪之內與夥伴合作。而在遊戲結束時,只有機器的隊伍幾乎100%的時間都是合作的,而人類隊伍平均只有60%的時間合作。Crandall 說:「機器學習演算法學會了忠誠。」

這種可靠性對於那些為自動駕駛汽車,無人機,甚至戰場上的武器作決策的演算法來說可能是福音。KTH 皇家理工學院機器人學家 Danica Kragic 說:「[迄今為止]像這樣的合作都沒有成為研究者的目標。」相反,她補充說,大多數研究工作都側重於創造可以超越人類能力的自主技術,從人臉識別到玩撲克的程序都是這樣。「機器需要學會做的不僅僅是競爭,」Crandall 補充說,「機器人技術的研究在強調合作方面做得更好,這可以作為 AI 繼續進展的一種模式。」

Science:AI 相互協作首次戰勝人類,機器學習演算法學會了「忠誠」

3月27日,新智元開源·生態AI技術峰會暨新智元2017創業大賽頒獎盛典隆重召開,包括「BAT」在內的中國主流 AI 公司、600多名行業精英齊聚,共同為2017中國人工智慧的發展畫上了濃墨重彩的一筆。

點擊閱讀原文,查閱文字版大會實錄

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

外媒評百度「無」恩達時代和騰訊迎接張潼到來
功率密度成深度學習設計難題,數據中心市場展現新機遇
北大AI公開課第六講王俊:DNA是生命數字化的過程,AI改變生命科學
今日頭條馬維英談個性化推薦技術,AI Era保持領先5大優勢
宋繼強詳解英特爾AI戰略布局,三大引以為豪的技術優勢

TAG:新智元 |

您可能感興趣

Science專訪谷歌Magenta負責人:AI創作焦點是機器學習演算法
機器學習演算法實踐:決策樹 (Decision Tree)
機器學習奠基人Thomas Dietterich:人類將如何受到AI威脅
谷歌AI基金第一投:Algorithmia,機器學習演算法「集市」
Elastic機器學習Steve Dodson:機器學習的潛能
谷歌DeepMind與OpenAI合作預防機器人暴亂
Makeblock:可編程機器人,用機器構建想法
機器人會還價?Facebook教機器與人類談判
Hey Oculus!機器學習團隊主管解密Facebook語音識別戰略
選擇Spark機器學習API的四大機器學習演算法,你掌握了多少?
對話《機器學習》作者 Tom Mitchell:人工智慧如何顛覆我們的城市
每月好書:Python機器學習演算法
這家AI公司,要用機器學習建成Facebook類的知識平台
機器之心對話谷歌高級研究科學家Greg S Corrado:人工智慧並不會讓大公司形成壟斷
人工智慧專家 Michael Jordan 談機器學習的未來
Slack與ServiceNow聯手,將在聊天應用中融入機器學習技術
Python vs R,誰才是機器學習編程語言的首選?
機器學習演算法實踐:樸素貝葉斯 (Naive Bayes)
平板 輪子=?智能機器人TEMI讓你在家成為couch potatoes