全能AI降臨之前,人類有哪些安全防範對策?
Root 編譯整理
量子位 出品 | 公眾號 QbitAI
霍金曾說過,通用人工智慧(簡稱AGI)將會終結人類。
這類警惕AGI的言論,其實很久之前就有。
早在1951年,艾倫·圖靈說過機器終會掙脫我們人類控制,接管這個世界。連工廠里使用大量機器人自動化生產特斯拉Model 3的馬斯克,都反覆公開強調,人類要積極監管,否則等回過神來的時候就已經來不及了。
澳洲國立大學三位AI學者Tom Everitt, Gary Lea, Marcus Hutter憂天下之憂,即將在IJCAI(國際人工智慧聯合會議)上發表一篇綜述AGI Safety Literature Review,盤點了這幾年全世界各地AI學者們對通用AI安全問題的思考。
簡單了解一下AGI
如今我們生活中聽過的或接觸到的AI,只能處理單一問題,我們稱之為弱人工智慧。
單獨下個棋,玩雅達利遊戲,開個車,AI都hold得住。但現在的AI還沒有「十」項全能的本領,無法同時做到在多個任務都表現得超過人類。
只有強人工智慧,也就是AGI,才具備與人類同等的智慧,或超越人類的人工智慧,能表現正常人類所具有的所有智能行為。
儘管現在並不存在AGI,但從人類把越來越多機械重複的工作都扔給AI解決這個趨勢來看,AGI早晚會到來。
When?
曾有人在某年的NIPS和ICML大會上,組織過一場問卷調查。其中一個問題,請在場的頂尖學者們預測,比人類強大的AGI什麼時候來。
容朕想一想
調查結果顯示,大家認為AGI會出現在2061年(結果取的中位數)。
掐指一算。也就還有43年。
AIXI模型,AGI學術圈內有望達到通用人工智慧的模型之一,由本文作者之一Marcus Hutter教授於2000年首次提出。
他假設任何計算問題都可以轉換為一個效用函數最大化的問題。
只用這一個公式,就概括出了智能的本質。
基於AIXI理論,Hutter教授和他的學生Shane Legg(也是DeepMind的聯合創始人)在2007年對智能下了個定義:
agent的智能程度,是看agent在複雜的環境里完成任務的能力。
在大多數人的認知里,一旦兩個agent同在一個環境里有著相斥的目標,那麼智能程度更高的agent靠智商碾壓對方來取勝。
這讓很多人感到深深的恐懼。
如果哪一天我們成為了某個AGI目標的障礙物,那麼比我們強大的AGI也很有可能會把我們清理掉。
圍繞這層擔憂,本文將從AGI可能造成的問題及人類的應對策略、公共政策這兩個方面展開論述。
提前防範AGI寶寶造反
底層價值取向
第一個能想到的危險,是以AGI的智慧程度,它已經可以把目標分等級了。
比如說,算出π小數點後的第xx位數值,和追求提高人類的生活幸福指數相比,AGI可能會覺得前者很沒意思。一旦AGI發展出自己的一套目標評價體系,那可能意味著它們不會乖乖「無腦」地完成人類交給他們的任務了。
所以我們人類一開始就要給AGI設計好底層的評價體系,相當於給它們一套我們人類做事的準則,一份moral code,價值取向。
教會AGI寶寶分辨好人和壞人
現階段,造AGI的最佳架構是強化學習。在單向任務上,棋類遊戲、電腦遊戲都用的強化學習。而採用強化學習的最大挑戰在於,如何避免agent為了優化而不擇手段抄近路。
不僅要防止agent篡改訓練數據,維護好獎勵函數的處理機制,還要小心最後輸出的評估表現被扭曲。AGI想要做手腳的話,可下手的地方太多了。
因此,我們人類得充分想到每一種可能,做對應的防禦機制。
穩定性
不過,即使辛辛苦苦教會它們怎麼做一個好AGI之後,它們也有可能會在自我進化的過程中改寫掉這些底層原則。所以設計一個穩定可靠的價值取向就很關鍵。
有學者Everitt, Filan認為,設計價值取向必須考慮的三大前提。
Everitt, Filan, et al. Learning the Prefer- ences of Ignorant, Inconsistent Agents , arXiv: 1512.05832.
1)Agent評估未來場景的模型得基於當下的效用函數;
2)Agent得提前預判自我改寫對未來行為策略的影響;
3)獎勵函數不能支持自我改寫。
可修正性
過於穩定,規則完全改不動也不行。
死守單一原則,容易被一窩端
DeepMind就尤其在意未來的AGI是否具有自我修正能力。指不定人類一開始設計的底層原則有啥毛病呢。不能改的話,也很恐怖。
這裡就需要引入一個修正機制。
默認情況下,agents出於自我保護會阻止修改、關閉。就像哈爾9000一樣,當發現鮑曼和普爾要關閉他時,他就會策劃反擊。但可修改、關閉的指定特殊情況例外。
除此之外,還需要設置長期監控agents行為的測試,一旦發現異常馬上關停。
安全性
用強化學習存在個問題。模型很容易受到訓練數據的干擾,被操控後墮落成壞AGI。
去年Katz拓展了Simplex演算法,把修正線性單元ReLU引入了神經網路。然後成功地驗證了含有300個ReLU節點8層的神經網路行為,從而提高了神經網路抗干擾能力。
具體ReLU如何提高模型的抗干擾性可參考:Katz, et al.Reluplex: An ecient SMT solver for verifying deep neural networks. arXiv: 1702. 01135
可理解性
深度神經網路是怎麼學習的,一直也是個謎。不理解它們的話,我們也沒法引導他們做出正面的決策。
為了可視化網路的行為,DeepMind的Psychlab心理實驗室模擬出了一個三維空間,嘗試理解深度強化學習的agents。
也有AI學者Zahavy為了觀察DQN在玩雅達利遊戲的策略,用t-SNE降維的方法可視化DQN頂層網路的活動。
公共政策怎麼定比較科學
有人擔心AGI造反,也有人擔心壞人濫用AGI把世界搞得一片混亂。後者更希望全球出一套統一的法規,調控AI的發展。
但也有人對法規持謹慎的態度。AI學者Seth D Baum認為,設定法規反而會把AI往火坑裡推。
當法規成了阻撓AI發展的外力,AI研究者們到時肯定會想辦法繞過這些條規。
那種自發摸索怎麼樣造出更安全的AI的內在動力,他認為,會更快嘗試出一條安全的路徑。關於自發內在的動力,他提出了幾點建議:
1)營造一個良好的討論氛圍,多半一些大會鼓勵AI研究機構和團隊公開發表他們對安全AGI的見解。
2)爭取利益相關第三方的資金支持,比如各大車廠以及軍隊。他們不差錢,也願意花在AGI的研究上。
3)不能把AGI的研發看作一個軍備競賽。如果遊戲規則是贏者通吃,那大家只會一味地拼速度,而忽視掉安全問題。
4)從社會行為學的角度來說,可以引導AI學者們公開發聲,表達出他們所做的AI研發工作是奔著安全的方向去的。一個人公開的表態會倒過來影響一個人的行為,從而促使大家在實際操作過程中也按照這個想法去做。人還是傾向於知行合一的。
事不宜遲,趕緊行動起來
頂尖的AI組織機構已經開始發力。IEEE已經在去年開始出一份道德指南(guidelines on Ethically Aligned Design)。ACM也和AAAI的SIGAI小組合作,2017年聯合舉辦了一個AIES( AI, ethics and society)大會。
歐盟也很重視這件事。今年拉著同盟國和業界的大佬一起拿出30億歐元給AI和機器人研究中心,以及歐洲議會組織了兩次會議,公開徵求民眾意見,探討AI和機器人的民事法律責任框架草案。
AGI留給人類準備對策的時間,也許還有不到50年。
希望最後AGI和人類能友好共處
最後,附AGI安全綜述全文:
https://arxiv.org/abs/1805.01109
作者系網易新聞·網易號「各有態度」簽約作者
—完—
加入社群
量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微信號qbitbot6,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。
※首個國產腦外科手術機器人獲批准產,王田苗教授指導打造
※「懶癌」患者福音:是時候找一個AI幫你做家務了
TAG:量子位 |