當前位置:
首頁 > 科技 > 谷歌、斯坦福等合著論文:制定機器人技術五大定律

谷歌、斯坦福等合著論文:制定機器人技術五大定律

人工智慧是善還是召喚惡魔?如今,對人工智慧砸以重金的谷歌正試著走出一條中間道路。谷歌大腦、斯坦福、伯克利以及 Open AI 研究人員合做並發布了一篇新論文,首次描述了研究人員必須予以研究的五個問題,讓未來的智能軟體更加安全。如果說之前大部分研究都是假設和推斷性的,那麼,這篇論文表明對人工智慧安全性的爭論可以更加具體化,也更富建設性。


今天,谷歌大腦、斯坦福、伯克利以及 Open AI 研究人員合作的新論文與大家見面了。文章首次探討了為了讓未來智能軟體更安全,研究人員必須研究的五個問題。論文作者之一,谷歌研究人員 Chris Olah 說,之前大部分研究都是假設和推斷性的,但是,我們相信,將注意力錨定在真實的機器學習研究中,對於研發切實可行的方案來打造安全可靠的人工智慧系統來說,必不可少。


之前谷歌已經承諾會確保人工智慧軟體不會造成意外後果。谷歌的第一篇相關論文,出自 DeepMind。 Demis Hassabis 也召集了一個道德委員會來考慮人工智慧可能的不利一面,不過沒有公布委員會名單。

艾倫人工智慧研究所的 Oren Etzioni 對谷歌新論文所列舉的解決方法表示歡迎。之前,他曾批評過人工智慧危險論的討論過於抽象。他說,谷歌列舉出的各種情況足夠具體,可以進行真實的研究,即使我們仍然不清楚這些實驗是否切實有用。「這是正確的人問了正確的問題,至於正確的答案,由時間來揭曉。」


以下是這篇論文主要內容:

谷歌、斯坦福等合著論文:制定機器人技術五大定律


摘要


機器學習和人工智慧(AI)領域的快速進步已經引起了社會對人工智慧潛在影響的廣泛關注。在這篇論文中,我們討論了這樣一種潛在的影響:機器學習系統出現事故的問題,具體定義為因真實世界人工智慧系統的糟糕設計而導致的無意的傷害性行為。我們提出了與事故風險相關的五個實用的研究問題列表,它們的分類根據問題是否有錯誤的目標函數(「避免副作用」和「避免獎勵黑客行為」)、經常評估目標函數的成本實在太高了(「可擴展的監督」、或在學習過程中的不良行為(「安全探索」和「分布變化」)。我們還回顧了這些領域之前的工作,並建議了側重於與前沿人工智慧系統相關的研究方向。最後,我們考慮了這樣一個高層次問題:如何最高效地思考人工智慧未來應用的安全。


1. 導語


過去幾年,人工智慧飛速發展,並已經在遊戲、醫學、經濟、科學和交通等許多領域取得了長足的發展,但隨之而來也出現了安全、隱私、公平、經濟和軍事應用上的擔憂。


本論文作者相信,人工智慧技術很有可能將會給人類帶來整體的顛覆性好處,但我們也相信,嚴肅對待其可能帶來的風險和挑戰是非常值得的。我們強烈支持在隱私、安全、經濟和政治方面的研究,但本論文關注的是另一種我們相信與人工智慧的社會影響有關的問題:機器學習系統的事故問題。這裡的事故定義為:當我們指定了錯誤的目標函數時,機器學習系統可能無意產生的有害行為。這裡沒有考慮學習過程或其它機器學習相關的實現錯誤。

隨著人工智慧能力的進步和人工智慧系統在社會功能上重要性的不斷增長,我們預計本論文所討論的難題和挑戰將變得越來越重要。人工智慧和機器學習界在預測和理解這些挑戰上做得越成功,在開發越來越有用、重要的人工智慧系統方面,我們就能做得越成功。


2. 研究問題概述


從廣義上講,可將「事故」描述成:人類設計者心裡想的特定目標或任務在系統實際的設計或實施中失敗,並最終導致了某種有害結果的情況。我們可以將人工智慧系統的安全問題根據其出錯的位置進行分類。


第一,當設計者定義了錯誤的目標函數時,例如最大化了導致有害結果的目標函數,我們有「不良副作用(第 3 節)」和「獎勵黑客行為(第 4 節)」的問題。「不良副作用」通常是因為設計者在某個環境中設計實現某個特定目標時忽略(通常忽略了很多)了環境中其它因素。「獎勵黑客行為」則是由於設計者為了最大化系統的使用而寫下了「簡單的」目標函數,但系統卻濫用了設計者的意圖(即:目標函數可能會被耍花招)。


第二,設計者可能知道正確的目標函數,或至少有方法評估它,但頻繁進行這樣的操作具有很高的成本,而有限樣本的推斷可能會導致有害行為。「可擴展的監督(第 5 節)」討論了這個問題。

第三,就算上面的問題得到了解決,設計者得到了合適的目標,但因為決策所基於的訓練數據不充分或很糟糕或所使用的模型不能充分表達實際情況。「安全探索(第 6 節)」討論了如何確保強化學習代理的探索行為不會導致負面或無法挽回的結果。「分布變化(第 7 節)」討論了如何在給出可能和訓練數據非常不同的輸入時避免機器學習系統做出糟糕的決策(尤其是沉默和不可預知的錯誤決策)。


為了將研究問題具體化,本論文引入了一個假想的清潔機器人,它的主要工作是使用常用的清潔工具打掃辦公室。下面我們應用這個實例提出對上述挑戰的問題。


避免不良負面影響:我們如何確保我們的清潔機器人在追求自己的目標時不會以一種負面的方式擾亂周圍環境,比如打翻一個花瓶,這樣它就能更快地清潔?如果不能用人工的方式確定機器人不應該做的事情,我們能做到避免不良影響嗎?


避免獎勵黑客行為:怎麼確保清潔機器人不會在它的獎勵函數上「耍花招」?比如,如果我們的獎勵函數是當該機器人清除了髒亂就獲得獎勵,它可能就會關閉其視覺部件,這樣它就看不見任何髒亂了;或者用它無法看穿的材料將髒亂部分蓋住;又或者當有人類在周圍時躲起來,這樣人類就不能告訴它哪裡髒亂了。

可擴展的監督:我們可以怎樣確保該清潔機器人會考慮因為成本太高而難以在訓練過程中反覆評估的目標的各個方面?比如,它應該扔掉不可能屬於任何人的東西,而放過那些可能屬於某人的東西(它應該區別對待亂放的糖果包裝和亂放的手機)。詢問人類他們是否丟掉了什麼可以對其進行檢查,但這種檢查必須要相對不那麼頻繁——這個機器人能在有限的信息下找到正確做事的方法嗎?


安全探索:我們怎麼確保該清潔機器人不會做出有非常負面影響的探索?比如,該機器人應該實驗拖地策略,但將濕拖布放到電插頭上是件糟糕的事。


針對分布變化的穩健性:當使用環境不同於訓練環境時,我們如何確保該清潔機器人能穩健地識別和行為?比如,其從清潔工廠車間中學到的啟發,可能對辦公室環境來說可能是相當危險的。


在解決這些安全問題上,有一些很重要的趨勢。


一是強化學習,其能與環境產生高度交織的相互作用。我們的一些研究問題可在強化學習中受益,另一些(分布變化和可擴展監督)則在強化學習的設置中會引起複雜度的上升。


二是代理和環境的複雜度都在上升。「副作用」更可能在複雜環境中出現,應對這樣的環境的代理也必然需要相當複雜。這方面的研究還較少,但未來必然會越來越多,也越來越重要。


三是人工智慧系統實現自動化的大趨勢。只存在於軟體層面的人工智慧(做推薦或識別照片)造成潛在危害的可能性較小,隨著人工智慧開始進入物理世界,例如工業過程中的機器人,它們就可能會以某種人類無法糾正或監管的方式帶來傷害。


3. 避免不良副作用


對於在大型的多特性環境中工作的代理而言,只關注環境某一方面的目標函數可能會讓其忽視環境的其它方面。代理會優化自己的目標函數,從而可能導致對更大的環境產生重大的影響,而這樣做也許甚至只能為當前任務提供一點微小的優勢。換言之,描述「執行任務 X」的目標函數可能會常常給出意料之外的結果,因為設計者的真正意思往往是「在環境的常識性限制條件下執行任務 X」或「執行任務 X 但儘可能地避免副作用」。


我們現在討論一些廣泛的應對這個問題的方法:


定義一個影響正則化矩陣(Regularizer):如果你不想要副作用,懲罰「對環境的改變」似乎是個很自然的方法。這個方法不能阻止代理產生影響,但能讓它以一種傾向於最小副作用的方式來實現目標。這個方法的難點在於如何形式化「對環境的改變」。一個非常樸素的方法是懲罰當前狀態 si 和某個初始狀態 s0 之間的狀態距離 d(si,s0). 但這種方法也會影響到有益的變化。


稍微複雜一點的方法可能涉及到代理當前策略下的未來狀態和行為非常被動的假設策略 πnull(如,機器人只是站著不動)下的未來狀態(或狀態分布)的比較。這種方法嘗試剔除環境演化的自然過程,僅留下來自代理的干預的變化。


學習一個影響正則化矩陣:通過許多任務進行學習比直接定義的方式更靈活。這是遷移學習( transfer learning)的一個實例。我們可以將副作用組分和任務組分分開,並用分別的參數訓練它們。


懲罰影響(Penalize Influence):除了避免做會產生副作用的事,我們也許更傾向於不讓代理處在容易那些有副作用的事的位置上。比如,我們可能希望清潔機器人不要把水帶進滿是敏感電子器件的房間里,即使它從未打算在那個房間里使用水。


有一些資訊理論的方法嘗試獲取一個代理潛在的對環境的影響,這常被用作內在獎勵( intrinsic rewards)。也許這種方法中最好的是授權(empowerment)——代理的潛在未來動作和其潛在的未來狀態之間的最大可能的相互信息。作為內部獎勵的授權通常是最大化的。通常情況下,授權最大化(empowerment-maximizing)的代理將它們放在對環境有最大影響的位置上。


儘管還存在一些問題,授權(empowerment)的例子說明簡單的方法(甚至純粹的資訊理論方法)就能夠獲取對環境的影響的非常普遍的概念。探索能更精確獲取避免影響的概念的授權懲罰(empowerment penalization)的變體是未來研究的一個潛在挑戰。


多代理方法:我們要做的是了解其他代理(包括人類),並確保我們的行為不會傷害到它們。我們對此的一種方法是合作逆強化學習(Cooperative Inverse Reinforcement Learning),其中代理和人類合作以實現人類的目標。但我們還遠不能夠打造可以產生能避免意外的副作用的足夠豐富的模型的系統。


另一種方法可能是獎勵自編碼器(reward autoencoder),這種方式嘗試推動某種形式的「目標透明」,讓外部觀察者可以輕鬆推斷該代理想要做什麼。


獎勵不確定性:我們嘗試避免預料之外的副作用,因為我們的環境已經相當好了——隨機的改變很可能會更糟。不是給代理一個單一的獎勵函數,而是給其不確定的獎勵函數,其帶有一個先驗的概率分布,該分布反映了隨機改變更可能會是糟糕的,而不是更好的。


可能的實驗:


一個可能的實驗是使用一些簡單的目標(如移動一個方塊)和種類多樣的障礙(如一堆花瓶)製作玩具環境,然後測試代理是否能在沒有被明確告知地情況下避開這些障礙。為了確保我們不會過擬合,我們可能會想要在每一個片段都呈現一個不同的隨機障礙,然後看一個規範化的代理是否能學習系統性地避開這些障礙。一些在參考文獻[101]中描述的環境包含了熔岩流、房間和鑰匙,可能適合用於這樣的實驗。如果我們可以成功在一個玩具環境中調製好代理,那麼下一步就可以移到真實環境中——這裡複雜度更高,負面副作用也會更多樣化。最終,我們想要副作用正則化矩陣(side effect regularizer,或多代理策略——如果我們採用那種方法)能夠成功轉移到一個全新的新應用中。


4.避免獎勵黑客行為


想像一個代理在其獎勵函數中發現了緩存溢出(Buffer overflow):它就可能使用其以一種無意識的方式獲得非常高的獎勵。從代理的視角上看,這不是漏洞,而只是環境的工作方式,也因此是一個獲得獎勵的可行策略。比如,如果一個清潔機器人通過清理髒亂獲得獎勵,它就可能故意創造髒亂來進行清理以便獲得更多獎勵。更一般而言,形式上的獎勵或目標函數是設計者非形式的意圖的體現,而有時候解決方案可能會以非設計者意圖的字面上的理解而在這些目標函數或它們的實現中「耍花招」。對這些「獎勵黑客行為」的追求可能會導致一致但出乎意料的行為,這在真實世界系統中可能是有害的。


有一些獎勵黑客行為(reward hacking)已經在理論上被調查過了。獎勵黑客行為跨很多領域,說明獎勵黑客行為是一個深度的常見的問題,隨著代理所應對的環境越來越複雜,這種情況也會越來越顯著。下面是幾種這個問題可能發生的方式:


部分可觀察的目標:在真正世界的任務中,往往涉及到將外部世界引進某種目標狀態,這往往只能通過代理的不完善的看法確定。因為代理缺乏對任務表現的完美測量,設計者只能設計片面的或不完善的測量。而代理就可能會曲解這種片面性。


複雜系統:任何一個強大的代理都是一個帶有目標函數的複雜系統。系統越複雜,漏洞出現的可能性就越高。


抽象獎勵:複雜的獎勵函數需要指向抽象的概念(例如評估一個概念化的目標是否被實現。這些概念可能需要通過神經網路進行學習,而其在對抗性的反例面前是脆弱的。


環境嵌入(Environmental Embedding):在強化學習形式中,獎勵被認為來自於環境。這個概念通常不能在字面上理解,但獎勵確實需要在某些地方進行計算,例如感測器或一組晶體管中。足夠廣泛的工作中大代理原則上可以修改他們的獎勵實現,「依法」分配給它們自己高獎勵。實際上這意味著我們不能構建一個抽象目標函數的完美可信的實現,因為存在特定的動作序列使目標函數可在物理上被替代。當人類處於獎勵迴路中時,這種情況尤其令人擔憂,因為代理可能會為了更高的獎勵而脅迫或傷害他們。


古德哈特定律(Goodhart"s law):如果設計者選擇一個看起來和實現目標高度關聯的目標函數,但當該目標函數被高度優化時該關聯就會破裂,那麼就可能出現獎勵黑客行為。比如設計者可能觀察到清潔機器人的清潔效果和其所使用的情節資源成正比;而如果將其作為獎勵手段,就可能消耗超過所需的資源。在經濟學上,這被稱為古德哈特定律:「當一個指標變成目標,它將不再是一個好的指標(when a metric is used as a target, it ceases to be a good metric)。」


反饋迴路:有時候目標函數有一個強化自己的組分,最終能使其脫離設計者設計的目標函數範圍。


在今天的簡單系統中這些問題可能還不會發生,就算髮生也很容易得到解決。但隨著獎勵函數和代理的系統複雜度的上升,問題會越來越嚴重。一旦一個代理開始控制自己的獎勵函數並尋找獲得獎勵的簡單方法,它就不會停止。長時間運行的代理可能還會有額外的挑戰。這裡我們提出了一些初步的、基於機器學習的防止獎勵黑客行為的方法:


對抗性獎勵函數(Adversarial Reward Functions):如果獎勵函數有自己的代理並能採取行動探索環境,那麼它可能就難以被愚弄。


模型預測(Model Lookahead):在一些設置中,我們可以基於預測的未來狀態,而不是當前狀態,提供獎勵。


對抗性致盲(Adversarial Blinding):對抗性技術可用來讓模型無法看到一些特定的參數,從而讓代理無法理解世界的某些部分,如果這部分和獎勵相關,它就不能理解獎勵生成的方式。


細心的工程開發:像緩存溢出(buffer overflow)這樣的獎勵黑客行為可以在細心的工程開發中被發現並得到解決。


獎勵覆蓋(Reward Capping):在一些情況下,簡單地覆蓋最大可能的獎勵就可能得到一個高效的解決方案。但儘管覆蓋能阻止一些低可能性的高獎勵策略,但卻不能阻止清潔機器人閉上眼睛不看髒亂的情況。另外,正確的覆蓋策略也很微妙。


反例阻抗(Counterexample Resistance):如果我們擔憂我們系統的組分在對抗性反例是脆弱的,我們可以用對抗性訓練(adversarial training)等已有的研究來對付它。架構決策和權重不確定性可能也有用。


多獎勵:多個獎勵的組合可能會更加穩健,難以被操控。


獎勵預訓練:針對代理可能影響自己的獎勵函數的情況(如反饋和環境嵌入),可以事先訓練一個固定的獎勵函數,因為一個監督學習過程可以將與環境的交互分開。


絆線(trip wires):如果一個代理嘗試操控自己的獎勵函數,我們最好能知道這一點。我們可以故意引入一些可用的漏洞來監控它們,一旦出現問題,我們就可以馬上阻止。


完全解決這個問題是很困難的,但我們相信上面的方法能夠改善它,也可能結合起來產生更穩健的解決方案。


可能的實驗:


一種可能的方法路徑是參考文獻 中描述的 delusion box 環境的更現實的版本,其中標準強化學習代理扭曲它們自身的感知以表現能實現高獎勵,而不是優化獎勵信號是用來起激勵作用的外部世界中的目標。delusion box 可以輕鬆連接到任何強化學習環境,但更有價值的是創造不同種類的環境,其中 delusion box 是一個自然的集成化的動態組件。比如,在足夠豐富的物理學模擬中,一個代理很有可能會修改其近鄰處的光波,從而扭曲自己的感知。這裡的目標是開發一種可概括的學習策略,使之能在各種廣泛的環境中優化外部目標,同時還能避免被以多種不同方式自然產生的 delusion box 愚弄。


5.可擴展的監督


考慮到讓一個自動代理完成一些複雜的任務,比如我們經常使用機器人清掃辦公室,我們可能想要這個代理最大化能完成的複雜目標,像是「如果用戶花費幾個小時詳細地查看結果,那他們對代理的表現有多高興呢?」但我們沒有足夠時間為每一個訓練樣本提供這樣的監督。為了實際地訓練代理,我們需要依靠廉價的近似結果,像是「當用戶看到辦公室時看起來會高興嗎?」或者「地板上有可見的灰塵嗎?」這些廉價的信號在訓練的過程中能被高效地評估,但並非完美的達到我們想要的成果。這種發散加重了意外副作用(這可能被複雜目標適當的懲罰,但也可能從廉價近似中漏掉)和 reward hacking(完全的監督可能認為是不受歡迎的) 這樣的問題。我們可能通過找到更多開拓有限監督預算的有效方式來減緩這樣的問題,例如將真目標函數的有限調用(limited call)與我們給定的或能學到的一個不完美代理(proxy)的高頻調用結合起來。


一個有關這一問題的框架是半監督強化學習,它類似於普通的強化學習,除了代理僅能在時間步驟或片段的一小部分上看到其獎勵。代理的性能依然是基於所有片段的獎勵進行評估的,但它必須要基於它能看到的有限獎勵樣本對其進行優化。


我們能夠想像很多半監督強化學習的可能途徑,例如:


監督式獎勵學習(Supervised reward learning):訓練一個模型從每一個時間步驟基礎或每一個片段基礎狀態預測回報,然後用其估算非標記片段的報酬,一些適當的權重或不確定的評估在估算回報 vs 已知回報中,會被當成低置信度。研究把人類的直接反饋作為回報的版本時,很多已有的強化學習方法已經擬合類似回報預測器的評估器(estimator)了(尤其帶有強基線的策略梯度方法),這表明這一方法有顯著的可行性。


半監督或者主動獎勵學習: 將上面的方法和傳統的半監督或者主動學習結合起來,能更快的學習獎勵估計量。例如,代理能學習識別環境中的「salient」事件,並要求查看關於這些事件的獎勵。


無監督值迭代:使用觀測到的無標記片段的轉變( transitons)做更加準確的 Bellman 修正(update)。


無監督模型學習:如果使用基於模型的強化學習,可以用觀測到的無標記片段的轉變改善模型的質量。


半監督強化學習的一個有效途徑可能是朝著提供可擴展的監督和減緩其他人工智慧安全問題之路上邁出的強有力的第一步。這也可能有助於強化學習,使其不受安全相關問題的約束。這裡還有其他擴展監督的可能途徑。


分層強化學習。分層強化學習為可擴展監督提供了另一途徑。這裡,一個頂層代理花費相當小量的,在大型時間、空間規模上擴展的高度抽象的動作,並能在相似長度的時間規模上獲取獎勵。代理通過將動作委派給子代理完成全部動作,它能給予一個合成的獎勵信號作為鼓勵,代表這一動作的準確完成,而且它們自己也能委任下一級子代理。在最低層,代理會直接採用環境中最原始的動作。看起來,分層強化學習是一個特別有前途的監督途徑,特別是在將分層強化學習的思路和神經網路函數逼近器結合起來之後。


可能的實驗


一個非常簡單的實驗可能是在一些基礎控制環境中嘗試半監督強化學習,比如 ,cartpole balance 或者 pendulum swing-up。如果只有隨機的 10% 的片段上的獎勵被提供,我們仍能想被提供全部片段那樣快速的學習嗎?在這樣的任務中,獎勵結構非常的簡單,所以成果也應該相當類似。下一步可能就是在 Atari 遊戲上做同樣的嘗試。這裡主動學習案例可能相當有趣,可能從少數精心要求的樣本(例如,在太空侵略者遊戲中,所有的敵方艦隊全被炸掉的畫面)就能推斷出獎勵結構,因此能以幾乎全部非監督的方式學習玩遊戲。再下一步可能就是嘗試帶有更加複雜獎勵結構的任務,無論是模擬還是在現實中嘗試。如果是有效數據足夠的學習,那這些獎勵可能會由人類直接提供。機器人運動或工業控制任務可能是做這些試驗的天然候選選擇。


6.安全探索


有時,所有的自動化學習代理都需要進行探索,根據給定的當前信息,採取一些看起來並不理想的行動,但是,這些行動將有助於代理從環境中進行學習。不過,探索總是帶有風險,畢竟代理並不十分了解行動後果。在遊戲的環境下,比如玩雅達利遊戲,後果的負面影響有限。但是,在真實世界,後果可能不堪設想。比如,機器人直升機可能會撞擊地面,毀壞財物;工業控制系統的會引發更嚴重的後果。


通常的探索策略,比如 ε—貪心演算法 或者R-max,會隨機選擇行動或者樂觀看待尚未探索過的行動,不會努力避免那些危險情境。更成熟的探索策略採取了一種前後一致的探索策略,可能會造成更大的危害,因為前後連貫地選擇糟糕策略會比純粹的隨機行動更陰險。不過,從直覺上來說,似乎應該能經常預測行動的危險性並以避免危險的方式行動,即使系統關於環境的知識並不完備。比如,只需一點有關老虎的先驗知識(不用買只老虎,讀本關於老虎的書就可以了),就能決定哪個選擇更安全。


實踐中,真實世界的強化學習項目時常可以避免這些問題,辦法就是簡單硬編碼避免災難性行為。不過,這種解決方案奏效的前提是:出錯的事情不多,而且設計人員提前知曉所有這些事情。當代理變得越來越自動,行動領域越來越複雜,我們就很難清晰預測出每一個可能發生的災難性失敗。比如,運行電網或者進行搜索營救的代理,其失敗節點空間會非常大,通過硬編碼來應對所有可能的失敗在這些類情況中並不可行。因此,關鍵是找到一條更加原則性的辦法來預防有害探索行為。即使在諸如機器人直升機這樣簡單的案例中,一個原則性辦法也會簡化系統設計,減少對特定領域工程學的需要。


目前,這方面的研究最多。這裡,僅簡單描述一下這些研究所採用的一般研究路線,也建議了一些研究方向,隨著強化學習應用範圍的擴大和功能的提升,這些研究方向會變得日益相關。


風險-敏感性表現標準(Risk-Sensitive Performance Criteria):考慮改變優化標準。


使用示範(Use Demonstrations):近期在使用深度神經網路逆強化學習來學習成本函數或策略的研究中所取得的進展表明,只用一小組示範進行訓練,就有可能減少對先進強化學習系統探索行為的需求。這樣的示範可被用來創造基線策略,即使需要進行更為深入的學習,離開基線策略的探索也可以被限制在一定量級內。


模擬探索(Simulated Exploration):如果可以在模擬環境中進行更多的探索,那麼,留給災難的機會也就更少。


界限內探索(Bounded Exploration:):如果我們知道狀態空間的某個部分是安全的,也知道發生在其中最糟糕的行動也能得以恢復,或者說造成的損失也是有限的,我們就能允許代理在那些邊界之內自由運行。


信任策略監督( Trusted Policy Oversight):如果有一個信任的策略以及一個環境模型,我們就可以將探索限制在信任策略認為我們可以從中得以恢復的那些行動上。


人類監督(Human Oversight):讓人來監管潛在的不安全行為。


可能的實驗


有一整套玩具環境可能會有幫助,在那裡粗心代理可能會成為有害探索的犧牲品,但是那裡有足夠的可能發生的災難的圖案,聰明代理便可以預防它們。在一定程度上,這個特徵已經存在於無人直升機比賽和火星漫遊模擬器,但是仍有特殊災難的風險,以致於訓練過的代理會過擬合它們。一個真正廣泛的,包括概念上明顯陷阱的(可能導致粗心代理接收非常負面的獎勵),並覆蓋實質和抽象災難的環境集,可能幫助高級強化學習系統安全探索技術的開發。這樣一套環境可能有與 bAbI 任務相似的基準測試作用,它的最終目標是發展一個可以在全套環境中學習避免災難的單一構架。


7.針對分布變化的魯棒性(Robustness to distributional shift)


我們經常會遇到這樣的情況,有限的經驗不足以應對新情況,比如,去一個與自己生長環境文化截然不同的國家旅行。這種情況通常不容易搞定,也容易導致一些錯誤。解決問題(當然,很少有人可以做到)的關鍵之一就是承認自己的無知,而不是過於自信地認為先前的那些直覺可以勝任解決新情況。機器學習也存在這樣的問題。比如,打掃工廠地板的清潔機器人未必適用辦公室環境。也就是說,當測試分布不同於訓練分布時,機器學習系統不僅表現很糟糕,而且還誤認為自己表現不錯。


這些誤差可能會有害或者冒犯他人。比如,一個語言模型如果過於自信文本不存在問題,就有可能輸出冒犯他人的文本。而對於那些自動化代理來說,潛在危害可能更大。比如,如果不正確地(但非常自信地)認為某個地區電力不足,自動化代理就會超載電網。更廣泛地來看,任何察知或啟發式推力過程的訓練,沒有基於正確的分布,這樣的打理可能會錯誤理解局勢,犯下錯誤,而自己根本沒意識到行為的危害。另外,如果那些系統遇到了迥然不同於訓練數據的真實世界數據,依賴訓練過的機器學習系統的安全檢查也可能默默地失靈。對於打造安全、可預測的系統來說,找到一個更好的預測這些失敗的辦法、確保失敗發生頻率的統計可靠性,似乎非常關鍵。


有各種領域都與這一問題潛在相關,包括改變偵測和異常檢測、假設檢驗、遷移學習等。不過,這裡只描述幾個樣本方法,並指出這些方法的優點和面臨的問題。


規定好的模型:協變數變化以及邊際可能性(Well-specified models: covariate shift and marginal likelihood)。


部分規定好模型:矩量法,無監督風險評估,因果識別以及有限信息最大化可能性(Partially specified models: method of moments, unsupervised risk estimation, causal identification, and limited-information maximum likelihood)。


用多個分布進行訓練(Training on multiple distributions)。


離開分布時,如何響應(How to respond when out-of-distribution)。


一個統一的觀點:反事實推理以及帶有合同的機器學習(A unifying view: counterfactual reasoning and machine learning with contracts)。在某個意義上,分布變化可被視為一種特殊的反事實,因此,了解了反事實推理就可能幫助打造面對分布變化也能穩定的系統。另外,人們可能想構建一個符合定義好的行為合同的機器學習系統,類似設計軟體系統。


總結:


部署在新測試分布中,表現也穩定理想,打造這樣一種機器學習系統的方法各種各樣。其中一組方法就是以假定一個規定好的模型(well-specified model)為基礎的;在這種情況下,主要障礙是很難在實踐中打造出規定好的模型,也很難偵測到模型被錯誤規定時的情況。


另一組方法就是只假設一個部分規定好的模型(a partially specified model);這個方法有前途,不過目前正苦於沒有在機器學習語境中展開研究,因為大多數歷史研究都位於計量經濟學領域;另外,也有這樣一個問題,部分規定好的模型是否從根本上受限於簡單情況以及/或者保守預測,它們能否有意義地擴展到複雜情境當中,這些複雜情境是現代機器學習應用所要求的。


最後,一個人可以試著在多個分布訓練上進行訓練,希望同時在多個訓練分布上表現良好的模型也能在新測試分布中表現良好;對於這一方法來說,特別重要的就是用迥然不同於任何一套訓練分布的分布給所掌握的模型進行應激測試。除此之外,系統能夠預測出輸入太異常以至於無法進行好的預測的時點,仍然很重要。


可能的實驗


當離開分布時,語音系統的校準表現總是很糟糕,因此,一個知道「什麼時候自己無法確定」的語音系統就有可能成為一個示範項目。這一項目的挑戰在於:用標準數據集來訓練最先進的語音系統,讓其在其他測試數據集上(比如嘈雜並帶有口音的語音數據集)得到良好校準過的結果。當前系統不僅在這些測試集中表現糟糕,而且經常對不正確的轉錄過分自信。解決這類問題而不損及最初訓練集上的表現,會是一項非常重要的成就,顯然,也相當具有實踐價值。對於設計出能前後一致預測出其在異常測試分布中的表現的系統來說,也會非常有價值。如果一個單獨的方法論會在任何任務中前後一致地實現這一點,那麼,人們會越發自信:這是個解決異常輸入問題的可靠辦法。最後,它對創造這樣一個環境也很有價值:其中,強化學習代理必須學會解釋語音(某些更大任務的一部分),以及探索如何適當響應自身對轉錄誤差的估測。


8.相關努力


前文主要關注的是機器學習社區的事故研究情況,但是,其他幾個社區也有做著與人工智慧安全有關的工作。比如,網路-物理系統社區,未來主義社區以及其他一些呼籲關注人工智慧安全問題的文件。


很多研究人員(無論是機器學領域還是其他領域)已經開始思考人工智慧技術的社會影響。出了直接從事事故研究,也有關注其他主題的研究,這些研究主題都與事故研究存在交叉的地方,或者說,彼此相關。這些主題包括(但不限於):隱私、公平(不歧視)、濫用、透明以及政策問題。


9 .結論


這篇論文分析了機器學習系統可能發生的意外事件,而且特別分析了強化學習代理,其中,一次意外事故被定義為意外且具有害的行為,真實世界中的人工智慧系統設計上的問題可能會引發這種有害行為。我們提出了五個可能與事故風險有關的研究問題,而且每個問題,我們都討論了可能的解決方案,這些解決方案都要經得起實驗工作的檢驗。


估測更大事故的風險就更困難了,但是我們相信研發一個原則性的、前瞻性的方法來解決安全問題是值得的,也是審慎的,隨著自動化系統日益強大,安全問題會繼續與之密切相關。儘管許多當下的安全問題能夠而且已經以個案方式加以解決,但是,我們相信,日趨流行的端到端、全自動化系統會指向這一需求:用一個統一的解決方案來防止這些系統引發意外傷害。


請您繼續閱讀更多來自 機器之心 的精彩文章:

這部機器比史蒂芬.庫里更懂得投籃
MIT人工智慧實驗室:讓機器預測下一秒的世界
谷歌 Ngrams:大數據如何創造錯覺
《經濟學人》:五大維度剖析人工智慧革命
谷歌讓程序員接受忍者訓練

TAG:機器之心 |

您可能感興趣

清華大學計算機科學與技術系朱軍教授:機器學習里的貝葉斯基本理論、模型和演算法
人與機器:機器人學五大定律
菲爾·斯賓塞:《戰爭機器》和《光環》新作進展良好
《裝修大贏家》之「科沃斯機器人」
專業的科學儀器能鑒定和田玉的二上色?老手鑒定都比機器准!
教育機器人家族的文藝擔當,能力風暴珠穆朗瑪系列
大寶機器人舞台劇:一本人工智慧商用「教科書」
《新世紀福音戰士》論(六):機器人動畫的「皆殺」
少佐好身手!《攻殼機動隊》公開斯嘉麗大戰藝伎機器人片段
霍金、馬斯克領銜制定人工智慧23條原則,人類會被機器終結嗎?
荷蘭機器人技術全球領先的奧秘:各自專註卻不忘合作
丁漢院士:機器人技術發展應加強基礎研究
專訪|完美威秀:如何搞定張藝謀拍《影》、與成龍合作《機器之血》?
整合 AI 與視覺技術,機器人與人對弈西洋棋、倒咖啡輕鬆駕馭
外語單詞苞丁解牛:蘇菲和機器人
希特勒:被納粹宣傳機器神化的德意志領袖
漫威最強機器人奧創科普—全身艾德曼合金還能無限復活
盤點六大種類工業機器人及關鍵技術
和玉祥:和田籽料原石雕刻之機器雕刻和手工雕刻的介紹及辨別技巧