如何讓超越人類的AI不構成威脅？OpenAI給出的答案是：目標一致性

知識 05-17

選自OpenAI

作者：GEOFFREY IRVING & DARIO AMODEI

機器之心編譯

參與：Pedro、曉坤

近日，OpenAI 提出了一種人工智慧安全技術，它可以訓練兩個智能體對同一個話題進行辯論，最終由人類來評定輸贏。OpenAI 認為，這種方法或類似方法最終可以幫助我們訓練人工智慧系統在保持同人類一致喜好的同時，執行超越人類能力的認知任務。本文將概述這種方法，並對初步的概念性驗證實驗進行介紹。同時，OpenAI 也發布了一個網頁端界面，以讓人們方便地嘗試這種技術。

相關論文地址：https://arxiv.org/abs/1805.00899

辯論遊戲地址：https://debate-game.openai.com/

我們可以將辯論的方式可視化為一個遊戲樹。它同圍棋等遊戲類似，但是這裡的葉節點由辯論者之間論點和人類判決的句子構成。不論是在辯論還是在圍棋中，真正的答案取決於整個樹，但是由強智能體選擇出的單一路徑可以一定程度上揭示整體的情況。例如，儘管業餘棋手不能直接對專業棋手的某一步的優劣性做出評價，但他們可以根據遊戲的結果來對職業棋手的水平做出評估。

控制人工智慧體與人類目標和偏好一致的一種方法是在訓練時詢問人類哪些行為是安全和有用的。這種方法雖然看起來前景廣闊，但它要求人類能夠識別好的或不好的行為; 然而在很多情況下，智能體的行為可能太過複雜難以理解，或者任務本身難以被判斷或證明。比如當環境具有非常大的不可被視覺觀測空間的時候——在計算機安全相關環境中運行的智能體或協調大量工業機器人的智能體都屬於這種情況。

有哪些方法可以讓我們增強人類的能力來更加有效地監督先進的人工智慧系統呢？一種方法是利用人工智慧本身來幫助監督。這種方法要求智能體本身（或另一個單獨的智能體）能夠識別並指出任何行動中的缺陷。為了達到這個目的，我們將學習問題重新定義為兩個智能體之間的博弈，即讓兩個智能體在有人類判定的條件下展開辯論。即使智能體比人類對問題有更深入的了解，人類也能夠判斷兩個智能體的優劣差異（類似於專家證人需要通過爭辯來試圖說服陪審團）。

我們提出了一個用於在兩個對決智能體之間進行博弈的特定辯論框架。這兩個智能體可以通過自我博弈來訓練，類似於 AlphaGo Zero 和 Dota 2。我們希望通過合適的訓練，使得智能體在擁有遠超人類能力的同時，保持和人類一致的價值判斷。如果兩個智能體在爭辯的過程中遇到了人類無法判斷的分歧，我們可以讓辯論集中在更加簡單的事實爭議上，最終達成一種足以讓人直接判斷的簡單主張。

舉例來說，考慮一下「什麼是度假的最佳去處？」這個問題。如果一個代表我們進行了調研的智能體愛麗絲給出「阿拉斯加」做為回答，我們其實很難判斷這是否是最好的選擇。如果第二位智能體鮑勃說「不，應該是巴厘島」，這聽起來可能是更加為人所信服的，因為巴厘島正在變暖。接著愛麗絲回復說：「你不能去巴厘島，因為你無法及時拿到護照」，這表明巴厘島這個選項存在缺陷，而我們尚未發現這一缺陷。但鮑勃反擊「加急護照服務只需兩周」。辯論一直持續到我們達成一個聲明，即人類可以正確判斷為止，此時另一個智能體不認為它可以再改變人的思想。

說服一個稀疏手寫數字分類器

儘管我們預計這種方法在長期發展中對使用自然語言與對方進行對話時最為有效，但我們需要在更簡單的領域進行測試，因為目前的自然語言建模不足以完成此任務。對於不超出人類能力的任務來說，測試更容易進行。為了進行這樣的測試，我們轉向了視覺領域，並且將辯論者的任務從擁有超越裁判的能力調整為擁有裁判沒有的知識。裁判的目標是在僅給定某些由辯論者挑選的像素信息的條件下，猜測圖像的內容。辯手們可以看到完整的圖像，並且交替展示單個像素給裁判。這裡完整的圖像代表了（原始任務中）超越人類認知的信息，而每個顯示的像素都代表辯論過程中自然語言的討論點。

我們在最簡單的視覺任務——手寫數字識別（MNIST）上進行了測試。裁判是一個預先訓練好的分類器而不是人類。它可以根據 6 個非黑色像素預測手寫數字。在預訓練時我們對每幅圖片進行了隨機採樣。接下來，兩個智能體在辯論中交替顯示像素，並且在顯示像素總數為 6 時停止這一過程，所以裁判只看到很少的一點信息）。其中一個智能體是誠實的，它會試圖讓裁判儘可能猜出正確的結果，而另一個智能體則試圖讓裁判猜錯。在兩個智能體事先聲明他們爭論的是哪個數字的條件下，辯論可以將準確率為 59.4％的稀疏分類器轉化為 88.9％的準確分類器。也就是說，在提高裁判判斷準確率的過程中，誠實的智能體在手寫數字識別 88.9% 的測試樣例下取得了成功。

手寫數字識別辯論遊戲的結構。辯手愛麗絲和鮑勃看到同一個圖像，愛麗絲試圖欺騙裁判認為它是數字 6，鮑勃試圖將正確結果 5 告訴裁判。他們交替向裁判展示非黑色像素，裁判在看到六個像素後正確地將其標識為 5。愛麗絲在底部追蹤曲線使其看起來像一個 6（紅色像素），但是鮑勃通過展示右上角大多數手寫數字 6 都沒有的像素（藍色像素）來有效地對抗愛麗絲的策略。

直觀地來講，圖像更可能包含能夠佐證真相而不是證明謊言的像素，所以選擇一半誠實一半說謊的 6 個像素比隨機選擇 6 個像素好。如果裁判是一個能夠一次對幾個論題進行推理但不能仔細檢查大量所有可能論點的人類，那麼（我們所希望的）最好的情況是，儘管可能缺乏先驗的機制來區分觀點的好壞，智能體能夠通過辯論幫助我們進行篩選。

如下是幾個遊戲示例。說謊智能體的勝利比誠實智能體的勝利更有趣。所以在下圖經過挑選示例中，說謊者勝利的樣例佔比為 50%（實際上說謊者的勝率為 11.1%）。你只需要將滑鼠懸停在其中一個數字上，就可以觀察到包括顯示哪些像素和每次行動時裁判可能假設等信息在內的遊戲過程：

手寫數字識別辯論：選擇一個數字

遊戲細節

辯論者看到了什麼

裁判看到了什麼

裁判可能在想什麼

一些數字比其他的數字更具有欺騙性。讓裁判相信該數字是 8 或者 9 是更容易的。

基於隨機選擇的 6 像素手寫數字識別（左圖）和基於辯論的手寫數字識別（右圖）的混淆矩陣，其對角線元素均為 0。前者的誤判沒有非常明顯的模式，而成功的辯論則集中在數字 8 和 9 上。讓裁判確信 5 實際上是 8 或者將 4 誤認為 9 是非常容易的。這可能是將遊戲限制為非黑色像素的人為因素造成的：如果對於數字 8，你可以在本應是白色的位置上找到黑色像素，那麼證明數字不是 8 就更容易。

貓狗之爭網站

接下來要進行更複雜的辯論實驗，這一次我們使用更加精細的圖像，比如貓和狗。更複雜的圖像可能需要一些自然語言或常識推理，所以我們暫時還沒有將機器學習的裁判或智能體用到這樣的任務上來。作為替代，我們製作了一個原型網站供人類分別扮演裁判和辯手的角色來嘗試進行這個實驗。在這裡，智能體可以用自然語言與裁判交談（網站假定人類可以使用文字進行交流或者是在同一個房間內），而他們所有的陳述都可以是謊言。每個智能體可以在辯論過程中顯示一個像素，並且該像素一定是真實的。

兩位人類辯手和一位人類裁判進行辯論，只有辯手才能看到圖像。紅方爭辯說，這幅圖是一隻狗，藍方則爭辯說是一隻貓。（圖片來源：維基百科，CC-BY-SA）

在一場典型的辯論中，愛麗絲可能會誠實地表明某張圖片是一隻貓，而鮑勃則謊稱它是一隻狗。愛麗絲可以說：「這個小矩形的中心是貓的綠眼睛。」鮑勃不能承認這個中心是一隻眼睛，所以他編造了另一個謊言：「這是一隻在草地上玩耍的狗，那是一片草地。」但是這個謊言很難與周圍的事實保持一致，比如愛麗絲的回答可以是「如果它是草地，那麼在這個細長矩形的頂部或底部應該會出現綠色。」辯論一直持續到智能體把注意力集中到存在分歧的特定像素上，但是鮑勃此時無法給出足夠有說服力的證據，而與此同時愛麗絲顯示這個像素並最終獲得勝利。我們在 OpenAI 私下裡玩過這個遊戲，儘管為了保持對欺騙者的公平，我們會通常限制裁判可以請求信息的速度（認知上人們很難在短時間內構造詳細合理的謊言），但誠實的智能體確實有更大的幾率會獲得勝利。

在人類裁判的監督下進行兩個人類之間的貓狗遊戲。

當前工作的局限和未來工作計劃

在我們的論文中，我們花費了很大部分的篇幅來對概念性的辯論進行分析和闡釋，而我們上面所介紹到的實驗是非常初步的。將來，我們會做更多複雜的視覺實驗，並最終在自然語言上進行測試。裁判最終應該是人類（或者是從稀疏的人類判斷中訓練出來的模型），而不是類似的用來代表人類的機器學習模型。智能體最終應該是功能強大的機器學習系統，它可以做人類無法直接理解的事情。而如何在存在人類偏見的情況下，對於存在重要價值判斷的問題進行辯論也很重要，因為我們需要測試智能體是否能夠從有偏見的人類裁判那裡習得一致的行為。

即使有了這些改進，辯論模式也存在一些根本性的局限，這可能需要用其他方法來改進或增強。辯論不會試圖解決像對抗樣本或分散式轉變（https://blog.openai.com/concrete-ai-safety-problems）這樣的問題。它是一種獲得複雜目標的訓練信號的方法，而不是一種保證目標魯棒性的方法（魯棒性需要通過別的技術來實現）。同時，我們也無法保證辯論最終可以找到最優解——自我博弈在圍棋和其他遊戲的實踐中取得了很好的效果，然而我們無法從理論上對它的性能做出保證。訓練智能體去進行辯論比直接使用正確答案進行訓練需要更多的計算資源，因此它也許無法與更低成本同時也不太安全的方法競爭。最後，在辯論的過程中，人類可能僅僅扮演了可憐的裁判的角色，一方面是因為他們還不夠聰明——即使在智能體放大最簡單的可能爭議事實之後，人類也無法做出有效的判斷；另一方面是因為他們時常帶有偏見——相信任何他們想相信的事情（而對不想相信的事情置若罔聞）。這些都是我們希望進一步研究的經驗性問題。

如果辯論或類似的方法有效，即使人工智慧的能力增長超過了人類可以監督的範圍，它仍然可以通過保持其與人類目標和價值的一致（對齊）來增強未來人工智慧系統的安全性。而對於那些相對較弱並且人類可以監督的系統，辯論也可以極大地降低對齊任務所需的採樣複雜度，使其滿足高性能的需求，繼而使對齊任務更容易進行。

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

------------------------------------------------

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※ACM公布了2017年圖靈獎得主：榮譽屬於體系架構
※模型也能實現「雞尾酒會效應」：谷歌新型音頻-視覺語音分離模型

TAG:機器之心 |