黑爪：人類的弱點AI都有

天下 03-02

黑爪：人類的弱點AI都有

文 | 黑爪

前幾天讀到公眾號「今日話題」一篇題為《也許有一天，人類要向人工智慧學習怎麼做人》的文章，文中在引述了近期因「規則意識缺乏」而釀成的幾起社會熱點事件後，提及DeepMind（谷歌母公司阿爾法貝特「Alphabet」的人工智慧分部）最近開展的一項關於智能體（Agent）之間合作傾向的實驗。文章稱DeepMind通過AI技術「找到了解決社會困境問題的新工具」，並且認為它所模擬出的「理性人」，「是真正的『理性人』，而不是人類這種存在諸多缺點的」。不得不說，這有些誤解，不僅誇大了這個實驗本身的初衷，更一廂情願地美化了它的結果。

黑爪：人類的弱點AI都有

顧名思義，AI是有智慧的，起碼某個方向、某種程度的智慧。但它在利用智力開展工作時，是否依靠理性來進行抉擇和決策就不一定了。這就必須首先回到人類本身——人工智慧的學習對象——來看。合作與否，在人類活動中，屬於理性而非智力的決策，因此理解它們之間的差異，對於幫助我們看懂這個谷歌實驗的意義很有必要。

智力和理性的話題，去年《紐約時報》刊登過一篇探討人類認知屬性的文章，它開篇就問：「你是智慧的，還是理性的？」看上去很有點像網上流行的人格／性格測試。文章回顧了最早於20世紀70年代初，以色列裔美國心理學家，2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼（Daniel Kahneman）與他的研究夥伴，認知科學先驅人物阿摩司·特沃斯基（Amos Tversky）合作展開的一系列實驗。簡單地說，他們經過大量不同情節設置的實驗，認為人們在做決定時，往往傾向於直覺，而非理性推斷。

舉一個例，他們讓人給一群研究對象讀一段話，這段話描述了一位叫琳達的婦女：「琳達31歲，單身，直言而聰慧，曾主修哲學，求學期間，她極其關心有關歧視和社會公正等議題，並參加過反核遊行。」然後他們讓研究對象做選擇，哪一項的可能性更大：A琳達是一位銀行出納，B琳達是一位銀行出納，並積极參与女權運動。85%的研究對象選擇了B。但從邏輯的角度看，A的可能性絕對更大，因為，所有的女權主義出納員，都是出納員；而並非所有的出納員都是女權主義者。

這是一個思維陷阱，一個被叫做「合取謬誤」（conjunction fallacy）的坑，使得人們認為多重條件「甲且乙」比單一條件「甲」發生的可能性更大。簡言之，這個實驗結果讓他們認為，人類從根本上來看，是非理性的。

然而到了1990年代後期，研究者們開始質疑這個觀點。心理學家凱斯·斯坦諾維奇（Keith E. Stanovich）發現，就連卡尼曼和特沃斯基自己留下的數據也顯示出，其實有相當一部分人，是有明顯理性傾向的。

這麼一來，是否理性就成了個體差異。有趣的是，與智力不同，理性能力是可以通過訓練得到提升的，開始靠近我們的主題「機器學習」了。

說回谷歌DeepMind關於智能體合作傾向的實驗。簡單地說，它是利用多智能體（multi-agent）的深度學習來模擬出一個促使合作出現的模型。其結果，更多地在於，希望它可以幫助我們更好地理解，從而更有效地控制複雜的多智能體系統的行為，例如經濟、交通和環境等問題，而絕非找到了解決社會困境的鑰匙。更重要的，實驗結果恰恰揭示了理性智能體，也就是「今日話題」文中所說的「理性人」，一點也不比人類更守規矩，它們具有人類的一切弱點，面對不同環境所做出的反應，也與人類完全一致。

先解決幾個拗口的詞。什麼是多智能體（multi-agent）？甚至，什麼是智能體（agent）？「agent」，英文字面意思是代理，但放在計算機或者人工智慧的語境里，「代理」顯得語焉不詳。這個概念是人工智慧先驅，MIT的科學怪才馬爾文·明斯基在他1985年的著作《意識的社會》（Society of Mind）里首次提出。事實上，它就是一個實體或者說主體，既可以是硬體，也可以是軟體。因為具有自治性，對外界刺激做出相應反應的能力，社會性以及自動學習修正從而進化等特性，而被稱作「智能體」。那麼多智能體，顧名思義，就是多個智能體的集合，成員間可以通信和協調，以達成多智能體的目標。如果將鳥群或者獸群想像成多智能體，也許就容易理解一些。

這裡顯然留下了一個問題，多智能體成員間，或者說鳥群和獸群的成員間，剛才說到會彼此協調，這個協調，是合作還是競爭，還是彼此進攻？

這正是DeepMind希望通過這個實驗模型來發現的答案。而結果顯示，AI也會逞強斗勇，會貪婪，會產生不安全感。不過好消息是，經過反覆的學習，它們會發現合作是共贏的出路。

在不完美的天性，吃一塹長一智這樣的過程面前，人類和AI是平等的，誰都沒有躲過。

天性自私的人類，從誕生起，就一直通過協同工作，直至創造出了今日的文明。如果把每個人比做一個自私的智能體，整個社會是一個多智能體。在什麼情形下，如何讓這些自私的智能體合作，是社會學領域的一個基本問題。

用來描述這個現象的，有一個最簡單經典的模型，就是博弈論中著名的囚徒困境（Prisoner s Dilemma）：兩個犯罪嫌疑人被單獨關押，在沒有得到他們招供的情況下，警方沒有足夠證據對他們的主要指控定罪，但足夠用次要指控處以他們每人一年的監禁。為了引誘這二名囚徒招供，他們分別向他倆提出如下條件：如果你作證指控對方（也就是如果你叛變），你將獲釋，而對方將服刑三年；如果兩人都招供，則兩人均服刑兩年；若二人默契協作，都保持沉默，不指控對方，則兩人都只服刑一年。

這兩個理性智能體（囚徒）總是選擇招供，也就是背叛夥伴，因為無論對方選擇如何，一定是招供對自己最有利。矛盾的是，如果兩個囚徒都同樣以這個思路來決策的話，兩人均會服刑兩年，這比起二人協作，保持沉默的情況多出了一年。這個囚徒困境的矛盾可以推而廣之，用來描述通用的社會困境。

黑爪：人類的弱點AI都有

囚徒博弈

由於人工智慧尤其是深度強化學習方面的最新進展，使我們得以重新來看待這個問題。傳統的模型只為每個智能體提供簡單的二元選擇：合作或背叛；而現實生活中，無論合作還是背叛，哪種選擇其實都要求了一系列的複雜行為，包含了一系列具有難度的行動，需要智能體去學習執行。因此經由深度強化學習訓練後的人工智慧，便被利用來重新研究這一困境。

DeepMind實施的第一個遊戲叫撿蘋果（Gathering）：一紅一藍兩個智能體，在一個共同的空間里活動，目的都是撿蘋果，換獎賞。他們也可以通過向對方發射激光柱來「定死」對方，使其在一定時間內出局；「定死」對方這個行動本身不獲得獎勵。

遊戲在整個實驗中重複了幾千次，通過這種反覆博弈來「學習」理智的行為。很自然地，當整個環境能夠提供充足的蘋果時，智能體們和平共處，努力撿蘋果；然而一旦蘋果數目下降，智能體們學到的便是「激烈進取原則」，開始向彼此發射激光柱，把對方「定死」，以便自己獨佔珍稀資源，獲取更高的得獎機會。

從設置「定死」這個可選的行為，到調整蘋果數目以使其稀有，設計者（DeepMind團隊）都無異於有意在「挑起群眾斗群眾」，其目的是觀察智能體在不同情形下的行為變化。他們發現，這個撿蘋果遊戲與最初的囚徒困境有很多相似之處：合作，一起撿蘋果；還是背叛，將對方踢出局。

是哪些因素導致了智能體的合作？

比如撿蘋果遊戲中，蘋果稀少的狀況越嚴重，「定死」對方的行為就發生得越頻繁。智能體甚至漸漸有能力實現更為複雜的策略，例如怎樣更加頻繁地「定死」對方，換言之，表現得越來越趨於不合作，而且不合作的能力也在反覆博弈的學習過程中越來越強，無論實驗人員怎樣干預，調整蘋果的稀少程度。

AI與人類在這個問題上沒有不同，它們的行為模式在社交困境中發生改變，它們不是人們呼喚的「遵守規則」的社會標兵。「貪婪動機反映出來，便是它們會想要除掉他人，讓自己獨佔所有的蘋果；而感覺到有可能被競爭者除掉的危險，反映出來便是恐懼。」DeepMind的研究人員在觀察日記中寫道。

有意思的是，DeepMind實施的第二個叫「狼群」（Wolfpack）的遊戲，它本身要求必須緊密合作才能成功。兩個紅色的智能體，也就是遊戲中的「狼」，追捕一個藍色的智能體，也就是遊戲中的「獵物」。如果獵物被抓住時，兩隻狼都在附近，它們將同時獲得獎勵；而如果某一隻狼想辦法獨自捕獲了獵物，卻存在獵物屍體被第三方食腐動物叼走的危險。於是智能體們通過學習，它們之間的合作變得越來越緊密，通力將「藍點」逼進逃無可逃的角落，從而將它們一個個捕獲。

結果顯示，智能體執行更複雜策略的能力越高，換言之越聰明，它們之間的合作度越高，這與在撿蘋果遊戲中的發現恰恰相反。

黑爪：人類的弱點AI都有

撿蘋果遊戲和狼群遊戲

（撿蘋果遊戲和狼群遊戲的說明：左右二圖中，紅線均表示小網路實驗結果，藍線均表示大網路實驗結果。左圖為撿蘋果遊戲，橫軸為蘋果稀缺度，縱軸為智能體的競爭性；右圖為狼群遊戲，橫軸為集體利益，縱軸為「獨狼」，即不合作捕獲獵物的比例）

因此，根據情形不同，一旦智能體擁有了執行更複雜策略的更強能力，可能導致兩種不同的結果：更合作或者更不合作。

前文的心理學實驗已經告訴我們，訓練智能體間的合作是可能的。而這兩個遊戲的結果則說明，讓他們合作的前提，是提供儘可能正確的規則，以及合理的激勵（比如狼群遊戲會獎勵合作，而撿蘋果則不會）。一旦逞強斗勇的行為能給自己帶來好處（例如在蘋果稀缺時用激光柱「定死」對方），毫無疑問，AI就會變得好鬥而缺乏合作精神。同人類一樣，AI會根據環境來改變自己的行為，當感受到足夠的威脅，而使自己可能失掉機會的時候，就會變得逞強斗勇；而一旦發現合作能帶給自己更大的利益，它們將會毫不猶疑地去合作。

「合作的促成」，這一社會領域神秘而「古老」的話題，顯然通過現代AI技術發現了一絲曙光，藉此我們能夠更好地去理解經濟、交通、以及我們所生存的星球的生態健康。所有這一切，都有賴於我們，人類這個多智能體的每一個成員間持續的合作。臉書創始人馬克·扎克伯格在2017年2月16日下午以「建立地球村」為題發出一封致全體村民的公開信，也許真如這份被媒體稱作扎克伯格宣言中所說，到了用演算法拯救世界的時候？

【作者簡介】

黑爪| 騰訊·大家專欄作者。

【精華推薦】

·END·

大家∣思想流經之地

微信ID：ipress

洞見 · 價值 · 美感

※本微信號內容均為騰訊《大家》獨家稿件，未經授權轉載將追究法律責任，版權合作請聯繫ipress@foxmail.com

您的贊是小編持續努力的最大動力，動動手指贊一下吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！