黑爪:人類的弱點AI都有
文 | 黑爪
前幾天讀到公眾號「今日話題」一篇題為《也許有一天,人類要向人工智慧學習怎麼做人》的文章,文中在引述了近期因「規則意識缺乏」而釀成的幾起社會熱點事件後,提及DeepMind(谷歌母公司阿爾法貝特「Alphabet」的人工智慧分部)最近開展的一項關於智能體(Agent)之間合作傾向的實驗。文章稱DeepMind通過AI技術「找到了解決社會困境問題的新工具」,並且認為它所模擬出的「理性人」,「是真正的『理性人』 ,而不是人類這種存在諸多缺點的」。不得不說,這有些誤解,不僅誇大了這個實驗本身的初衷,更一廂情願地美化了它的結果。
顧名思義,AI是有智慧的,起碼某個方向、某種程度的智慧。但它在利用智力開展工作時,是否依靠理性來進行抉擇和決策就不一定了。這就必須首先回到人類本身——人工智慧的學習對象——來看。合作與否,在人類活動中,屬於理性而非智力的決策,因此理解它們之間的差異,對於幫助我們看懂這個谷歌實驗的意義很有必要。
智力和理性的話題,去年《紐約時報》刊登過一篇探討人類認知屬性的文章,它開篇就問:「你是智慧的,還是理性的?」看上去很有點像網上流行的人格/性格測試 。文章回顧了最早於20世紀70年代初,以色列裔美國心理學家,2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼(Daniel Kahneman)與他的研究夥伴,認知科學先驅人物阿摩司·特沃斯基(Amos Tversky)合作展開的一系列實驗。簡單地說,他們經過大量不同情節設置的實驗,認為人們在做決定時,往往傾向於直覺,而非理性推斷。
舉一個例,他們讓人給一群研究對象讀一段話,這段話描述了一位叫琳達的婦女:「琳達31歲,單身,直言而聰慧,曾主修哲學,求學期間,她極其關心有關歧視和社會公正等議題,並參加過反核遊行。」然後他們讓研究對象做選擇,哪一項的可能性更大:A琳達是一位銀行出納,B琳達是一位銀行出納,並積极參与女權運動。85%的研究對象選擇了B。但從邏輯的角度看,A的可能性絕對更大,因為,所有的女權主義出納員,都是出納員;而並非所有的出納員都是女權主義者。
這是一個思維陷阱,一個被叫做「合取謬誤」(conjunction fallacy)的坑,使得人們認為多重條件「甲且乙」比單一條件「甲」發生的可能性更大。簡言之,這個實驗結果讓他們認為,人類從根本上來看,是非理性的。
然而到了1990年代後期,研究者們開始質疑這個觀點。心理學家凱斯·斯坦諾維奇(Keith E. Stanovich)發現,就連卡尼曼和特沃斯基自己留下的數據也顯示出,其實有相當一部分人,是有明顯理性傾向的。
這麼一來,是否理性就成了個體差異。有趣的是,與智力不同,理性能力是可以通過訓練得到提升的,開始靠近我們的主題「機器學習」了。
說回谷歌DeepMind關於智能體合作傾向的實驗。簡單地說,它是利用多智能體(multi-agent)的深度學習來模擬出一個促使合作出現的模型。其結果,更多地在於,希望它可以幫助我們更好地理解,從而更有效地控制複雜的多智能體系統的行為,例如經濟、交通和環境等問題,而絕非找到了解決社會困境的鑰匙。更重要的,實驗結果恰恰揭示了理性智能體,也就是「今日話題」文中所說的「理性人」,一點也不比人類更守規矩,它們具有人類的一切弱點,面對不同環境所做出的反應,也與人類完全一致。
先解決幾個拗口的詞。什麼是多智能體(multi-agent)?甚至,什麼是智能體(agent)?「agent」,英文字面意思是代理,但放在計算機或者人工智慧的語境里,「代理」顯得語焉不詳。這個概念是人工智慧先驅,MIT的科學怪才馬爾文·明斯基在他1985年的著作《意識的社會》(Society of Mind)里首次提出。事實上,它就是一個實體或者說主體,既可以是硬體,也可以是軟體。因為具有自治性,對外界刺激做出相應反應的能力,社會性以及自動學習修正從而進化等特性,而被稱作「智能體」。那麼多智能體,顧名思義,就是多個智能體的集合,成員間可以通信和協調,以達成多智能體的目標。如果將鳥群或者獸群想像成多智能體,也許就容易理解一些。
這裡顯然留下了一個問題,多智能體成員間,或者說鳥群和獸群的成員間,剛才說到會彼此協調,這個協調,是合作還是競爭,還是彼此進攻?
這正是DeepMind希望通過這個實驗模型來發現的答案。而結果顯示,AI也會逞強斗勇,會貪婪,會產生不安全感。不過好消息是,經過反覆的學習,它們會發現合作是共贏的出路。
在不完美的天性,吃一塹長一智這樣的過程面前,人類和AI是平等的,誰都沒有躲過。
天性自私的人類,從誕生起,就一直通過協同工作,直至創造出了今日的文明。如果把每個人比做一個自私的智能體,整個社會是一個多智能體。在什麼情形下,如何讓這些自私的智能體合作,是社會學領域的一個基本問題。
用來描述這個現象的,有一個最簡單經典的模型,就是博弈論中著名的囚徒困境(Prisoner s Dilemma):兩個犯罪嫌疑人被單獨關押,在沒有得到他們招供的情況下,警方沒有足夠證據對他們的主要指控定罪,但足夠用次要指控處以他們每人一年的監禁。為了引誘這二名囚徒招供,他們分別向他倆提出如下條件:如果你作證指控對方(也就是如果你叛變),你將獲釋,而對方將服刑三年;如果兩人都招供,則兩人均服刑兩年;若二人默契協作,都保持沉默,不指控對方,則兩人都只服刑一年。
這兩個理性智能體(囚徒)總是選擇招供,也就是背叛夥伴,因為無論對方選擇如何,一定是招供對自己最有利。矛盾的是,如果兩個囚徒都同樣以這個思路來決策的話,兩人均會服刑兩年,這比起二人協作,保持沉默的情況多出了一年。這個囚徒困境的矛盾可以推而廣之,用來描述通用的社會困境。
囚徒博弈
由於人工智慧尤其是深度強化學習方面的最新進展,使我們得以重新來看待這個問題。傳統的模型只為每個智能體提供簡單的二元選擇:合作或背叛;而現實生活中,無論合作還是背叛,哪種選擇其實都要求了一系列的複雜行為,包含了一系列具有難度的行動,需要智能體去學習執行。因此經由深度強化學習訓練後的人工智慧,便被利用來重新研究這一困境。
DeepMind實施的第一個遊戲叫撿蘋果(Gathering):一紅一藍兩個智能體,在一個共同的空間里活動,目的都是撿蘋果,換獎賞。他們也可以通過向對方發射激光柱來「定死」對方,使其在一定時間內出局;「定死」對方這個行動本身不獲得獎勵。
遊戲在整個實驗中重複了幾千次,通過這種反覆博弈來「學習」理智的行為。很自然地,當整個環境能夠提供充足的蘋果時,智能體們和平共處,努力撿蘋果;然而一旦蘋果數目下降,智能體們學到的便是「激烈進取原則」,開始向彼此發射激光柱,把對方「定死」,以便自己獨佔珍稀資源,獲取更高的得獎機會。
從設置「定死」這個可選的行為,到調整蘋果數目以使其稀有,設計者(DeepMind團隊)都無異於有意在「挑起群眾斗群眾」,其目的是觀察智能體在不同情形下的行為變化。他們發現,這個撿蘋果遊戲與最初的囚徒困境有很多相似之處:合作,一起撿蘋果;還是背叛,將對方踢出局。
是哪些因素導致了智能體的合作?
比如撿蘋果遊戲中,蘋果稀少的狀況越嚴重,「定死」對方的行為就發生得越頻繁。智能體甚至漸漸有能力實現更為複雜的策略,例如怎樣更加頻繁地「定死」對方,換言之,表現得越來越趨於不合作,而且不合作的能力也在反覆博弈的學習過程中越來越強,無論實驗人員怎樣干預,調整蘋果的稀少程度。
AI與人類在這個問題上沒有不同,它們的行為模式在社交困境中發生改變,它們不是人們呼喚的「遵守規則」的社會標兵。「貪婪動機反映出來,便是它們會想要除掉他人,讓自己獨佔所有的蘋果;而感覺到有可能被競爭者除掉的危險,反映出來便是恐懼。」DeepMind的研究人員在觀察日記中寫道。
有意思的是,DeepMind實施的第二個叫「狼群」(Wolfpack)的遊戲,它本身要求必須緊密合作才能成功。兩個紅色的智能體,也就是遊戲中的「狼」,追捕一個藍色的智能體,也就是遊戲中的「獵物」。如果獵物被抓住時,兩隻狼都在附近,它們將同時獲得獎勵;而如果某一隻狼想辦法獨自捕獲了獵物,卻存在獵物屍體被第三方食腐動物叼走的危險。於是智能體們通過學習,它們之間的合作變得越來越緊密,通力將「藍點」逼進逃無可逃的角落,從而將它們一個個捕獲。
結果顯示,智能體執行更複雜策略的能力越高,換言之越聰明,它們之間的合作度越高,這與在撿蘋果遊戲中的發現恰恰相反。
撿蘋果遊戲和狼群遊戲
(撿蘋果遊戲和狼群遊戲的說明:左右二圖中,紅線均表示小網路實驗結果,藍線均表示大網路實驗結果。左圖為撿蘋果遊戲,橫軸為蘋果稀缺度,縱軸為智能體的競爭性;右圖為狼群遊戲,橫軸為集體利益,縱軸為「獨狼」,即不合作捕獲獵物的比例)
因此,根據情形不同,一旦智能體擁有了執行更複雜策略的更強能力,可能導致兩種不同的結果:更合作或者更不合作。
前文的心理學實驗已經告訴我們,訓練智能體間的合作是可能的。而這兩個遊戲的結果則說明,讓他們合作的前提,是提供儘可能正確的規則,以及合理的激勵(比如狼群遊戲會獎勵合作,而撿蘋果則不會)。一旦逞強斗勇的行為能給自己帶來好處(例如在蘋果稀缺時用激光柱「定死」對方),毫無疑問,AI就會變得好鬥而缺乏合作精神。同人類一樣,AI會根據環境來改變自己的行為,當感受到足夠的威脅,而使自己可能失掉機會的時候,就會變得逞強斗勇;而一旦發現合作能帶給自己更大的利益,它們將會毫不猶疑地去合作。
「合作的促成」,這一社會領域神秘而「古老」的話題,顯然通過現代AI技術發現了一絲曙光,藉此我們能夠更好地去理解經濟、交通、以及我們所生存的星球的生態健康。所有這一切,都有賴於我們,人類這個多智能體的每一個成員間持續的合作。臉書創始人馬克·扎克伯格在2017年2月16日下午以「建立地球村」為題發出一封致全體村民的公開信,也許真如這份被媒體稱作扎克伯格宣言中所說,到了用演算法拯救世界的時候?
【作者簡介】
黑爪| 騰訊·大家專欄作者。
【精華推薦】
·END·
大家∣思想流經之地
微信ID:ipress
洞見 · 價值 · 美感
※本微信號內容均為騰訊《大家》獨家稿件,未經授權轉載將追究法律責任,版權合作請聯繫ipress@foxmail.com
※你打進臉的不是玻尿酸,是資本
※曹東勃:天價彩禮背後的農業女性化現象
※止庵:蒙克畫中的男人
※劉遠舉:每一個被逼上補習班的孩子背後,都有一個放棄自己的家長
TAG:騰訊·大家 |
※智商超高的人有6個弱點?
※一個被遺忘的王牌:有個大弱點 但咱最愛它的一個大優勢
※男人的弱點有哪些
※海賊王,四皇BIGMOM的弱點竟然是一個男人
※人性的26個弱點,你有幾個
※12星座一人一句:天蠍的弱點,射手的借口
※中國最有氣場的兩個城市,但都有同一個致命弱點
※智商超高的人的6個弱點
※一個被遺忘的王牌:有一個大弱點 但中國卻深愛它
※HTC U11連刀刮火燒都不怕,但依然有一個致命弱點!
※小米手機5X對比OPPO R11:價格有優勢,但還有3個弱點
※這個星座的致命弱點:脾氣有點大,表面溫和到別人誤以為很好欺負
※儘管AlphaGo很強 但它或許仍有唯一的弱點
※EDG戰隊的薄弱點Zet,獲得MVP還要招黑嗎?
※其實百毒不侵的喵星人也有一個致命弱點!
※西方歷史中的「獅子王」個個勇猛,卻都有一個致命弱點?
※人性8個弱點 你占幾個?
※天蠍座女人有什麼弱點?
※大揭密:男人的十個致命弱點