你敢拿自己的成績當賭注嗎?
還用問嗎?
當然不敢啊!
同學們,請準備好你們的小板凳和小本本,今天超模君要帶領大家,聽耶魯大學教授Ben Polak,講基礎博弈論。
Ben Polak說,博弈論就是在研究策略形勢。那什麼是策略形勢?不如先來認識一下,什麼不是策略形勢。
比如自由競爭企業。這些企業是價格接受者,它們無需擔心競爭對手的行為,所以不算策略形勢。
價格接受者(Price taker),又稱受價者,是經濟學中的一個術語,指在市場中的每一個個人(買者或者賣者),他們所面對的價格都是由市場給定的,也就是經過市場供需調整後的均衡價格。通俗一點說,將市場的價格當作自己的購買價或者售出價的個人。
又比如說壟斷企業。壟斷企業壓根兒就沒有競爭對手,所以它們也不是策略形勢。
壟斷企業,顧名思義,就是享受國家給予的政策保護,從而控制社會生產,操縱和獨佔市場的行業。這些行業還存在著計劃經濟的味道,獨家經營,老百姓離開它就無法生活,產品是你唯一的選擇。所以,又稱之為霸王行業。這些行業的產品,是皇帝家的姑娘、不愁嫁。
那介於這兩種情況之間的,就是上面說到的,所謂的策略形勢。換句話說,不完全競爭的狀態就是策略形勢。
比如在汽車產業里,福特需要關注大眾和豐田的行為,因為它們的策略會互相影響。
於是在看過那麼多例子之後,我們不難得出策略形勢的定義:行為影響結果,然而結果不僅僅取決於你自己的決定,還取決於其他人的行為。那為了更直接、更深有體會地了解這個定義,我們接下來玩個遊戲。
「純屬娛樂,請勿當真」
名稱:
成績遊戲
題目:
請仔細閱讀以下條款。在不被你同桌看到的情況下,在電腦上選擇α或β,並且把它當成是一個對成績的賭注。首先我會先幫你們隨機地配對同桌,然後你們就可以做出自己的選擇。選擇提交成功後,每個人的成績會根據以下的評分規則自動生成。
評分規則:
你選α,你同桌選β,那你的成績是A,你同桌的成績是C;
你選β,你同桌選α,那你的成績是C,你同桌的成績是A;
你們同時選擇α,那你們倆的成績都是B-;
你們同時選擇β,那你們倆的成績都是B+。
成績的矩陣表示(第一個成績是你的成績,第二個成績是你同桌的成績):
課堂現場的遊戲結果:
大部分人選α,只有寥寥幾個選擇β
原因:
選α的同學:「我認為我的同桌會選α,所以我也選α。」、「我選α是因為,無論我的同桌選什麼,我選擇α的成績總會比選β的成績要好。」
選β的同學:「我是想本來我們可以團結合作的,但是從現在這種情況看來,大家都不想合作。如果大家都選β的話,那雙方都能拿到B+,但這個似乎不太可能。」
在這場遊戲里,選β的同學提醒了大家,其實還是會有個別的同學在做選擇的時候,會在意他同桌的選擇的。
比如,當跟你隨機配對這位的同桌,剛好是你認識的同學的時候,甚至於你們的關係還非常要好的時候,你就會抱有一絲合作共贏的希望。你會想,他應該多多少少都會為你們兩個人的成績考慮,所以他應該會配合你,做出一個不傷害雙方感情的選擇。
然而大量事實告訴我們,很多時候,人就是那麼自私。當然,也不排除是因為隨機分配的結果里沒有互相認識的同桌,才導致你們一直就想著怎麼互相傷害。
然而到目前為止,這個成績遊戲還算不上是真正意義的博弈,雖然它有行為,有策略,有參與者,但是它還少了一樣十分重要的元素,也是博弈論中必不可少的元素——收益。
而這一點,也恰恰是參與者在博弈中最關注的東西。
只有清楚了我們在這場遊戲里,最關心什麼、能得到什麼收益,才能夠從真正意義上地去分析這個博弈。
當然,博弈論是不能告訴你這些東西的。博弈論沒有辦法告訴你,你的收益是什麼,就像汪峰無法告訴他的隊員,他們的夢想是什麼一樣。
博弈論能給你提供的幫助就是,在你知道你能從這場遊戲里得到什麼收益之後,它幫你達到你想要的結果。
在這場遊戲里,我們有兩種收益,一種是只在乎自己的收益,一種是考慮自己的同時還要擔心別人的收益。在這裡我們簡稱這兩種利益為:自私的傢伙眼中的收益和好人眼中的收益。
為了能更加直觀地觀察到收益效果,我們在分析這兩種情況的時候,稍微對成績矩陣做出了一點修改。
『自私的傢伙眼中的收益』
在這種情況下,每種選擇對應的收益如下:
(B-,B-)→ 0分;(A,C)→ 3分;(C,A)→ -1分;(B+,B+)→ 1分
首先對於這種情況的同學,他們是只看到了自己收益。他們的想法很簡單:拿3分比拿1分好,拿1分要比拿0分要好,最後要是實在都拿不了,那我拿0分也總比拿-1分好。反正我管你成績爛成一坨翔也好,怎樣都好,只要我自己的成績好就行。
然後我們回顧一下,那些選擇α的同學,他們當時的想法:無論我的同桌選什麼,反正我選擇α的成績總會比選β的成績要好。
怎麼理解呢?你們看看上面的圖馬上就能懂了。
當我的同桌選α的時候,我選α,那我的成績是0分,但是如果我選β,那我的成績就是-1分。0>-1,這一點很明顯吧。我可以不盈利,但是我總不能虧,說的就是現在這種情形。
那同理的,當我的同桌選β,我選α,我就可以拿到3分。而選β,我只能拿到1分。所以綜上所述,怎麼看都是選α最合適不過了。
從這裡我們可以得出一個定義:在你的同桌作出任何一種選擇的情況下,如果你選擇α所得的結果怎麼都比選β的結果要好,那麼此時α相對於β,就是一個嚴格優勢策略。
從這個概念里,我們彷彿可以悟出這樣一個道理:千萬別選嚴格劣勢策略。為什麼?因為,只要我選的是嚴格優勢策略,那不管別人怎麼選,我總是能得到更好的利益、更好的結果。
或者我們也可以來想像一下,在這種由自我利益主導的情況下,會不會出現這樣一幅友好的畫面?
因為α是嚴格優勢策略,所以我跟同桌一開始都想選α,那結果就是我們倆會一起拿0分。但是我和我的同桌又換個角度想了想,我們為什麼不能一起選β呢,這樣我們最後能拿到1分,肯定比之前拿0分要強。最後,我們都心滿意足地選了β,一起拿到了1分。
但是,在只顧自己利益的條件下,真的可能出現上述的這種友好情境嗎?當你都能考慮到兩個人同時選α時能得到的分數,比兩個人同時選β能拿到的分數要少的時候,我就不信你沒有想到一個能拿到更高分的機會——在別人選β的時候,悄悄選了α。
但是你當人家是傻瓜嗎?你以為你會想到,你同桌就不會想到了嗎?你以為他就不會想到在你選β的時候選α了嗎?所以最後的結果只能是什麼?就只能是兩個人都以為對方選了β的情況下,一起又倒回去選了α。
這個時候,我們又悟出了另外一個道理:在理性的情況下,選擇優勢策略給我們帶來的結果,反而會更糟糕。
美國有一個很著名的案例「囚徒困境」,就對這個道理進行了很好的解讀。
兩個共謀犯罪的人被關入監獄,不能互相溝通情況。如果兩個人都不揭發對方,則由於證據不確定,每個人都坐牢一年;若一人揭發,而另一人沉默,則揭發者因為立功而立即獲釋,沉默者因不合作而入獄十年;若互相揭發,則因證據確實,二者都判刑八年。由於囚徒無法信任對方,因此傾向於互相揭發,而不是同守沉默。
但其實不說「囚徒困境」,在日常生活中,我們也能找到很多類似的例子。
比如上學的時候,你們宿舍的衛生是不是總給人慘不忍睹的的既視感?為什麼?因為沒人願意打掃衛生呀!因為你們總指望著別人給你收拾呀!
我們一起吃完的麥當勞憑什麼我去扔?我們一起掉的一地頭髮憑什麼我去掃?我們一起帶回來的泥巴憑什麼我去拖?我就是不想給你打掃衛生,當然你也有權利不打掃衛生,但是你要是最後實在忍不住動手了,這個結果對我來說當然就是最好不過。
於是每個人都這麼想,宿舍只能變本加厲地臟。
『好人眼中的收益』
對比第一種情況的成績矩陣你會發現,一旦我們在做選擇的時候考慮到了對方的收益,那我們就會對這個評分規則有不一樣的理解。
當你跟你的同桌同時選α,或者同時選β的時候,成績都沒有發生變化。然而當你選擇α,而你的同桌選擇了β的時候,你的成績從之前的3分變成-1分。而如果你選擇β,你的同桌選α的時候,你的成績會從之前的-1分變成-3分。
那到底怎樣去理解這個變化呢?
你可以想像一下這樣的情景:那天老師給你分配的同桌就是跟你要好的同學。一開始你們都覺得合作共贏比較好,然而你卻在最後一刻變卦了。你背叛了他選了α,而你的同桌很誠實地選了β。你高高興興地拿到了3分,然而到晚上睡覺的時候,你卻發現自己失眠了,因為內疚。所以你的成績一下子扣掉了4分,而這扣掉的4分,正是自責所致。
或者也可以換一種情景:同樣是遇到了要好的朋友,一開始你們互使眼色說要一起選β,然而最後卻被擺了一道。本來你拿到的分數是-1分,但是你想來想去都覺得氣不過,所以你的成績減掉了2分。這減掉的2分,我們把它理解成憤怒。
於是,在這種成績安排下,再進行選擇。不難發現,這一次選擇α跟選擇β的人數基本上相差不大。
選擇α的同學:因為選α的風險更小,成績的波動更小,能減少我的損失。我選擇α,那我得到的成績就是0或者-1,而不會是-3或1。而且,在這樣的成績安排下,α已經不再是嚴格優勢策略了。
選擇β的同學:如果選α,那我得到的最高的成績只能是0,但是選β,我最高的成績是1。
回到遊戲的最開始,其實不難發現,我們並沒有改變這個遊戲的結構和結果,它仍然還是那個樣子:
但是一旦我們關注的東西不一樣了,那我們得出的結果也不一樣了。很顯然在第一種情況下,我們顯然應該要選擇α,但是在第二種情況里,我們就說不準要怎麼選擇了。
通過這個,我們得出博弈論里一個最簡單最基本但也最重要的結論:收益很重要。
在博弈過程中,最重要就是要了解收益,明白它的重要性。一旦我們改變了目的,改變了收益,那我們就改變了博弈,改變了結果。
而假如在這場遊戲里,我是一個自私的傢伙,而我的同桌是一位人人稱道的傳說中的好人。那這樣的情況下,我的成績就是自私的傢伙的成績,而同桌的成績就是好人的成績,結合上述的兩種博弈,我們彷彿可以得出一種新的博弈。
再假如,現在我跟我同桌的身份調過來,我是好人,他是自私的傢伙,又可以得出另一種新的博弈。
當然無論怎樣,在第一種新的情況下,我肯定都會選α,畢竟我都標榜了自己是自私的傢伙,那肯定得對得住自私的名號。當然仔細觀察,這個α還是選得有道理的,因為在這種條件下,α是我們之前說到的嚴格優勢策略。
根據我們當時推出的結論——不要選嚴格劣勢策略,所以此時選擇α就是正確答案。
但是在第二種新的博弈中,大部分人還是會選擇α,這是為什麼呢?這個時候的α,已經顯然沒有所謂的「優勢」了。這種情況下,我們就可以反觀一下同桌的選擇了。
當我選擇α的時候,我的同桌選擇α的成績比選擇β的成績高;當我選擇β時,我的同桌選α的成績,還是比選擇β的成績高。綜合來看,現在的α變成了我同桌的一個嚴格最優策略,所以他肯定會選擇α。
那既然他的選擇是α,如果我選β,那我的成績是-3分,但是如果我選α,那我就會拿到0分。對比之下,當然選擇α比較好。
我只是傳說中的好人而已,但絕對不是濫好人。
於是從這兩種新的博弈里,我們又能得出一個更加深層次的結論:分析博弈最重要的內容,或者說策略分析的重要內容,也就是策略分析核心,就是要學會換位思考,要站在對方的立場上去分析他們會怎麼做。
雖然,這一點在現實生活中還是很難做到的。畢竟,在博弈過程中,想要弄清楚對方的收益,還是要比弄清楚自己的收益難得多。
TAG:超級數學建模 |