當前位置:
首頁 > 最新 > 如何在博弈中做出更好的決定?

如何在博弈中做出更好的決定?

從小到大呢,我都是一個比較喜歡玩遊戲的人,不管是電子遊戲還是桌游,都玩過很多。我屬於那種特別喜歡研究遊戲策略,熱愛通過合理的戰術和規劃取得勝利的人,每當在遊戲中面臨多個策略選擇時,我都會三思而後行,盡量做出最佳的選擇。有的時候也會和別人討論甚至爭執怎樣的決策才是最好的,每當這種時候我都會思考,究竟怎麼樣才能做出更好的決定?

事實上,每個雙人或多人參與的對抗遊戲,比如象棋、英雄聯盟、德州撲克,都可以視作是一場博弈。我們想知道如何做出更好的決定,那我們首先就要知道什麼是好的決定,什麼是壞的決定,評判決策的標準是什麼?這其實就已經牽涉到了決策學的內容,本文並無意深究,只是想提供一個科學地評判決策質量的一個視角。

首先,總的來說,博弈可以分為兩種,完全信息博弈和非完全信息博弈。前者就是雙方玩家沒有任何隱藏信息的遊戲,所有信息都公開在明處,雙方玩家隨時都可以獲取到全部的信息,比如說象棋、圍棋就是典型代表,要注意判斷的條件是是否有隱藏信息,而不是遊戲是否有隨機性,比如投骰子比大小是完全信息博弈,石頭剪刀布是非完全信息博弈。這類博弈難度可以很高,但思考方式是很簡潔明了的。如果沒有隨機因素,就是不斷地在腦海中演算未來會出現的情況,也即下棋俗語「算棋」;如果有隨機因素,那就仔細評估各個選擇背後的概率以及期望,做出最有利於自己的決定。

然而,這部分博弈只佔非常非常少的一部分,我們玩的絕大多數遊戲,甚至生活中工作中會碰到的博弈,都是非完全信息博弈,這也就是本文的重點,如何評判非完全信息博弈中的決策質量。

首先,我們需要引入一個概念,英文叫equity,中文我覺得叫權益比較合適。簡單來說,權益就是你的勝率加上平局概率的一半,比如在一個雙人博弈中,你有25%的勝率和50%的平局率,那你和對方的權益就都是50%,相當於這是一個勢均力敵的結果。也就是說,權益是用來評估一個玩家在博弈中的優勢程度的,權益越高代表越有優勢,反之亦然。

說完了權益,我們就可以引入非完全信息博弈中的核心概念了,即Game Theory Optimal,遊戲理論最優解(下文簡寫為GTO)。其定義為如果玩家A採取了某一策略,使得博弈中的任何其他玩家都無法單方面地削弱A的權益,並且A也無法再單方面地提高自己的權益,此時A採取的即是GTO策略。簡單地來說,單方面地把自己的權益最大化,就是GTO。先舉個最簡單的例子,剪刀石頭布中,GTO是什麼?換句話說,不管對方出什麼,我用什麼策略,一定能獲得50%的權益?想思考的讀者可以自己想一會再下拉,不想的話可以直接拉到後面。

答案是,我以1/3的概率出剪刀,1/3的概率出石頭,1/3的概率出布,即是GTO策略。此時無論對方以何種策略出拳,我的權益都是50%,因為在每一輪中,我贏,輸,平的概率都是1/3,所以權益即為1/3+1/3*1/2=50%。於是我們便可以引入GTO中的重要概念,即mixed strategy,混合策略。混合策略就是說在非完全信息博弈中,在一部分完全相同的情況下(注意並不要求所有情況下),要能夠隨機性採取多種行動,另外就是同一種行動,要能對應多種不同的底牌,後面這點在石頭剪刀布中體現不出來,但也是混合策略的重要概念。這裡我們各以1/3的概率出拳,即是一種混合策略。

聰明的讀者可能發現了,在石頭剪刀布中,如果我們以GTO策略出拳,縱然對方贏不了我們,我們也不可能贏了對方。無論對方採取怎麼差的策略,甚至是100%出剪刀這樣的策略,雙方的權益都還是50%。這是因為石頭剪刀布這個博弈設計地太簡單,99.9%的非完全信息博弈里,只要我們採取了GTO策略,對方不以GTO策略回應的話,他的權益就會下降,通常意味著我們的權益上升(多人博弈中,有時會讓第三方的權益上升,我們的權益依然不變)。

再舉個例子,有名的囚徒困境,兩個合夥犯罪的嫌疑人被抓到警局,每個人都可以選擇背叛或信守。如果一方背叛而另一方信守,那麼信守的坐牢15年,背叛的坐牢1年;如果兩方均背叛,則雙方都坐牢10年;如果雙方都信守,則各自坐牢5年。此時GTO策略為100%選擇背叛,因為不論對方怎麼選擇,我們都是選擇背叛更有利。如果對方不幸選擇了信守,我們的權益便自動上升。從都背叛的10年變成了單方面背叛的1年。也就是說,當我們執行了GTO策略,對方如果沒有執行GTO,我們便提升了權益,對方喪失了權益。

要注意GTO策略所能獲得的權益是單方面最大,並不總是在得知對方策略後,能獲得最大權益的策略,正所謂善戰者無赫赫之功。比如如果剪刀石頭布中我知道對方100%出剪刀,那我100%出石頭就行了,能獲得100%的權益。但這樣的策略建立在對對手策略的絕對了解上,這在絕大多數博弈中是不可能的。我並不是在否認知己知彼的重要性,但彼就是彼,盲目地認為自己已經了解了對手的策略是非常危險的,就像希特勒以為盟軍一定在加萊登陸一樣,聰明反被聰明誤。

所以當我們在評判決策的時候,要以GTO為基礎,從GTO的角度看決策,而不能只著眼於對方會採取什麼樣的策略。越接近GTO的策略就越是好的策略,越偏離GTO的策略往往只能針對對方几個特定策略才能產生很大的權益提升,此時就需要越多的關於對方策略的了解度才能佐證,但這樣的佐證往往又是不靠譜的。

日常的策略討論中經常會出現什麼如果對方怎樣怎樣,你就該怎樣怎樣,這樣的視角未免有失偏頗。與中國人的「成王敗寇」理念相反,在現代博弈理論下,「不以成敗論英雄」才是合理的視角,決策的質量評估從根本上來說只依賴於接近GTO的程度,其他因素比如關於對手會採取怎樣的策略只能是輔助因素。

下面就可以談到GTO理論在實際博弈中的應用,要注意在大多數非完全信息博弈中,真正的、完美的GTO是非常複雜的,往往不是人腦所能完全計算出來的,所以此時要學會化繁為簡,從一些簡單的角度去逼近GTO,執行一些簡單明了的近似GTO策略。檢驗一種策略是否接近GTO的一種簡單方法是假定對手知道我們要採取某一策略,是否有很好的針對策略,我個人稱之為「明牌檢驗法」。

例1:狼人殺,預女獵白屠邊板,雙狼自爆吞警徽。你是女巫,第一天晚上你已使用解藥,警上真預言家發完金水後狼人選擇自爆,直接入夜。當晚以及下一晚(如果雙爆)是否用毒藥的GTO是什麼?在我看來,這裡有一種很接近GTO的打法,就是100%不出毒。在第一天平安夜的情況下,狼人輪次已天然落後,就算刀刀中神也是好人領先,此時一旦毒到神,狼人直接反先,毒到平民則好人容錯率下降,即便毒到狼好人的容錯也並不是一定就會提升。用明牌檢驗法可知,狼人知道你不出毒也無可奈何,只能盡量珉你身份將你擊殺吞掉毒藥,但一來未必珉得准,二來吞掉毒藥對好人陣營來說也並不一定是壞事。

例2:絕地求生中,在組隊遊戲中,擊倒敵人是否應即時補掉還是釣魚?這是一個具體情況具體分析的問題,但總的來說,在有機會的情況下,盡量補掉敵人是很接近GTO的選擇。因為補掉一個人就是對方穩定的減員,是最穩定的收益。釣魚的話說不定偷雞不成蝕把米。

寫在最後的話:

GTO策略可以說是一個完美的盾,一個任何情況下都可以採用的優質策略。但這並不代表,我們就收起了我們鋒利的矛。在很多博弈中,往往博弈雙方都有中途變換策略的機會,以上舉的所有例子里,除囚徒困境外,都有轉變策略的窗口。當我們對我們的博弈對手有了真正足夠的了解的時候,依然可以選擇亮劍,用最針對的策略最大化我們的權益,一擊制敵!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 g司機私人小屋 的精彩文章:

大西洋上的博弈——希特勒入侵挪威

TAG:g司機私人小屋 |