如何在博弈中做出更好的決定？

最新 04-01

從小到大呢，我都是一個比較喜歡玩遊戲的人，不管是電子遊戲還是桌游，都玩過很多。我屬於那種特別喜歡研究遊戲策略，熱愛通過合理的戰術和規劃取得勝利的人，每當在遊戲中面臨多個策略選擇時，我都會三思而後行，盡量做出最佳的選擇。有的時候也會和別人討論甚至爭執怎樣的決策才是最好的，每當這種時候我都會思考，究竟怎麼樣才能做出更好的決定？

事實上，每個雙人或多人參與的對抗遊戲，比如象棋、英雄聯盟、德州撲克，都可以視作是一場博弈。我們想知道如何做出更好的決定，那我們首先就要知道什麼是好的決定，什麼是壞的決定，評判決策的標準是什麼？這其實就已經牽涉到了決策學的內容，本文並無意深究，只是想提供一個科學地評判決策質量的一個視角。

首先，總的來說，博弈可以分為兩種，完全信息博弈和非完全信息博弈。前者就是雙方玩家沒有任何隱藏信息的遊戲，所有信息都公開在明處，雙方玩家隨時都可以獲取到全部的信息，比如說象棋、圍棋就是典型代表，要注意判斷的條件是是否有隱藏信息，而不是遊戲是否有隨機性，比如投骰子比大小是完全信息博弈，石頭剪刀布是非完全信息博弈。這類博弈難度可以很高，但思考方式是很簡潔明了的。如果沒有隨機因素，就是不斷地在腦海中演算未來會出現的情況，也即下棋俗語「算棋」；如果有隨機因素，那就仔細評估各個選擇背後的概率以及期望，做出最有利於自己的決定。

然而，這部分博弈只佔非常非常少的一部分，我們玩的絕大多數遊戲，甚至生活中工作中會碰到的博弈，都是非完全信息博弈，這也就是本文的重點，如何評判非完全信息博弈中的決策質量。

首先，我們需要引入一個概念，英文叫equity，中文我覺得叫權益比較合適。簡單來說，權益就是你的勝率加上平局概率的一半，比如在一個雙人博弈中，你有25%的勝率和50%的平局率，那你和對方的權益就都是50%，相當於這是一個勢均力敵的結果。也就是說，權益是用來評估一個玩家在博弈中的優勢程度的，權益越高代表越有優勢，反之亦然。

說完了權益，我們就可以引入非完全信息博弈中的核心概念了，即Game Theory Optimal，遊戲理論最優解（下文簡寫為GTO）。其定義為如果玩家A採取了某一策略，使得博弈中的任何其他玩家都無法單方面地削弱A的權益，並且A也無法再單方面地提高自己的權益，此時A採取的即是GTO策略。簡單地來說，單方面地把自己的權益最大化，就是GTO。先舉個最簡單的例子，剪刀石頭布中，GTO是什麼？換句話說，不管對方出什麼，我用什麼策略，一定能獲得50%的權益？想思考的讀者可以自己想一會再下拉，不想的話可以直接拉到後面。

答案是，我以1/3的概率出剪刀，1/3的概率出石頭，1/3的概率出布，即是GTO策略。此時無論對方以何種策略出拳，我的權益都是50%，因為在每一輪中，我贏，輸，平的概率都是1/3，所以權益即為1/3+1/3*1/2=50%。於是我們便可以引入GTO中的重要概念，即mixed strategy，混合策略。混合策略就是說在非完全信息博弈中，在一部分完全相同的情況下（注意並不要求所有情況下），要能夠隨機性採取多種行動，另外就是同一種行動，要能對應多種不同的底牌，後面這點在石頭剪刀布中體現不出來，但也是混合策略的重要概念。這裡我們各以1/3的概率出拳，即是一種混合策略。

聰明的讀者可能發現了，在石頭剪刀布中，如果我們以GTO策略出拳，縱然對方贏不了我們，我們也不可能贏了對方。無論對方採取怎麼差的策略，甚至是100%出剪刀這樣的策略，雙方的權益都還是50%。這是因為石頭剪刀布這個博弈設計地太簡單，99.9%的非完全信息博弈里，只要我們採取了GTO策略，對方不以GTO策略回應的話，他的權益就會下降，通常意味著我們的權益上升（多人博弈中，有時會讓第三方的權益上升，我們的權益依然不變）。

再舉個例子，有名的囚徒困境，兩個合夥犯罪的嫌疑人被抓到警局，每個人都可以選擇背叛或信守。如果一方背叛而另一方信守，那麼信守的坐牢15年，背叛的坐牢1年；如果兩方均背叛，則雙方都坐牢10年；如果雙方都信守，則各自坐牢5年。此時GTO策略為100%選擇背叛，因為不論對方怎麼選擇，我們都是選擇背叛更有利。如果對方不幸選擇了信守，我們的權益便自動上升。從都背叛的10年變成了單方面背叛的1年。也就是說，當我們執行了GTO策略，對方如果沒有執行GTO，我們便提升了權益，對方喪失了權益。

要注意GTO策略所能獲得的權益是單方面最大，並不總是在得知對方策略後，能獲得最大權益的策略，正所謂善戰者無赫赫之功。比如如果剪刀石頭布中我知道對方100%出剪刀，那我100%出石頭就行了，能獲得100%的權益。但這樣的策略建立在對對手策略的絕對了解上，這在絕大多數博弈中是不可能的。我並不是在否認知己知彼的重要性，但彼就是彼，盲目地認為自己已經了解了對手的策略是非常危險的，就像希特勒以為盟軍一定在加萊登陸一樣，聰明反被聰明誤。

所以當我們在評判決策的時候，要以GTO為基礎，從GTO的角度看決策，而不能只著眼於對方會採取什麼樣的策略。越接近GTO的策略就越是好的策略，越偏離GTO的策略往往只能針對對方几個特定策略才能產生很大的權益提升，此時就需要越多的關於對方策略的了解度才能佐證，但這樣的佐證往往又是不靠譜的。

日常的策略討論中經常會出現什麼如果對方怎樣怎樣，你就該怎樣怎樣，這樣的視角未免有失偏頗。與中國人的「成王敗寇」理念相反，在現代博弈理論下，「不以成敗論英雄」才是合理的視角，決策的質量評估從根本上來說只依賴於接近GTO的程度，其他因素比如關於對手會採取怎樣的策略只能是輔助因素。

下面就可以談到GTO理論在實際博弈中的應用，要注意在大多數非完全信息博弈中，真正的、完美的GTO是非常複雜的，往往不是人腦所能完全計算出來的，所以此時要學會化繁為簡，從一些簡單的角度去逼近GTO，執行一些簡單明了的近似GTO策略。檢驗一種策略是否接近GTO的一種簡單方法是假定對手知道我們要採取某一策略，是否有很好的針對策略，我個人稱之為「明牌檢驗法」。

例1：狼人殺，預女獵白屠邊板，雙狼自爆吞警徽。你是女巫，第一天晚上你已使用解藥，警上真預言家發完金水後狼人選擇自爆，直接入夜。當晚以及下一晚（如果雙爆）是否用毒藥的GTO是什麼？在我看來，這裡有一種很接近GTO的打法，就是100%不出毒。在第一天平安夜的情況下，狼人輪次已天然落後，就算刀刀中神也是好人領先，此時一旦毒到神，狼人直接反先，毒到平民則好人容錯率下降，即便毒到狼好人的容錯也並不是一定就會提升。用明牌檢驗法可知，狼人知道你不出毒也無可奈何，只能盡量珉你身份將你擊殺吞掉毒藥，但一來未必珉得准，二來吞掉毒藥對好人陣營來說也並不一定是壞事。

例2：絕地求生中，在組隊遊戲中，擊倒敵人是否應即時補掉還是釣魚？這是一個具體情況具體分析的問題，但總的來說，在有機會的情況下，盡量補掉敵人是很接近GTO的選擇。因為補掉一個人就是對方穩定的減員，是最穩定的收益。釣魚的話說不定偷雞不成蝕把米。

寫在最後的話：

GTO策略可以說是一個完美的盾，一個任何情況下都可以採用的優質策略。但這並不代表，我們就收起了我們鋒利的矛。在很多博弈中，往往博弈雙方都有中途變換策略的機會，以上舉的所有例子里，除囚徒困境外，都有轉變策略的窗口。當我們對我們的博弈對手有了真正足夠的了解的時候，依然可以選擇亮劍，用最針對的策略最大化我們的權益，一擊制敵！

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 g司機私人小屋 的精彩文章:

※大西洋上的博弈——希特勒入侵挪威

TAG:g司機私人小屋 |