德國就是比墨西哥菜?「極大似然估計法」騙過了全世界的賭徒和球迷
概率與似然
一對好夥伴
世界盃已經進行了半個多月了,早已經有黑眼圈了。
這屆世界盃真是冷門頻發,轉折不斷,可謂精彩紛呈,有人歡喜有人憂。有人中大彩,有人上天台。
(你個幾百塊錢的就不要擠上來了)
世界盃球賽的結果是如此錯綜複雜,以致於很少有人能夠準確地預測出每一場球賽的結果。
在這種變幻莫測的運動賽事中,當然離不開概率。今天,超模君就從世界盃球賽的角度來簡單介紹下概率以及他的好基友——似然。
那麼先來說大家是如何判斷一場比賽的結果呢?
一般大家會通過各種信息,如比賽隊伍雙方世預賽或者其他賽事的輸贏情況、進球數等等判斷雙方的綜合實力,將這些已有的信息稱之為參數。根據這些參數,就可以對比賽結果進行推測,得到比賽各種結果的可能性,這就是概率。
舉個相對簡單的例子,一場球賽開賽前,裁判會通過擲硬幣的方式決定雙方的場地選擇權。
把硬幣的正面朝上出現的概率稱為硬幣的參數。假設硬幣是完全公平的,則硬幣正面與反面出現的概率是相同的,都是0.5,即硬幣的參數是0.5。
於是可以推測,投擲10次硬幣,出現5次正面朝上的概率是:
這種根據已有信息即參數推測結果的各種可能性的方式就是求概率。
那麼似然又是什麼呢?
「似然」這個詞是對英文likelihood的一種較為貼近文言文的翻譯,用現代的中文來說就是「可能性」。
概率是在已知一些參數的情況下,預測接下來的觀測所得到的結果。
而似然則是用於在已知某些觀測所得到的結果時,對有關事物的性質即參數進行估計。
比如說,在擲硬幣之前,我們並不知道硬幣是否是公平的,對硬幣自身的性質即參數一無所知,但我們可以根據擲硬幣的結果推測出硬幣的大致參數,這就稱作似然。
再粗略舉一個比賽中的例子,小組賽F組德國對陣墨西哥。根據德國是上屆世界盃的冠軍,而墨西哥止步於十六強,可以推測德國隊綜合實力比墨西哥隊強的概率為「高」,即參數為「高」。
進一步收集更多的信息,發現德國在預選賽取得全勝的優異戰績,墨西哥則是5勝2平1負。所以,進一步推出參數為「很高」。
再看看先前兩隊的交戰情況。歷史上,兩隊在世界盃交手3次,德國保持不敗。1978年世界盃小組賽德國6-0大勝墨西哥。1986年世界盃1/4決賽,兩隊120分鐘戰成0-0,點球戰德國4-1勝出;1998年世界盃1/8決賽,德國2-1逆轉墨西哥。於是,可以認為參數最大的可能性為「極高」,也就是說,德國隊最有可能比墨西哥要強很多。
這種通過已有結果信息,對原參數進行推斷,稱作似然。而推測出最可能的參數值,稱為極大似然估計。
我們會有這樣的感覺,當已有的結果信息越多時,即實驗結果越多,得到的參數可能就越明確。
再舉個例子,出乎人的意料,強大的德國隊敗給了墨西哥隊。如果只根據這一結果對參數進行推測,就推出了參數最有可能為「低」,即德國隊綜合實力最有可能沒有墨西哥隊強。
這種說法顯然有些片面,但這就是似然的本質邏輯。
實際上,當實驗結果越來越多時,推測出的參數值就會更精準。
我們對擲硬幣的例子進行具體分析,擲10次硬幣,發現有6次正面朝上。
我們對該硬幣的性質一無所知,所要推測的就是其最可能的參數值。假設這枚硬幣是完全公平的,即硬幣的參數是0.5,由此計算出以上實驗結果出現的概率為:
當然,硬幣也有可能是不公平。設硬幣的參數為0.6,則實驗結果出現的概率是:
可以看出,參數為0.6使得實驗結果出現的概率要比參數為0.5時的大,即以0.6作為參數的可能性更大,該硬幣更傾向於是不公平的。
為了進一步推出最可能的參數值,進行極大似然估計。設硬幣的參數為,則似然函數為:
作出似然函數的圖像:
從圖像中可以看出,參數值為0.6時,概率最大。D(0.6,0.25)為極值點。當參數值大於或小於0.6時,概率逐漸遞減。0.6為最可能的參數值。
所以要進行極大似然估計,就是要找到似然函數的極值。
增加實驗次數,設已知50次投擲結果,求出現30次正面朝上時硬幣的參數,似然函數的圖像如下:
從圖中明顯可以看出,似然函數大於0的範圍收縮了,也就是說,可以選擇的參數值的分布更加集中了。
隨著已知實驗結果的增多,我們對事物的性質越來越了解,參數也會越來越明確。
極大似然估計法教會了我們世界壓強隊更容易贏,但卻沒告訴我們這屆世界盃愛爆出冷門,你看,德國、阿根廷、葡萄牙、西班牙都回家了,其他所謂的強隊還會遠嗎?
本文由超級數學建模編輯和整理
部分資料來源於網路
轉載請在公眾號中,回復「轉載」
-----這裡是數學思維的聚集地------
「超級數學建模」(微信號supermodeling),每天學一點小知識,輕鬆了解各種思維,做個好玩的理性派。60萬數學精英都在關注!
「徵稿啟事」
※馬化騰少年時的天文望遠鏡花了父母4個月工資:愛上天文對我影響很深
※1小時快速入門Python爬蟲,掌握核心基礎
TAG:超級數學建模 |