當前位置:
首頁 > 最新 > FiveThirtyEight:我們是如何預測2018年世界盃的

FiveThirtyEight:我們是如何預測2018年世界盃的

編譯:陳靜惟

作者:Jay Boice

主題:2018年世界盃

數據:獲取GitHub上的數據

發布時間:2018年6月13日

世界盃又開始了,FiveThirtyEight關於世界盃的預測同樣也回歸了。對於那些熟悉我們俱樂部足球預測或者2014年世界盃預測的人來說,我們2018年世界盃的預測看起來也很熟悉。我們展示了每一支球隊贏、輸或者踢平每一場球的可能性,運用表格詳細說明每支球隊在他們小組排名第一或者第二的可能性,以及進入淘汰賽階段的情況。

今年,我們在互動式圖表中增加了一些新的特點。我們新增了一個名為「Bracket」的選項,以說明每支球隊在比賽中被淘汰的可能性,以及每支球隊最有可能面臨的對手。不僅如此,讀者還可以通過這個選項來進行一些假設性的探索,從而預測整屆世界盃接下來的走勢。最後,我們的預測還包含了實時更新的比賽贏率。

下面是預測如何運作的總結,包括FiveThirtyEight的足球力量指數(SPI)評級的描述,我們如何將這些評級轉化為預測,以及我們如何計算比賽的贏率。

SPI ratings SPI評級

GIF

我們預測的核心是FiveThirtyEight的SPI評級,這是我們對團隊整體實力的最佳估計。 在我們的系統中,每支球隊都有一個進攻等級,這個等級代表了在中立的情況下對抗普通球隊的進球數,以及表示預計失球數的防守等級。反過來,這些評分會產生一個總體SPI評分,它代表了積分的百分比 - 獲勝3分,平局1分,輸球0分 - 如果將比賽一遍又一遍地進行模擬,這一評級體系就會發生作用。

我們的世界盃SPI評級由兩個獨立的系統組成:75%來自基於球隊比賽的SPI評分,這些評分來自最近的國際比賽結果。 另外25%來自我們基於名額的SPI評級,這些評級通過將每支球隊的花名冊與我們的俱樂部足球比賽資料庫的結合,來評估球隊的實力。

基於匹配的SPI評級

GIF

為了形成我們基於比賽的SPI評分體系,我們通過國際比賽資料庫中的每一個以往比賽的數據——回溯到1905年——採用四個指標來評估兩支球隊的表現。

1、球隊得分。

2、根據紅牌數量、進球時間等因素調整過的球隊有效進球數量

3、根據球員射門情況判定有望進球的數量。

4、根據球員在對方球隊禁區的表現來判定該球隊有望進球的數量

(我們在帖子里更詳細地描述了這些指標,以及我們俱樂部足球預測的工作原理。對於那些沒有比賽數據的比賽,只考慮最終比分。)

考慮到球隊在上述指標方面的表現以及對方球隊的防守SPI評分,由此賦予球隊在該比賽的進攻評分。 根據賽前的防守評分和對方的進攻表現,還會給予防守評分。

這些比賽評分與球隊的賽前評級相結合,形成球隊新的進攻和防守SPI評分。將給予新比賽評分和比賽重要性以不同的權重,例如,世界盃預選賽的參賽人數將比國際友誼賽的參賽人數有更大的權重。

基於球員花名冊的SPI評級

GIF

正如我們形成了資料庫中的每場國際比賽產生的進攻和防守評分一樣,我們已經為全球數千支球隊提供了SPI評分。

除了這些俱樂部球隊的SPI評分外,我們還根據球員所屬球隊的表現以及對應球員在每場比賽中的上場時間來形成每位球員的評分。 一名球員獲得75%的分數,僅僅因為他的名字出現在了俱樂部某場比賽的隊員名單中;另外25%是基於可用分鐘數的百分比。例如,一個球員在一個賽季每場比賽中為球隊踢比賽的每分鐘的成績都與他所屬的俱樂部球隊基本相同。

整個賽季坐在替補席上的球員的SPI評分相當於其所屬俱樂部球隊評分的75%。 該模型並不關注每一位球員在俱樂部中的表現;它只關心他所屬的俱樂部有多好,以及該球員上場的分鐘數。

每支世界盃球隊的名單上的SPI評級是球員評分的綜合體現,與我們的國際SPI評分體系相同。因此,不管國家隊的成績如何,像德國這樣的球隊的球員,大多數來自英超俱樂部和德甲聯賽的精英俱樂部球隊,他們的評分將高於哥斯大黎加這樣的球隊,像這些球隊,其隊員更多地是來自MLS,很少有球員來自歐洲的足球俱樂部隊。

比賽預測

GIF

根據每支球隊的SPI評分,世界盃比賽獲勝/輸球/抽籤概率(draw probabilities)的過程有三個方面:

1、我們計算出我們期望每支球隊在比賽中得分的目標數量。 這些預測的比賽得分代表了每支球隊需要進球以保持其進攻等級,以及進入下一階段比賽的目標所需要達到的進球數量。

2、使用我們的預測匹配分數和假設:足球進球得分遵循泊松分布,這本質上是一種以已知速率為隨機事件建模的方法,我們在這些得分周圍產生兩個泊松分布。 存在的可能性是每個球隊沒有進球,一個進球,或者兩個進球等。

3、我們採用兩個泊松分布,並將它們轉換為所有可能匹配分數的矩陣,從中我們可以計算每個團隊獲勝,輸球或抽籤的可能性。 為了避免計數不足,我們增加矩陣中的相應概率。

4、以巴西和克羅埃西亞之間的2014年世界盃首場比賽為例。 在比賽之前,我們的模型對於克羅埃西亞不會進球或進球的預估非常有信心。 然而,巴西的分布更廣泛,導致其在比賽中佔有86%的重要和偏向比例。

雖然巴西隊以驚人的方式從2014年世界盃中被淘汰出局,同時英超聯賽的主場優勢正在縮小,但仍有歷史證據表明東道主球隊在世界盃的表現會有所提升。 同樣,來自東道國同一聯盟的球隊在表現上也獲得了較小但仍可衡量的提高。在2018年的世界盃上,我們為俄羅斯隊提供了大約0.4的主場優勢,同時為其他來自歐足聯盟的球隊約1/3的分數,我們所為其增加的分數仍少於世界杯歷史成績所顯示的優勢。

聯賽預測

GIF

一旦我們能夠預測單個比賽,我們就可以使用蒙特卡羅模擬將這些單場比賽逐個匹配,將概率轉換為聯賽的預測。 這意味著我們模擬聯賽數千次,一支球隊贏得聯賽的可能性就等於它贏得比賽的模擬份額。

與我們的其他預測一樣,我們運行的是世界盃模擬賽事,這意味著每個球隊的評分都會根據特定情況下發生的變化而改變。例如,截至撰寫本文時,如果巴西(以E組第一的成績出線)和墨西哥(以F組第二的成績出線)在16強中相遇,那麼巴西獲勝的幾率為82%。

但是如果球隊在16強的比賽中完成逆轉,巴西表現不佳,以小組第二的成績出線,而墨西哥戰勝德國,以小組第一的成績出線,那麼巴西隊贏得比賽的幾率只有大約75%。

現場比賽預測

GIF

我們的實時比賽預測會計算出每支球隊實時獲勝,輸球或抽籤的機會。 這些真實的贏球概率可以加入我們的聯賽預測中,以實時查看世界盃的情況。

我們的實時模型的工作原理與我們的賽前預測相同。 在比賽的任何時候,我們都可以計算出我們希望各隊在剩餘時間內得分的進球數。 我們根據這些預測目標生成泊松分布,並為餘下的比賽生成所有可能得分的矩陣。 當矩陣與比賽的當前比分相結合時,我們可以使用它來計算實時贏球概率。

例如,在同一場巴西vs.克羅埃西亞比賽的第65分鐘,比分以1-1形成平局,我們在比賽剩餘時間的預測分布已經大幅縮小。 巴西的勝利仍然是最有可能的結果,但比在球賽開始時少得多。

在比賽之前,我們可以根據球隊預計在整場比賽中得分的目標數量來確定每支球隊的得分率。 然而,這個比率在整場比賽中並不是一成不變的,因為在比賽結束時比接近開始的時候,更多的進球意味著可能會得分。隨著比賽的進行,我們考慮到了這種情況,這導致了不確定性和方差的增加,從而指向比賽結束。

我們也考慮到了傷停補時的問題。平均來說,一場足球賽的時間長度為96分鐘,上半場增加了2分鐘,下半場增加了4分鐘。 支持我們預測的數據並不能提供準確的傷停補停時間,但我們可以通過以下兩件事來估算下半場增加的分鐘數:

1、比賽進行時間內,雙方球員吃的紅牌和黃牌的數量。從歷史數據來看,下班場每多發一張紅/黃牌,就增加大約11秒的時間。

2、比賽得分是否接近。當兩隊得分的差距在一球以內時,往往會多出大約40秒的時間。

我們的現場模型同時也考慮了加時賽和點球大戰(shootout)的因素,我們可能在世界盃的淘汰賽階段看到,我們的現場點球大戰(shootout)預測遵循2014年文章中描述的相同方法。

最後,我們根據比賽本身發生的情況,對每支球隊的得分率進行三種調整。

紅牌很重要。 在足球比賽中,球員的單人優勢非常明顯。如果有球員拿到紅牌,那麼對應每場比賽的得分率調整為大約1.1個(被平分給兩個隊),一個隊比率上升,另一個隊比率下降。換句話說,對方球隊被罰紅牌的價值大約是主場優勢的三倍。

考慮一場比賽,我們的基於SPI的目標預測為1.50-1.50,主隊在比賽前有37%的獲勝機會。 如果在第一分鐘內向客隊顯示紅牌,我們的預期目標將轉變為2.05-0.95,主隊獲勝的幾率將上升至62%。

優秀的球隊在輸球時傾向於比預期更高的得分比率。最激動人心的直播比賽往往是那些受歡迎的球隊在落後一兩個球的情況下,並且不得不頑強追回比分的比賽。通過對我們現場模型背後的數據進行的一項探索證實,任何進球失敗的球隊的得分都會高於其預賽率,但在一方面,球隊越好,其效果就越好。

例如2014年巴西vs.克羅埃西亞的比賽。在比賽開始前,巴西是一個非常受歡迎的球隊,其有86%的獲勝機會,但是第11分鐘馬塞洛進球之後,巴西隊以1比0落後。 如果不進行調整,我們的模型預估巴西隊有58%的幾率將比分追平,再贏得比賽,但通過調整,我們的模型預估巴西隊有66%的獲勝幾率。(最終,巴西隊以3-1贏得比賽。)

非射門預期目標在預估一支球隊的表現高於或低於預期有較好效果任何觀看足球比賽的人都知道,即使球隊沒有進攻,球隊也可能得分,也許會因為最後一分鐘的搶斷或越位的判罰,而使比賽暫停下來。 一個讓對手陷入危險境地的球隊可能會以傳統指標無法反映的方式來主導比賽。

隨著比賽的進行,每支球隊在對方球隊的進攻區域採取行動時,會累積非射門預期分數(xG)。 基於高於我們賽前預期的每個未射門xG值,我們都會對賽前得分率進行0.34的目標調整。 例如,如果我們預計在半場結束時,未射門的xG積分為1.0-0.5,但實際上為0.5-1.0,那麼這將是1.0次非射門xG的變化,並且0.34的進球調整將應用於原始得分率。 這不是一個巨大的調整; 在半場結束時,在這個例子中,正如預估的那樣,客場球隊的比賽勝率要高於比沒有射門的xG值。

在比賽中出現紅牌的情況下,針對紅牌的調整優先於未射門的xG值的調整。

我們特別注意適當地校準實時模型; 也就是說,當我們的模型表示一個球隊有32%的獲勝幾率時,它應該贏得大約佔32%的時間。同樣重要的是在模型尾部有適當的不確定性; 當我們的模型表示一支球隊在1000回合贏得比賽的機會只有1次時,也就是說其獲勝的幾率大約為1/1000。 2018年世界盃只有64場比賽,所以我們的模型不太可能在這樣一個小樣本上進行完美校準,但我們有信心,從長遠來看它已經得到了很好的校準效果。

儘管美國今年沒有參賽,但我們希望您在比賽結束後跟隨我們。

2018 FIFA World Cup

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 NICARWeChannel 的精彩文章:

TAG:NICARWeChannel |