2018世界盃來臨在即,讓AI告訴你誰最有可能奪冠
原文來源:arXiv
作者:Andreas Groll、Christophe Ley、Gunther Schauberger、Hans Van Eetvelde
「雷克世界」編譯:嗯~阿童木呀
導語:令廣大球迷興奮的2018年俄羅斯世界盃即將開始,對於球迷來說,每一屆世界盃中,除了球員精湛的球技之外,惹人關注的還有對奪冠球隊的預測。最近,多特蒙德工業大學(Technische Universit?t Dortmund)的Andreas Groll教授,根特大學(Ghent University)的Christophe Ley教授、Hans Van Eetvelde教授,慕尼黑理工大學(Technical University of Munich)的Gunther Schauberger教授比較了一些足球比賽得分的建模方法,並使用一種基於隨機(決策)森林的建模方法,使用國際足聯的排名,平均年齡和冠軍聯賽球員數量,國家人口比率,國內生產總值,甚至教練的國籍等因素,對2018年世界盃足球賽進行預測。
在這項研究中,我們比較了三種不同的足球比賽得分的建模方法,而這是根據它們在2002年至2014年四次國際足球聯盟世界盃(FIFA World Cups)的所有比賽中進行的預測性表現進行的:泊松回歸模型(Poisson regression models),隨機森林(random forests)和排名方法(ranking methods)。前兩種方法基於團隊的協變數信息,而後一種方法估計足夠的能力參數,而這些參數反映了當前團隊的最佳實力。在這個比較中,在訓練數據中表現最好的預測方法是排名方法和隨機森林。然而,我們表明,通過將隨機森林與來自排名方法的團隊能力參數相組合作為附加的協變數,我們可以大大提高預測能力。最後,我們選擇這種方法的組合作為最終模型,根據其估計,2018年世界盃將會被反覆模擬,並獲得所有參賽隊伍的獲勝概率。較之衛冕冠軍德國,該模型略微偏向支持西班牙。此外,我們提供了所有球隊在所有錦標賽階段的生存概率以及最可能的錦標賽結果。
圖1:樣本表格顯示了所涉及的團隊的四組比賽和部分協變數的結果
就像之前的2014年世界盃一樣,即將在俄羅斯舉辦的世界盃也引起了若干位建模師們的注意,他們試圖預測出錦標賽的冠軍。有一種方法已經為過去歐洲錦標賽(歐洲杯)和國際足聯世界盃若干項賽事取得了合理的結果,這種方法是基於賭注登記經紀人(bookmakers)的幾率中所包含的預期信息(Leitner、Zeileis和Hornik於2010年、Zeileis、Leitner和Hornik於2012年、2014年、2016年提出)。現在,對於這樣的重要賽事,賭注登記經紀人在錦標賽開始之前為獲勝者提供一個賭注。通過將若干家在線賭注登記經紀人的獲勝幾率匯總並將其轉化為獲勝概率,反向錦標賽模擬可用於計算特定於團隊的能力,關於這一點可參閱Leitner、Zeileis和Hornik(於2010年提出)的論文。憑藉球隊特有的能力,所有單場比賽都可以通過配對比較進行模擬,因此,獲得了完整的錦標賽課程。Zeileis、Leitner和Hornik(於2018年)預測巴西將以16.6%的概率贏得2018年世界盃,其次是德國(15.8%)和西班牙(12.5%)。
同樣的三支球隊被瑞士銀行UBS的一組專家確定為最受歡迎的球員,但具有不同的概率和不同的順序(Audran、Bolliger、Kolb、Mariscal和Pilloud,2018年):他們獲得德國最受喜愛的球員,獲勝概率為24.0%,其次是巴西(19.8%)和西班牙(16.1%)。他們使用一個基於四個因素的統計模型,而這四個因素將表明球隊在比賽期間的表現將如何:Elo評分,球隊在世界盃之前資格賽中的表現,球隊在前幾屆世界盃錦標賽中的成績和家庭優勢。該模型通過使用前五場比賽的結果進行校準,並進行10,000次蒙特卡羅模擬(Monte Carlo simulations)以確定所有球隊的獲勝概率。
圖2:條形圖顯示了,應用於FIFA世界盃2002—2014年數據中的隨機森林中變數重要性,得分數量用作響應變數,論文第2部分描述的變數用作預測變數。
另一個被證明在預測之前的國際足球錦標賽(如歐洲杯或世界盃)結果中有價值的模型類,是泊松回歸模型的類,它直接對兩個競爭團隊在單場比賽中的進球得分進行建模。設在i和j隊之間的比賽中,Xi j和Yi j分別表示第一和第二隊的目標,其中i,j∈,n代表錦標賽中球隊的總數。假設Xi j?Po(λij)和Yi j?Po(μij),其中λij和μij表示相應泊松分布的強度參數(即期望的目標數量)。對於這些強度參數,存在幾種建模策略,它們以不同方式將競爭團隊的能力或協變數包括在內。
在最簡單的情況下,泊松分布被視為(條件性)獨立的,主要取決於團隊的能力或協變數。例如,Dyte和Clarke(於2000年)將此模型應用於國際足聯世界盃的數據中,並讓兩支參賽隊伍的泊松強度取決於他們的國際足聯排名。Groll和Abedieh(於2013年)以及Groll、Schauberger和Tutz(於2015年)分別對歐洲杯和世界盃數據分別考慮了一組潛在的有影響的變數,並使用L1懲罰方法來檢測相關協變數的稀疏集。基於此,對2012年歐洲杯和2014年FIFA世界盃的賽事進行了預測。這些方法表明,當涉及到許多協變數和/或單變數的預測能力事先不明確時,正則化估計方法可能是有益的。
許多研究人員已經放寬了對條件獨立性的強烈假設,並且引入了不同的可能性來將依賴分數考慮在內。Dixon和Coles(於1997年)首先確定了得分數之間的一個(輕微負)相關性。因此,他們引入了一個附加的依賴參數。然而,他們忽略了一個事實,即模型中的強度參數,包括兩個團隊的能力(或協變數)本身是相關的。因此,儘管以能力為條件,泊松分布被假定為獨立的,但它們是邊際相關的。Karlis和Ntzoufras(於2003年)提出用雙變數泊松分布(bivariate Poisson distribution)對兩個團隊的得分進行建模,該分布能夠解釋得分之間的(正)相關性。儘管雙變數泊松分布只能解釋正相關性,但基於copula的模型也允許負相關性(可參見McHale和Scarf於2007年、McHale和Scarf於2011年或Boshnakov、Kharrat和McHale於2017年所提出的觀點)。
圖3:根據FIFA世界盃的100,000次模擬運行以及根據ODDSET賠率獲勝的概率,為所有32支球隊進入2018年世界盃足球賽不同階段的預測概率(以百分比表示)。
然而,關於雙變數泊松的案例,Groll、Kneib、Mayr和Schauberger(於2018年)提供了一些證據,如果兩個競爭團隊的高信息量協變數都包含在兩個(條件性)獨立泊松分布的強度中,那麼比賽分數的依賴結構可以被適當地建模。他們包括了歐洲杯數據的一大組協變數,並使用提升演算法(boosting approach)來選擇一個用於預測2016年歐洲杯的稀疏模型。由於雙變數泊松分布的依賴性參數從未被提升演算法更新過,所以有兩個(條件性)獨立泊松分布就足夠了。
與基於協變數的泊松回歸模型密切相關的是基於泊松的足球隊伍排名方法。主要思想是找到能夠反映當前團隊最佳實力的足夠多的能力參數。以一組比賽為基礎,然後通過最大似然法(maximum likelihood)估計那些參數。Ley、Van de Wiele和Van Eetvelde(於2018年)研究了各種泊松模型,並對它們的預測性能進行了比較。由此產生的最佳模型是獨立泊松模型以及Karlis和Ntzoufras(於2003年提出)的最簡單的雙變數泊松分布。有趣的是,Ley等人(於2018年)發現,這些模型在國內聯賽和國家隊比賽中的表現都優於對手。這些基於統計力量的排名為國際足聯的排名提供了一個有趣的選擇。
一種完全不同的建模方法是基於隨機(決策)森林(random (decision) forests),這是一種由Breiman(於2001年)提出的用於分類、回歸和其他任務的集成學習方法。該方法起源於機器學習和數據挖掘社區,並且首先通過在訓練數據上構建大量所謂的決策樹進行操作的。然後,通過採用預測類的模式(在分類中)或平均預測值(在回歸中)來總結單個樹的預測結果。這樣,與常規決策樹相比,隨機森林減少了過度擬合的趨勢和方差,因此,它是常用的強大預測工具。在Schauberger和Groll(於2018年)的初步研究中,不同類型的隨機森林已經與傳統的計數數據的回歸方法(如上述泊松模型),在包含2002 - 2014年FIFA世界盃的所有比賽的數據上對預測性能進行了比較。事實證明,隨機森林提供了非常令人滿意的結果,並且通常要優於回歸方法。而且,他們的預測表現實際上要麼接近甚至超過作為自然基準的賭注登記經紀人的表現。這些結果激勵我們在目前的研究中使用隨機森林來計算即將到來的2018年FIFA世界盃的預測。然而,我們將證明,如果能夠對反映國家隊目前的實力的團隊能力參數進行充分的估計,並將其作為附加的協變數,隨機森林現有的非常出色的預測能力可以得到進一步的改進提高。
原文鏈接:https://arxiv.org/pdf/1806.03208.pdf
※雷克大會7月登陸天津 機器人與人工智慧成為焦點
※共建智港!國際人工智慧演算法系統與應用研討會在津開幕
TAG:雷克世界 |