當前位置:
首頁 > 新聞 > 機器學習預測世界盃:巴西奪冠

機器學習預測世界盃:巴西奪冠

新智元 今天

機器學習預測世界盃:巴西奪冠



新智元報道

來源:Medium,Github,KDnuggets等

作者:李靜怡,克雷格

【新智元導讀】2018年世界盃開幕在即,誰會贏得最後的冠軍?機器學習預測是巴西,而統計方法則認為德國會贏。

機器學習預測世界盃:巴西奪冠

3天後,2018年俄羅斯世界盃開打,首場比賽是東道主俄羅斯對陣沙烏地阿拉伯,將於6月14日拉開序幕。

每屆世界盃最受關注的當屬決賽,上屆2014年巴西世界盃,東道主巴西隊意外爆冷,只獲得第四名,無緣決賽。今年的世界盃,不少機構/研究人員給出預測:德國將和巴西爭奪冠軍,並且,巴西隊奪冠的概率更大些。

綜合各種預測和民意調查,冠軍幾乎肯定在巴西、德國和阿根廷之間展開,雖然強強爭鋒喜聞樂見,但似乎也少了些驚喜。

機器學習和大數據的方法正越來越多地被用在比賽結果預測上,不僅是世界盃,也不僅是結果,球隊組成、戰術選擇和球員訓練都已經開始見到機器學習的身影。對於球迷和觀眾而言,人工智慧也將展開一種全新的參與/觀看體育賽事的體驗。

機器學習預測結果:巴西獲得冠軍

肯亞的投資銀行Genghis Capital Investment Bank的投資銀行分析師Gerald Muriuki,日前在Medium上公布了他使用機器學習預測FIFA 2018的結果——巴西將贏得冠軍

這一結果跟微軟的AI和數據科學專家Sorin Peste的預測結果一致。

實際上,預測世界盃冠軍是一個典型的機器學習問題,你首先預測每場比賽的獲勝者,接著再預測小組賽、半決賽和決賽的冠軍。在這個過程中,你需要進行數據整合、特徵建模和結果預測。因此,很多機器學習或數據科學家,都做過類似的項目。

Muriuki和Peste兩個人都是根據足球比賽的歷史數據,建立機器學習模型,模擬比賽,並預測這些比賽的結果。下面我們分別來看看。

使用邏輯回歸進行預測

Muriuki使用了兩個來自Kaggle的數據集,包含了從1872年到2017年國際足球比賽的結果。他先分析了兩個數據集,做了一些特徵工程,選擇跟2018年世界盃最相關的特徵進行預測,再足控了一些數據增強。

在模型的選擇上,Muriuki用的是邏輯回歸,一種分類器演算法。邏輯回歸通過使用邏輯函數預估概率,從而衡量分類因變數和一個或多個自變數之間的關係。簡單說,給定一組相關的數據後,邏輯回歸能夠預測結果(在世界盃的情況下,就是預測是輸還是贏)。

這是他的模型預測最初幾場比賽的結果:俄羅斯vs沙特,俄羅斯勝利;烏拉圭vs埃及,烏拉圭勝利;伊朗vs摩洛哥,平局。4天以後就可以驗證這個結果是對還是錯了。

機器學習預測世界盃:巴西奪冠

16強的結果是這樣的:

機器學習預測世界盃:巴西奪冠

四分之一決賽將在葡萄牙vs巴西,以及德國vs阿根廷之間展開。

機器學習預測世界盃:巴西奪冠

最終巴西vs德國,巴西獲勝。

機器學習預測世界盃:巴西奪冠

使用隨機森林進行預測

另一方面,微軟的AI和數據科學專家Sorin Peste的預測過程則更加完善。在數據的選擇上,除了歷年世界盃結果,Peste還使用了歐洲杯、奧運會等大型比賽的數據,以及這些比賽的勝率分布。

機器學習預測世界盃:巴西奪冠

此外,Peste還考慮了比賽的地址,也即是在主場、客場還是在雙方都無關的中立場所,以及比賽是否「friendly」,在踢friendly比賽時,目的不是為了贏球,而是為了觀察對手的球員和策略。

在模型的選擇上,Peste用的是隨機森林(深度500),一種根據呈現給它的特徵生成多個決策樹的演算法,並且每個單獨的樹對每個新輸入向量的結果「投票」。隨機森林的速度快,相當準確,可以對泛化誤差進行無偏估計,因此不需要交叉驗證。

下圖展示了迭代1000次後的結果,巴西獲勝,阿根廷第二。

機器學習預測世界盃:巴西奪冠

統計的方法:德國戰車險勝巴西

當然,除了機器學習,還有更多預測是使用大數據方法。KDnuggets上一位狂熱球迷用統計的方法,預測德國隊會奪冠。他的操作步驟如下:

收集信息:

國際足聯世界排名:這是所有211支國家足球隊的排名系統。使用積分系統,積分是基於所有FIFA認可的國際比賽的結果。然而,這並不是最好的系統,而且有很多缺點。

Elo評級:該系統最初是為國際象棋聯合會FIDE開發的,目的是給棋手打分。它的複雜矩陣根據比賽的類型分配點數,並考慮到雙方的凈勝球差異。它和國際足聯的主要不同之處在於,它也統計了友誼賽的數量。

TransferMarkt team value:這個總部位於德國的網站提供了關於足球各個方面的信息,包括每個知名球員的估計市值。他們列出了參與國的名單和他們的團隊價值。

投注賠率:使用投注比較網站OddsChecker,採用每個國家最慷慨的賠率。

TransferMarkt的數字是歐元,而FIFA和Elo有他們自己的評級系統,投注賠率是分數。作者將每一個系統都標準化,使它們具有可比性。在統計中,標準分數(也稱為z分數/值,正常分數或標準化值)是數值與平均值不同的標準偏差數。

機器學習預測世界盃:巴西奪冠

2018年世界盃,四個流行的預測來源

機器學習預測世界盃:巴西奪冠

KDnuggets預測的z分數

如果KDnuggets的預測是正確的,那麼世界盃小組賽的結果會是下面這樣的:

機器學習預測世界盃:巴西奪冠

研究結果引出了一些有趣的結論:

  • 德國排名第一,但僅略高於巴西。緊隨其後的是西班牙和法國。
  • Elo排名系統和投注幾率看起來最相似,都列出了相同的前五名(上面提到的四個球隊和阿根廷)。
  • 在整個體系中有一些鮮明的對比,其中最引人注目的是秘魯在國際足聯(FIFA)和Elo排名中z分數都排在第10位,而在TrasferMarkt的球隊價值排名卻在第30位。

民意調查:德國、巴西、阿根廷最受歡迎

除了KDnuggets上的預測,還有諸多世界盃賽前的其他預測:

《每日電訊報》對每支球隊進行了廣泛的分析,最後進行了一項投票,讓讀者預測冠軍,投票結果如下:

機器學習預測世界盃:巴西奪冠

此外,據中新網報道,俄羅斯彼爾姆國立研究大學學生維克多?扎科派洛建立了一個能預測2018年世界盃冠軍的神經網路,神經網路綜合各項參數進行分析計算後得出結論稱,世界盃前三名將是德國隊、巴西隊和阿根廷隊

四年前,巴西在家門口以1:7輸給了德國隊,創下了自1920年0:6輸給烏拉圭以來最大的世界盃輸球記錄,震驚全國人民。最終,德國隊奪得了當年的世界盃冠軍。

今年的俄羅斯世界盃,諸多機構預測巴西和德國將上演冠軍大戰。巴西能否一雪前恥,德國能否成功衛冕?我們拭目以待。

資料來源:

1、Muriuki邏輯回歸預測:https://medium.com/@itsmuriuki/predicting-fifa-world-cup-2018-using-machine-learning-dc07ad8dd576

2、Peste隨機森林預測(附代碼):https://notebooks.azure.com/sorinpeste/libraries/footballpred/html/worldcup.ipynb

3、統計預測結果:https://www.kdnuggets.com/2018/06/football-world-cup-predictions.html

4、基於Elo的世界盃預測模型:https://arxiv.org/pdf/1806.01930.pdf

【加入社群】

新智元 AI 技術 + 產業社群招募中,歡迎對 AI 技術 + 產業落地感興趣的同學,加小助手微信號: aiera2015_3 入群;通過審核後我們將邀請進群,加入社群後務必修改群備註(姓名 - 公司 - 職位;專業群審核較嚴,敬請諒解)。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

中國領先機器人領域 但AI研究不足以支撐垂直領域解決方案
入門必備:史上最全的深度學習資源匯總,速藏!

TAG:新智元 |