當前位置:
首頁 > 新聞 > 「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

論文&PPT:http://www.pitt.edu/~kpele/kdd2017-tutorial.html

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

很早以前看過一部體育題材的電影《點球成金》,英文名MoneyBall。片子講述了布拉特皮特飾演的球隊總經理和耶魯大學經濟系畢業的數據分析師一起通過對棒球比賽數據進行挖掘和分析,淘寶聯盟里性價比高、擁有一技之長的球員組隊,進而取得成功的光榮事迹。該片充分展現了利用數據來提升球隊的價值和意義,令人印象非常深刻。一直想對其中用到的技術手段一探究竟,而KDD 2017上的《Athlytics: Data Mining and Machine Learning for Sports Analytics》這個topic實在是再合適不過了。

這個講座由KonstantinosPelechrinis (University of Pittsburgh),EvangelosPapalexakis (University of California, Riverside),Benjamin Alamar (ESPN)三位合作,學術界+工業界的模式保證了實用性。整個topic還是很研究范兒,數學公式比較多,但解決的問題和方法還是相對比較淺。這裡可能有兩個原因:1.這個領域人們之前並未足夠重視,大部分還是依靠專業球探的經驗;2. 這個領域價值很大 (權威機構預測到2021年體育數據分析的市場有47億美金) 更專業更有價值的方法並未公開。具體方法不再一一贅述,挑三個有趣的分享一下,更多可以參考ppt鏈接。

(1)評估球員實力:修正的正負值指標Plus?minus

正負值是評估球員實力的主要指標,該指標越高,意味著球員能力越強。以安東尼-5為例,就是安東尼上場的時間內,球隊輸了5分。但該指標只考慮球員在場的得失分差,明顯有很多不合理的地方。比如場上領先時,不代表每個人都對這次的成功合作做出了正面的貢獻,退一步講,即使每個人有正面貢獻,貢獻少 能力低的也很難通過這種數據被區分出來。

如何區分每個球員對勝利的貢獻是其中的關鍵問題,研究者們藉助線性模型對每個回合進行回歸建模,因變數(DV)是每回合的得分、自變數(IV)則是所有球員,回歸的結果就是每個球員會有一個權重,而這個權重代表了球員對勝利貢獻。這裡自變數的設計很巧妙,針對每一個回合,我方在場球員用1表示,對方在場球員用-1表示,其他球員用0表示,這樣起到的一個效果就是本回合的得分和我方在場球員正相關,和對方在場球員負相關,而和不在場球員無關。多個回合經過模型學習後,每個球員都有了自己的一個權重,越大表示這個球員對勝利的貢獻越大,同時由於每個回合都考慮我方在場和對方在場的球員,也把其他球員的影響自動考慮進去。

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

上圖是NBA 07-08賽季頭部和尾部Top5的球員,看起來非常靠譜,和大部分球迷的認知還是比較一致的。

(2)預測比賽勝負:基於PageRank的Sportsnetrank

簡單來說Sportsnetrank基於pagerank的思想,將球隊之間的比賽建模成圖,結點是球隊,邊是球隊之間的戰績(得失分)。然後在圖上運行pagerank,就可以得到每個球隊的實力評估分數,pr值越大,球隊實力越強,勝率越高。下圖是基於NFL聯賽構建出來的圖,結點越大,球隊越強。邊越粗,說明球隊交手時差距越大。

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

預測比賽勝負時,可以簡單根據之前的交手記錄構建圖,然後計算出每個球隊的目前實力。當兩個球隊交手時,實力更強的球隊預測為勝。就是這樣一個簡單的策略,就能取得很好的效果,按作者的原話是達到了stat-of-the-art的水平。

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

上圖是NFL聯賽預測的結果和真實的結果的比較,可以看出確實不簡單。

(3)戰術有效性:擋拆識別及評估

擋拆(防守)是NBA最常見的戰術,也是得分最有效的手段。有研究者建立並實驗了一套自動識別常見擋拆防守套路的系統。利用SportVU球員追蹤數據和監督式機器學習方法,建立了一套學習分類器,用於分辨防守擋拆的四種方式:「擠過(over)」、「繞過(under)」、「包夾(trap)」、「換防(switch)」。具體含義如下:

  • 擠過:持球防守者在持球人和掩護者之間,即從掩護上方擠過;

  • 繞過:持球防守者不在持球人和掩護者之間,即從掩護下方繞過;

  • 換防:持球防守者和掩護防守者交換防守對象;

  • 包夾:持球防守者和掩護防守者夾擊持球人。

然後作者手動標記了四種類型的若干樣本,並進一步訓練構建了分類器來發現更多的擋拆。最終識別結果如下:全部270823個擋拆,「擠過」146314個,「繞過」69721個,「換防」37336個,「包夾」17451個。對這些進一步分析可以得到以下一些有趣的結論:

  1. 各賽季四類擋拆分布基本一致,但可以注意到「包夾」的比例略有提高,說明隨著個人得分能力更強後,包夾會越來越多?

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

b. 哪些組合不來電?

下圖比較了不同防守組合面對擋拆的每回合失分以及他們各自與所有球員搭檔的平均每回合失分。克里斯-保羅和布雷克-格里芬是使用擠過的效果是最差的之一,平均失去1.2分。另外伊巴卡和雷吉-傑克遜組合的換防很差,但各自擋拆防守效率很接近。【題外話,如今這兩對組合已經都被拆散了,是不是經理看到了這個研究?】

「北馬助跑」KDD 2017:體育運動分析中的數據挖掘與機器學習

結語:AI在體育產業的應用才剛剛開始,還有很多amazing的應用正在展開或者即將展開。感興趣的同學可以自行搜索相關資料進行學習研究。Slides地址:http://www.pitt.edu/~kpele/kdd2017-tutorial.html

點擊閱讀原文可查看職位詳情,期待你的加入~

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 新智元 的精彩文章:

「實戰」重現DeepMind星際爭霸強化學習演算法
「李航確認加入今日頭條」微軟華為BAT,最新一輪AI掌門人爭奪
一文讀懂量子機器學習:量子演算法基石已經奠定

TAG:新智元 |