大數據告訴我們:巴西將奪得2018世界盃冠軍,這靠譜嗎?
2018年俄羅斯世界盃將於6月14日正式拉開帷幕,而隨著賽事日期的日漸臨近,坊間對於本屆世界盃冠軍歸屬的預測和爭論進入到了白熱化的階段,不光是球迷在為自己鍾愛的球隊搖旗吶喊(阿根廷是冠軍!!!),就連平時非常高冷的商業組織也都投入到這種狂熱中。
最近,著名的投資銀行、投資管理公司高盛發布了一個他們對於「2018年俄羅斯世界盃冠軍」的分析預測。當然,有別於球迷的「情感預測」,高盛的預測顯得更加理性和具有依據——高盛運用了高深的大數據技術,使用了20萬個統計模型,包括單個球員的數據,到近期巴西隊的表現,再到100萬次的模擬比賽,從而得出巴西將贏得俄羅斯世界冠軍的結論。順便說一下,高盛的大數據模型認為,法國將奪得亞軍,德國屈居季軍,葡萄牙第四,而阿根廷無法進入四強(別哭,阿根廷)。
很酷,是吧?這感覺就跟《復仇者聯盟3》中奇異博士用時間寶石看遍了14000605個無限戰爭的結局,只有一個未來的結局是復仇者聯盟取得了勝利。今天,大數據發揮的作用就跟電影里的「時間寶石」一樣嗎?能夠準確預測未來?!
先來看一個大數據成功發揮作用的案例:2009年全球首次出現甲型H1N1流感,由於是新型病毒,沒有對應的疫苗和藥品,而且傳播速度很快,短短几周之內引起了全球的恐慌。面對此次流感,各國的公共衛生機構在「如何預防H1N1傳染」上而臨巨大壓力,預防的核心是要準確預測病情的蔓延程度。但現實的情況是,初期感染了H1N1的人們並不會馬上去醫院檢查,大部分人都實在撐不下去了才會到醫院求醫,醫生髮現新型流感病例後,會通報給疾病控制與預防中心,最後由中心匯總統計各地的情況,這個過程大概需要兩周時間,這毫無疑問是嚴重的信息滯後,這將給流感疫情的把控和抑制帶來非常不利的影響。這時候,大數據發揮出其神奇的預測的功能。
谷歌的數據分析師分析了幾十億條關於流感的檢索記錄,處理了4.5億個不同的數字模型,構造出一個流感預測指數,非常神奇,這個預測指數與官方數據的相關性高達97%,準確地預判了H1N1流感的發展趨勢和爆發的地區,比政府的官方播報提前兩周,有力地協助衛生當局控制流感疫情。事實上,谷歌的數據分析師並不懂醫學,也不知道流感傳播的原理,但是他們藉助大數據技術為工具,準確地預測了一場極其複雜的大型流感疫情的發展的全過程,這是一件非常神奇的事情。
今天,不懂足球,最起碼並非足球專業領域的高盛的數據分析師們,能否通過大數據準確預測本屆世界盃冠軍呢?
事實上,我認為這個很難。即使到最後,巴西一如預測中奪得了世界盃冠軍,我也不認為這是大數據的功勞。
為什麼呢?
因為大數據本身不是一種邏輯推理研究,它發揮作用的基礎是對數量巨大的數據做統計性的搜索、比較、聚類、分類等分析歸納,以探求不同因素間的相關性,如上述流感案例中,某地區人們在google.com上搜索關鍵詞「流感」次數越多,則該地區可能大規模爆發流感的可能性越大,這是一種客觀事實,只是通過大數據把這種相關性給「暴露」了出來。「相關分析」的目的就是找出數據集里隱藏的相互關係網(關聯網),一般用支持度、可信度、興趣度等參數反映相關性,但這些不同的因素間並不存在邏輯上的因果關係,甚至這種因果關係是恰恰相反的,就如,不是因為你搜索了「流感」這個關鍵詞,所以你才感染了H1N1。
而世界盃一共有32支來自各國的參賽隊伍,一共進行64場真刀真槍的較量,才會決出最後的冠軍,所以,要準確分析預測最後的冠軍並不是一件容易的事情。因為這都還不是客觀的存在的事實,還等待著發生,裡面充滿著各種難以預測的意外,如,誰能預測到1998年世界盃決賽前發生在羅納爾多身上的一切,導致大羅全場如同夢遊,直接一場慘敗丟掉冠軍?誰又能想到2006年世界盃決賽第109分鐘,齊達內毫無徵兆地突然用頭撞倒了馬特拉齊,然後直接被紅牌罰下,這張紅牌直接改變了場上形勢,此前法國已經掌握主動,很有可能完成致命一擊,而最後義大利偷走了最後的冠軍。
這些都不是大數據能夠預測的,大數據擅長的是相關性預測,而對人類的情感、衝突、為了利益不擇手段等等,大數據無能為力,因為資料庫里沒有一條數據會記錄馬特拉齊會突然罵齊達內「你是義大利養出來的一條忘恩負義的狗」。
足球是圓的,正是無法預測,這才是足球的魅力。
當然,如果哪一天,大數據能分析出中國將奪得世界盃冠軍,而中國到最後果真贏得了冠軍,那時候,我非常願意相信大數據的神奇魔法。
※BAT要大舉進攻影視業?第一槍打向了明星片酬!
※王卡之禍,中國移動4G用戶負增長?
TAG:悲了傷的白犀牛 |