從《復仇者聯盟》談數據分析中的一些思路
自從《復仇者聯盟3》的宣傳片在網上公布,全球各地的漫威迷們無不歡欣鼓舞,本人也關注好久了,唯一的不足就是國內上映太慢,竟然比美國晚了一個周。恨不得打個飛的去美國先睹為快。
我們今天就借著《復聯》系列電影,談一下統計分析中的一些問題和思路。
熟悉漫威的朋友應該都知道,《復聯》鋪的很大,尤其是《復聯3》,包容了以往的大多數漫威英雄,《綠巨人》2部、《美隊》三部曲、《鋼鐵俠》三部曲、《雷神》三部曲,另外,《銀河護衛隊》、《奇異博士》、《蟻人》、《黑豹》、《蜘蛛俠》也都要登場,而且據說寡姐還要有獨立的電影(不知道是不是為了對抗DC的《神奇女俠》,雖然我覺得沒必要,因為目前看來《神奇女俠》是漫威中任何女性都沒法抗衡的,包括寡姐。因為神奇女俠太帥了)。
原諒我說的有點多,作為一個漫威、DC、變形金剛的多重迷,在《復聯3》上映前,忍不住想多說幾句。
在科研論文寫作中,有一個流行的比喻,寫文章就是在講故事,如何把你的故事講好很重要。其實數據分析亦是如此,從你拿到數據,到最後結果出來,就是一個講故事的過程。基於數據最終獲得的模型,就是你的故事,向其他人揭示了數據的故事。
在建模過程中,無非就是數據和變數。那麼,在這個講故事的過程中,數據和變數起了什麼作用呢?一個好的模型,每一個數據和變數都應該幫助我們了解這個故事。比如《復聯》的故事,復聯是個很大的概念,裡面每個人都應該對故事有一定幫助和了解,否則這個人物的存在就沒有意義。同樣,如果一個變數對模型構建沒有幫助,那這個變數可能就用處不大。所謂沒有幫助,那就是這個變數不影響你的模型構建,比如你要編製一個反映抑鬱的量表,如果量表中有一個問題,所有人的選擇都是3,那這就是一個沒有意義的問題,可以刪掉,因為不管是抑鬱或非抑鬱,回答的結果都一樣。專業上來說,這叫做變異為,或者沒有變異。
比如《鋼鐵俠3》中,國內剪輯版加入了某范和某王演員,對劇情推動一點作用都沒有,換句話說,有沒有這兩個人絲毫不影響劇情,所以這兩個人就是無意義的變數,完全可以刪除。所以除了中國外,其他任何版本的電影中,都沒有這兩個人的身影,因為導演也很清楚,加入這兩個人純粹是為了討好中國觀眾,如果把這一版本放到其他國家肯定會拉低票房(事實上,中國觀眾也根本不買賬)。
所以,其實我們說篩選危險因素,就是為了把那些對結果沒有影響的變數去除,這樣才能得到一個簡潔、實用的模型,大家看起來才會賞心悅目。不是說變數越多越好。
在電影發展的過程中,不知道大家有沒有注意到一個現象,各個演員是相互客串的。比如《美隊2》不是美隊一個人在戰鬥,寡姐一直陪在他身邊,偶爾還調調情。再比如《雷神3》,綠巨人也出現在裡面,動不動跟雷神來點嘴仗。為什麼要這麼安排,因為可以增加票房。比如,雷神單獨的電影可能票房為1億,綠巨人單獨電影的票房也為1億,如果兩個人同時出現在同一部電影中,可能票房會達到3億。
這跟數據分析又有什麼關係呢?專業來說,這就叫做交互效應分析。有時往往一個變數可能沒有意義,而如果加入另外一個變數,二者如果有交互效應,那就會產生1+1>2的效果(當然,不排除1+1
交互效應的分析在藥物研究中很常見,比如研究同時服用兩種葯有沒有交互效應。但要注意,即使服用兩種葯的效果大於服用一種葯的效果,這不見得一定有交互效應,因為理論上,兩種葯就應該比一種葯好。交互效應是指額外產生的效應。如1+1產生了2.5的效果,那麼多出來的0.5才是交互效應,而不是2.5。不少文章經常說,我兩個因素合起來產生了大於1個因素的效果,我有交互效應。根本不是這麼回事,兩個因素本來就應該比一個因素效果不同,但要看是不是比兩個因素加起來的正常效應多。
《復聯》系列包含的人物很多,然而主要的幾位大佬或者創始者也就那麼幾個人,如美隊、鋼鐵俠、雷神、綠巨人等。總的來說,目前所有這系列的電影,都在鋪開一個「漫威世界」,最終指向今年的大boss滅霸。如果有的數據偏離較遠,很可能就會影響整個系列的發展或故事性。所以大家可以看到,幾乎每一部電影后面的彩蛋,都會跟其他多少有點聯繫。如果其中有一部電影完全在講述自己的故事,那他可能跟所有其他故事都不同。比如《奇異博士》,其實就偏離較遠,幾乎跟其他電影都沒什麼關聯(當然也不是一點關聯沒有,只是相對其他電影而言,更像是獨立的電影)。
在這數據中,我們可以稱之為異常點分析。理論上,一份好的數據,每一個數據點都應該有差不多的貢獻,然後大家一起形成一個好的模型。如果數據中發現個別數據點與其他數據點偏離較大,這就叫做異常點。如果發現有異常點且影響了模型的構建,這時候如果你還非要把它保留在模型中,而且硬稱這一異常點的故事與其他數據點的故事是一樣的,很可能會影響你整個的故事性,甚至有可能會把整個故事性拉偏。關於異常值的問題,前面已經有介紹了,這裡就不再重複贅述。
據說在即將上映的《復聯3》中,出場的漫威英雄多達60多人,一起對抗超級大Boss滅霸(雖然很可能大多數超級英雄在對抗過程中都會撲街)。大家會發現,這些超級英雄幾乎每個人的技能各不相同。比如美隊有戰鬥經驗和領導天賦、鋼鐵俠最大的技能跟蝙蝠俠一樣:rich、雷神能召喚雷電(雖然鎚子已經被死神捏碎了)、蜘蛛俠飛檐走壁、蟻人可大可小、冬兵擅長搞破壞、綠巨人力大無窮、緋紅女巫意念控制,等等。這樣才能達到一個最佳效果,如果大家的技能差不多,就沒什麼意思了,而且容易起內訌,比如有兩個綠巨人,那就很麻煩,他們會整天打架。所以當綠巨人和神奇四俠中的石頭人在一起時,基本的打招呼方式就是干一架。因為他倆都差不多。
在數據分析中,我們把擁有同樣技能的這種情況稱為共線性。如果兩個變數的相關性太強,對結局的影響也差不多,那這時候把這兩個變數都放在模型中,反而會影響模型的穩定性。比如同時分析身高、體重對血壓的影響,那很可能身高和體重都變得無意義了。這就像前面說的,如果只有一個綠巨人,他能發揮90%的能力,如果團隊中再加入一個石頭人,那他反而只能發揮30%的能力了,都去內耗去了。就像我們古代說的「兩個和尚挑水喝」。所以做影響因素分析時要注意,一定要保證變數之間大致獨立,才能建立一個最優的模型。只有每個人大致互補,才是一個更好的組合。
所以,其實任何地方都有統計學的身影,只要稍微留點心就能發現各種統計學相關的事件。大家不妨也關注一下身邊的統計學事件吧。
覺得本公眾號有用的朋友,如果想贊助,無需讚賞,幫忙點一下廣告即可。只要點開即可,是否購買無所謂。也算是對本人時間和精力付出的一點回報吧。
TAG:小白學統計 |