先別笑,「沒來上課的舉個手」這事,人們干過好多回
群體的智慧一定靠譜嗎?並不一定。之前我對這個問題(從經濟學角度來看,「隨大流」通常是理性的嗎?) 的回答(以及其它答主的回答)已經說明了,很多時候群體的選擇未必是明智的。當我們在現實中想要應用「群體的智慧」時,幾乎總是會遇上另外一個陷阱,那就是「SampleSelection Bias」(樣本選擇偏差)。
樣本選擇偏差其實只是一種統稱,因而有許多奇奇怪怪的例子都會被歸在這一偏差下面,簡單地講兩個比較好玩的,知乎上應該已經有人寫過了。
一個例子來自於上世紀的一次美國總統選舉民調,某報社決定通過電話調查的方式來了解紐約居民對於總統選舉的傾向,他們隨機地從電話黃頁上選擇了一些居民的電話號碼打了過去,調查結果顯示共和黨將會大獲全勝。結果總統選舉結果出來之後,報社尷尬地發現紐約竟然成了民主黨的票倉,這是為什麼呢?因為當時電話還並不普及,家裡裝住宅電話的都是有錢人,而當時共和黨中的有錢人要比民主黨多得多,所以在選擇電話調查的一開始,這個隨機調查就已經不夠「隨機」了。
另一個例子則發生在二戰時期,數學家Wald(如果你們知道 Wald Test 的話,就是這傢伙發明的)曾經為美軍工作過一段時間,當時已經是打完諾曼底登陸之後了,盟軍已經推進到法國,經常派飛機去德國轟炸一番。結果這些飛機回來以後,維修師發現,這些飛機通常在發動機部分沒有什麼彈孔,其它地方倒是被彈孔打得密密麻麻,於是有人就建議,應該給彈孔更多的地方加裝防禦鋼板。這時候Wald就站出來了,他認為應該把這些彈孔打透的地方的防護措施減弱,全部用來給發動機加防禦,這是因為回來的飛機在發動機處沒有彈孔說明被打著發動機的飛機都沒回來,相反彈孔密密麻麻的地方就算再打得密密麻麻一點也不太會影響飛機飛回基地。
這兩個例子大概都可以算作是「Non-ReportingBias」,簡單地說,就是老師上課之前問大家「今天有誰沒來上課?沒來的舉個手」,然後發現沒有人舉手……前一個例子當中,沒有電話的民主黨人就無法報告自己的政治傾向,而後一個例子當中,發動機中彈的飛機自然也很少能成功回到基地。
那麼 Sample Selection Bias 和群體的智慧的衝突在哪裡呢?我們先來看另一個與群體智慧更加直接相關的例子,稱為「朋友悖論」(Friendship Paradox)。由於這個現象最早似乎是在一個中國無法登陸的網站上發現的(你們懂的),我在這裡把場景替換到情況類似的人人當中。
假如有一天你特別無聊,打算做一個奇怪的統計:你的人人好友的中位好友人數。舉例來說,你有 700 個人人好友,其中有 100 人有 400 個好友,有 200 人有 600 個好友,有 400 人有 1000 個好友,那麼你的人人好友的中位好友人數是 1000 人。
那麼「朋友悖論」說的是什麼呢?有一群數據科學家發現,如果我們對網站上的所有用戶統計一下他的好友個數和他的好友的中位好友個數,有遠超過 50%的用戶的好友人數少於其好友的中位好友人數,或者說,有遠超過 50%的用戶在他的朋友圈子裡受歡迎程度低於 50%的好友。
儘管粗看起來這個結論有些奇怪,但是仔細一想你就能明白這裡面其實就是SampleSelection Bias的問題。如果你有 700 個人人好友,你的好友更有可能是只有一兩個好友的用戶呢,還是更有可能是有著 3000 好友的用戶呢?顯然後者更有可能出現在的你好友列表上,既然大家都更有可能結交更「交際花」的用戶而不太可能結交沒有朋友的用戶,那麼上述結論也就不難理解了。(這裡需要指出一下,其實更好地說法應該是「朋友佯謬」(Friendship Fallacy),畢竟這只是一個反直覺但確實是正確的例子,而不像一般的悖論那樣是既非正確也非錯誤的)
「朋友佯謬」不僅告訴我們,我們其實比我們的朋友更有可能不受歡迎(其實就算不說我也知道),而且指出了這樣一個事實:如果有什麼特性(attribute)是和熱門程度(popularity)或者說曝光度是正相關的,那麼我們對擁有這種特性的人群占整個人群的比例的判斷很有可能會因為「朋友佯謬」而被放大。
比如,很多人覺得美國人就是 Party Animal,覺得周圍的美國學生都是整天 Party,沒事去酗酒飛葉子等等,然而是不是真的大部分美國學生都在做這種事呢?顯然不是,實際上是因為那些經常出入 Party,或是喜歡約上狐朋狗友一塊兒去酗酒飛葉子的傢伙,往往是社交網路上更加受歡迎的存在,也就更有可能出現在你的社交網路的 Timeline 上,這就讓你產生了美國學生都在 Party 的錯覺。
這同樣可以用來部分解釋很多「Stereotype」(刻板印象)的存在,注意到很多刻板印象實際上是很不常見的,因而製造這種不常見現象的個體將會被更多人注意:顯然不可能所有廣東人都是「什麼都吃」,但是因為有個別什麼都吃的廣東人,而這些人又比其它廣東人更加「矚目」,因而對於不熟悉廣東的人來說,就會有「廣東人都是什麼都吃」的錯覺了。
再比如一個老生常談的問題,為什麼飛機的失事率命名比火車要低得多,平均里程死亡人數也少得多(這個沒查證),人們還是覺得飛機要比火車危險呢?如果你回想一下最近新聞里出現的火車出事事故和飛機出事事故,你就會發現,因為飛機一旦出事,通常都會有各種連篇累牘的報道,而火車事故有這樣大仗勢的,我一時半會兒也就只想到了溫州動車事件。單從這個角度,就會讓人們做出飛機比火車危險的判斷。
我還記得《牛奶可樂經濟學》的作者舉過一個算是自黑的例子:康奈爾大學經常被認為是學生自殺人數較多的大學,然而事實上康奈爾的自殺率並不比其他著名學府要高(甚至還會低一些)。這其實是因為康奈爾有一座處在必經之路上的大橋,自殺的學生往往選擇在這裡縱身一躍,結果警車和救護車一來就封鎖了交通,每當有自殺事件發生,大家都會印象深刻。而沒有這種「便利」措施的學校,學生自殺通常就會採用更加「溫和」的手段,比如上吊割腕或者吃安眠藥,動靜會小得多。兩相比較,自然康奈爾就給民眾留下了自殺率高的錯覺。
昨天我讀 Ph.D.的同學問我周圍有沒有得白血病的朋友,因為他有一個得白血病的同學剛剛非常幸運地骨髓移植成功出院了。我回想了一下,貌似從小學到高中再到大學都有過得白血病的同校同學,而且新聞里時不時地都會有給白血病患者募捐的新聞,這樣一想感覺白血病的發病率確實很高。不過,雖然中國的白血病發病率確實在逐年上升(網上查到的數據是從 10 萬人中有 3-5 人逐漸提高到如今的 10 萬人中有 8-10 人),但是我們估計的白血病發病率的比例恐怕還是比實際的數據要高一些的,因為白血病現在已經成為受到媒體特別關注的一種疾病。
可以做一個簡單的類比,白化病的發病率實際上和白血病相當,但是大多數人恐怕都沒有接觸過白化病患者,媒體也不怎麼報道白化病病人需要募捐的新聞,因而如果讓我們來估計白化病的發病率,估計值大概會比白血病的發病率低得多。再比如,中國盲人的比例大概在 0.65%(網上查到的數據),也就是每 200 人中就有一個盲人,但是我們平時接觸的盲人也是很少的,盲人也沒有得到什麼廣泛地關注,儘管我們大概有這樣的概念,中國的盲人數量恐怕不會太少,但是如果讓我們估計一下比例,恐怕更有可能會是大幅度的低估。
最後我們來嘗試解釋一下如下這個 Over Confidence 的現象:對司機的採訪顯示,大多數司機認為自己比大多數司機開車開得更好,這是為什麼呢?
借用上面的想法,我們可以認為是這樣的:司機判斷自己的駕駛水平如何的標準是他接觸到的其它司機,儘管大街上開車不錯的司機很多,但是他印象更深刻的顯然是那些開車更糟糕的司機,比如隨意變道啦,不打燈或者亂打燈啦,而且那些經常上電視的司機基本上都是技術比較差勁的司機,比如開車開河裡去了……由於水平更差和曝光度成正比,每個司機認為的司機整體水平通常會偏低,因而就覺得自己開得不錯了。
多說兩句,這個問題當然還有其它的解釋。
比如用貝葉斯更新(Bayesian Updating)的模型:假定差司機一年有 5%的概率發生車禍,而好司機一年只有 1%的概率發生車禍,每個司機每年會根據去年自己是否發生車禍來更新自己是差司機還是好司機的後驗概率,推導結果表明在這個模型下司機會高估自己是好司機的概率。
再比如,假定開車水平實際上不是一個單一維度的變數,而是由兩個維度組成,不妨認為就是跟車水平和停車水平吧;每個司機對於這兩個維度的重視程度不一樣:有些司機覺得跟車水平比停車水平更重要,因此他會花更多的精力在提高跟車水平上而花更少的精力在提高停車水平上,結果是他的跟車水平處於中上而停車水平只有中下,而他又恰好是重視跟車水平的,那麼他自然會覺得自己總的開車水平還算不錯;反過來有些司機覺得停車水平比跟車水平更重要的,就會提高自己的停車水平而不重視跟車水平,結果是他也覺得自己的開車水平還算不錯。當然我們也可以擴展到更多的維度,但是結論是類似的。這個模型很容易應用到現實中,比如說每個職業都會覺得自己是最痛苦的,因為他們用來衡量哪種職業更痛苦的標準通常就是使得自己的行業最痛苦的標準……
客官,這篇文章有意思嗎?
好玩!下載App接著看 (????) ?
再逛逛吧 ˊ_>ˋ
影視|知道你不是我的骨肉,也甘願被你欺騙
李銀河近 20 年研究告訴你,婚前性行為沒什麼可羞恥的
中國也有了米其林餐廳 :這些我喜歡, 那些我可能不會去
因為對人有危害,含有這兩種物質的洗浴用品美國不讓賣了
很多每天坐的地鐵已經在自動駕駛了,不過司機也沒閑著
TAG:知乎日報 |
※暴走:這是一個沒來你就錯過了好幾億的活動!
※兩句話講一個恐怖故事,親愛的,這個月我還沒來
※中國小吃最多的地方,沒來過這裡,別說自己是美食家!來過的人都讚不絕口!
※那一刻你沒來,你就別來了
※從分手的那刻起,我就當你沒來過,我始終也沒愛過你
※旅遊直接來這就行了,最值得去的地方,沒來過真是遺憾!
※一封情書,給那個還沒來的人
※風沒吹過,你沒來過,愛還有過
※到泰國來的人都會做「這件事」,沒做過的話等於沒來過泰國!
※主人奇怪喵一大早沒來吵她討飯吃,去看了下才發現,原來
※摸貓時沒來由的被咬一口,是怎麼回事?
※大姨媽該來但沒來,除了懷孕還有這5種可能
※上一次你沒來得及戴套,這次你不能再犯同樣的錯誤了。
※徒兒們,快扶為師起來,咱這多少年沒來過女施主了
※這裡兩百美元就能買到小新娘,她們甚至還沒來初潮
※還沒來得及好好抱你,你就長成一大坨了
※上一次你沒來得及戴套,這次你不能再犯同樣的錯誤了
※我還沒來得及矜持,就錯過了
※「就當風沒吹過,你沒來過。」