大數據時代的思維變革
正文之前
大數據是個很玄乎的東西,如果體系成熟,那麼基本會波及到生活中的方方面面。只要能夠獲取數據,那麼其他的過程基本只要演算法模型得當,成本相當之低,但是如果能夠找到幾個事務之間的相關性,然後善加利用,獲取的利益可能遠遠超過前期的投入!如果要主動地去接觸大數據,那麼以下三個觀念可能對你至關重要。
首先,要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。
其次,我們樂於接受數據的紛繁複雜,而不再追求精確性。
最後,我們的思想發生了轉變,不再探求難以捉摸的因果關係,轉而關注事物的相關關係。
正文
一、 更多:不是隨機樣本,而是全體數據
1、 大數據時代的來臨,頻率說話
「大數據」全在於發現和理解信息內容及信息與信息之間的關係,然而直到最近,我們對此似乎還是難以把握。IBM的資深「大數據」專家傑夫·喬納斯(Jeff Jonas)提出要讓數據「說話」。從某種層面上來說,這聽起來很平常。人們使用數據已經有相當長一段時間了,無論是日常進行 的大量非正式觀察,還是過去幾個世紀里在專業層面上用高級演算法進行的量化研究,都與數據有關。
在數字化時代,數據處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數據。但當我們談論能「說話」的數據時,我們指的遠遠不止這些。利用所有的數據,而不再僅僅依靠一小部分數據。
很長一段時間以來,準確分析大量數據對我們而言都是一種挑戰。過去,因為記錄、儲存和分析數據的工具不夠好,我們只能收集少量數據進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數據量縮減到最少。這是一種無意識的自省:我們把與數據交流的困難看成是自然的,而沒有意識到這只是當時技術條件下的一種人為的限制。如今,技術條件已經有了非常大的提高,雖然人類可以處理的數據依然是有限的,也永遠是有限的,但是我們可以處理的數據量已經大大地增加,而且未來會越來越多。這也就是我們學習概率論的時候為何總要把概率論和統計學放在一起,因為當時的統計學基本都是在小數據的基礎上建立的,自然也就存在了概率論一說,還記得當初才學概率論的時候,一個頻率,一個概率的說法嗎?還記得差別么?那時候我們對頻率不屑一顧,往往頻率都是出一些簡單的直方圖表格讓你去找頻率,概率就涉及各種排列組合,可見頻率的地位遠遠地低於概率。但是,大數據時代的來臨,我們的數據足夠了。不需要抽樣調查了。不需要考慮那麼多的複雜的抽樣特性了。所有的不穩定因素在大數據的恐怖基數下都被磨滅的差不多了,只留下一點點微微的起伏表彰著自己存在過的痕迹!!
2、 全數據模式,樣本=總體
採樣一直有一個被我們廣泛承認卻又總有意避開的缺陷,現在這個缺陷越來越難以忽視了。採樣忽視了細節考察。雖然我們別無選擇,只能利用採樣分析法來進行考察,但是在很多領域,從收集部分數據到收集儘可能多的數據的轉變已經發生了。如果可能的話,我們會收集所有的數據,即「樣本=總體」。
正如我們所看到的,「樣本=總體」是指我們能對數據進行深度探討,而採樣幾乎無法達到這 樣的效果。用採樣的方法分析情況,正確率可達 97%。對於某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節的信息, 甚至還會失去對某些特定子類別進行進一步研究的能力。我們不能滿足於正態分布一般中庸平 凡的景象。生活中真正有趣的事情經常藏匿在細節之中,而採樣分析法卻無法捕捉到這些細節。
數據科學家列維特和他的同事馬克·達根(Mark Duggan)使用了11年中超過64000場摔跤比賽的記錄,來尋找異常性。他們獲得了重大的發現。非法操縱比賽結果的情況確實時有發生,但是不會出現在大家很關注的比賽上。冠軍賽也有可能被操縱,但是數據顯示消極比賽主要還是出現在不 太被關注的聯賽的後幾場中。這時基本上沒有什麼風險,因為很多選手根本就沒有獲獎的希望。
相撲比賽的一個比較特殊的地方是,選手需要在15場賽事中的大部分場次取得勝利才能保 持排名和收入。這樣一來就會出現利益不對稱的問題。當一名7勝7負的摔跤手碰到一個8勝6負 的對手時,比賽結果對第一個選手來說極其重要,對他的對手而言則沒有那麼重要。列維特和 達根發現,在這樣的情況下,需要贏的那個選手很可能會贏。這看起來像是對手送的「禮物」, 因為在聯繫緊密的相撲界,幫別人一把就是給自己留了一條後路。
二、 更雜:不是精確性,而是混雜性
1、 允許不精確
對「小數據」而言,最基本、最重要的要求就是減少錯誤,保證質量。因為收集的信息量比較少,所以我們必須確保記錄下來的數據盡量精確。無論是確定天體的位置還是觀測顯微鏡下物體的大小,為了使結果更加準確,很多科學家都致力於優化測量的工具。在採樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。
然而,在不斷湧現的新情況里,允許不精確的出現已經成為一個新的亮點,而非缺點。因為放鬆了容錯的標準,人們掌握的數據也多了起來,還可以利用這些數據做更多新的事情。這樣就不是大量數據優於少量數據那麼簡單了,而是大量數據創造了更好的結果。
正如前面所說:大數據時代,我們允許那些不精確的數據進入我們的視野,因為再大的個體偏差都會在大數據的恐怖基數下磨滅,成為折線圖上一個小小的齒形波動,當然,允許不精確不意味著允許錯誤,在普遍都是1-100的數據中 冒出來一個100000的數據當然是不被允許的。這就是不是不精確而是錯誤了。
2、 大數據的簡單演算法比小數據的複雜演算法好
以自然語言的識別為例: 當數據只有500萬的時候,有一種簡單的演算法表現得很差,但當數據達10億的時候,它變成了表現最好的,準確率從原來的75%提高到了95%以上。與之相反地,在少量數據情況下運行得 最好的演算法,當加入更多的數據時,也會像其他的演算法一樣有所提高,但是卻變成了在大量數 據條件下運行得最不好的。它的準確率會從86%提高到94%。
所以,數據多比少好,更多數據比演算法系統更智能還要重要。那麼,混亂呢?
2006年,谷歌公司也開始涉足機器翻譯。這被當作實現「收集全世界的數據資源,並讓人人 都可享受這些資源」這個目標的一個步驟。谷歌翻譯開始利用一個更大更繁雜的資料庫,也就是全球的互聯網,而不再只利用兩種語言之間的文本翻譯。
谷歌翻譯系統為了訓練計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網站上尋找對譯文檔,還會去尋找聯合國和歐盟這些國際組織發布的官方文件和報告的譯本。
它甚至會吸收速讀項目中的書籍翻譯。谷歌翻譯部的負責人弗朗茲·奧齊(Franz Och)是機器翻譯界的權威,他指出,「谷歌的翻譯系統不會像Candide一樣只是仔細地翻譯300萬句話,它會掌 握用不同語言翻譯的質量參差不齊的數十億頁的文檔。」不考慮翻譯質量的話,上萬億的語料庫就相當於950億句英語。
儘管其輸入源很混亂,但較其他翻譯系統而言,谷歌的翻譯質量相對而言還是最好的,而且可翻譯的內容更多。到2012年年中,谷歌資料庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,並有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能性的數據,而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當增減辭彙,所以谷歌的翻譯比其他系統的翻譯靈活很多。說句實話,谷歌翻譯的開發團隊中,沒有人會說谷歌翻譯能翻譯的那些語言的人。
3、 紛繁的數據越多越好
有時候,當我們掌握了大量新型數據時,精確性就不那麼重要了,我們同樣可以掌握事情的發展趨勢。大數據不僅讓我們不再期待精確性,也讓我們無法實現精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數據的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。
4、 混雜性,不是竭力避免,而是標準途徑
互聯網上最火的網址都表明,它們欣賞不精確而不會假裝精確。當一個人在網站上見到一個Facebook的「喜歡」按鈕時,可以看到有多少其他人也在點擊。當數量不多時,會顯示 像「63」這種精確的數字。當數量很大時,則只會顯示近似值,比方說「4000」。這並不代表系統不知道正確的數據是多少,只是當數量規模變大的時候,確切的數量已經不那麼重要 了。另外,數據更新得非常快,甚至在剛剛顯示出來的時候可能就已經過時了。所以,同樣的 原理適用於時間的顯示。谷歌的Gmail郵箱會確切標註在很短時間內收到的信件,比方說「11分鐘之前」。但是,對於已經收到一段時間的信件,則會標註如「兩個小時之前」這種不太確切的時 間信息。
要想獲得大規模數據帶來的好處,混亂應該是一種標準途徑,而不應該是竭力避免的。
三、 更好:不是因果關係,而是相關關係
1、 知道「是什麼」就夠了,沒必要知道「為什麼」。在大數據時代,我們不必非得知道現象背後的原因,而是要讓數據自己「發聲」。
知道人們為什麼對這些信息感興趣可能是有用的,但這個問題目前並不是很重要。但是,知道「是什麼」可以創造點擊率,這種洞察力足以重塑很多行業,不僅僅只是電子商務。所有行業中的銷售人員早就被告知,他們需要了解是什麼讓客戶做出了選擇,要把握客戶 做決定背後的真正原因,因此專業技能和多年的經驗受到高度重視。大數據卻顯示,還有另外一個在某些方面更有用的方法。亞馬遜的推薦系統梳理出了有趣的相關關係,但不知道背後的 原因。知道是什麼就夠了,沒必要知道為什麼。
上面的這種觀點被我抨擊好久了。因為這個明顯有點不太對經啊。有些時候我們要透過現象看本質,但是按照作者的表述:我們停留在表面就ok?不存在的,任何一個東西,都會有其因果存在,如果不需要知道因果,停留於表層應用便足夠的話,那麼確實大數據的相關關係更加重要,不過不能全盤否定啊。讓數據發聲是美好的,但是有時候要動腦子啊!!數據自己又沒有腦子。
2、 關聯物,預測的關鍵
相關關係的核心是量化兩個數據值之間的數理關係。相關關係強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加。我們已經看到過這種很強的相關關係,比如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜索特定的詞條,該地區就有更多的人患了流感。
相反,相關關係弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。 例如,我們可以尋找關於個人的鞋碼和幸福的相關關係,但會發現它們幾乎扯不上什麼關係。
建立在相關關係分析法基礎上的預測是大數據的核心。這種預測發生的頻率非常高,以至於我們經常忽略了它的創新性。當然,它的應用會越來越多。
對於零售商來說,知道一個顧客是否懷孕是非常重要的。因為這是一對夫妻改變消費觀念的開始,也是一對夫妻生活的分水嶺。他們會開始光顧以前不會去的商店,漸漸對新的品牌建立忠誠。塔吉特公司的市場專員們向分析部求助,看是否有什麼辦法 能夠通過一個人的購物方式發現她是否懷孕。
公司的分析團隊首先查看了簽署嬰兒禮物登記簿的女性的消費記錄。塔吉特公司注意到,登記簿上的婦女會在懷孕大概第三個月的時候買很多無香乳液。幾個月之後,她們會買一些營養品,比如鎂、鈣、鋅。公司最終找出了大概20多種關聯物,這些關聯物可以給顧客進行「懷孕趨勢」評分。這些相關關係甚至使得零售商能夠比較準確地預測預產期,這樣就能夠在孕期的每 個階段給客戶寄送相應的優惠券,這才是塔吉特公司的目的。杜西格在《習慣的力量》(The Power of Habit)一書中講到了接下來發生的事情。一天,一個男人衝進了一家位於明尼阿波利斯市郊的塔吉特商店,要求經理出來見他。他氣憤地 說:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們是在鼓勵她懷孕嗎?」而當幾天後,經理打電話向這個男人致歉時,這個男人的語氣變得平和起來。他說:「我跟我的女兒談過了,她的預產期是8月份,是我完全沒有意識到這個事情的發生,應該說抱歉的人是我。」
從上面這個有趣的小例子我們可以看出來相關聯繫的重要性,這也是預測的核心,如果沒有相關的事務進行輔助的預測,那麼單憑一個現象是無法解決準確率的問題的!
3、 大數據,改變人類探索世界的方法
在小數據時代,我們會假想世界是怎麼運作的,然後通過收集和分析數據來驗證這種假想。在不久的將來,我們會在大數據的指導下探索世界,不再受限於各種假想。我們的研究始於數據,也因為數據我們發現了以前不曾發現的聯繫。
假想通常來自自然理論或社會科學,它們也是幫助我們解釋和預測周遭世界的基礎。隨著由假想時代到數據時代的過渡,我們也很可能認為我們不再需要理論了。
我對上面這種說法很不喜歡,科學是一個探索的過程,如果由數據包辦我們的研究實驗,那麼毫無疑問是在限制我們人類遠遠優於其他物種的地方,那就是我們天馬行空的想像力,我們可以根據事務的結果進行逆向分析,從而得到各種各樣的假想,各種的科學理論,然後一步步做實驗證明它,大數據在我看來就是一個工具而已。好比孟德爾實驗,如果不是孟德爾的發現與假設,怎麼可能會有分離定律?難道給植物測定形狀么?那麼多植物,做這麼多感測器不是浪費么?當然,有大數據的話確實很方便,好比孟德爾定律的發現過程,我們如果在資料庫中早就有了各個親代子代的數據,那麼孟德爾可能從假設到證明也就幾分鐘的事情。
另外,天文學很多的東西根本沒法測量得到那麼多數據,所以還是需要依靠於原有的物理體系來進行計算,進行假設,大數據在這方面很難有作為,甚至可能就淪落到提供數據的用途。大數據的確會局部改變我們探索世界的方式,但是還沒作者說的那麼絕對!!
正文之後
以上,原文佔據2/3 剩下的都是我的一個個人拙見,大家不要當真,要想求證我的說法,最好還是自己買本書看看!
TAG:工科狗和生物喵 |