大數據告訴你:親愛的,你懷孕了
大數據,英文翻譯為Big Data,聽上去科技感十足的一個詞,到底跟我們的生活有什麼關係呢?我們不妨先從一個故事開始認識一下它。
在信息化領域,國外很多企業走在時代前列。美國一家零售連鎖商塔吉特,很多年前就開始利用銷售過程匯總的數據進行分析。有一段時間,塔吉特公司通過他們所有門店裡女性的消費記錄數據,進行「懷孕預測」。對於零售商來說,發現一個顧客是否懷孕非常重要。因為一旦有了小孩,就意味著一個家庭的消費觀念會發生很大變化,如果能預測消費者的懷孕趨勢就能及時向她們推送孕期每個階段對應的優惠券,從而刺激消費。值得注意的是,有一天,一個中年男人怒氣沖沖的來到塔吉特的一家零售店,他向商店經理投訴:「我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優惠券,你們這樣的行為是在鼓勵她懷孕嗎?」。塔吉特商店的經理幾天後打電話向這個男人道歉,這個男人卻感到非常抱歉,他跟塔吉特的經理道歉說:「我跟女兒談過了,她的預產期是8月份,是我自己沒有意識到這件事情。」
這就是一個典型的大數據案例,大數據如此神奇,它可能比你的父母更了解你的小秘密。你喜歡什麼款式的衣服,你最愛哪家甜品店,你最喜歡的明星是誰……大數據就像你的影子,對你了如指掌。
提起大數據,人們最先想到的一本書往往是《大數據時代》。
《大數據時代》的作者維克托?邁爾?舍恩伯格被譽為「大數據商業應用第一人」,十幾年前就已經洞察到大數據的趨勢,一直潛心研究大數據技術,不僅在哈佛大學、牛津大學等著名學府任教,也為微軟、IBM等知名企業提供諮詢服務,同時還是眾多政府高層的智囊團。維克托將自身對大數據技術的研究與商業實踐、政府決策相結合,進一步獲得對大數據的全球視野。
《大數據時代》並不是一本艱澀難懂的技術書,而是一本通俗易懂的案例書,如果你想要了解我們身處的這個世界、這個時代,如果你想要對個人職業生涯選擇和家庭財務決策有更宏觀的認識,那麼你需要讀一讀這本《大數據時代》。
我們身處一個數據大爆炸的時代,世界的數據以一種超乎想像的速度裂變。哲學上講:量變引起質變。當數據累積到一定程度,必然引起質變。數據的價值也就由此誕生。維克托在《大數據時代》中強調了大數據給我們帶來的三個轉變:
大數據時代,樣本=總體
大數據的出現對社會科學提出了挑戰,社會科學是非常依賴樣本分析、研究和調查問卷的學科,而大數據時代,數據成為最容易獲得的信息,我們不再受困於數據量的多少,開始利用所有的數據。
有數據證明,採用樣本分析法的正確率可達97%。看上去3%的錯誤率似乎可以接受,但也要就事論事。現在大數據的核心在於預測,為了更精準的預測,自然是越少錯誤率越高,而當數據量足夠大時,當樣本=總體時,數據預測的準確性就能大大提高。
這有點像我們聽一首歌,如果把一首歌切割成一些長短不一的片段,很有可能你能猜出這是什麼歌,也有可能你猜不出來;但如果給你聽一首完整的歌,那你一定就能知道這首歌是什麼。
大數據以前的時代是,用儘可能少的數據獲得儘可能多的信息,當人類進入到大數據時代時,是用儘可能多的數據獲得信息。
每次出去旅遊,想搶到便宜的機票簡直是一場大戰。打開購票網站,今天刷一下貴了100,明天刷一下便宜了200,後天再刷又貴了200,每次我都想怎麼才能知道機票什麼時候最便宜。原來,這個功能已經有公司實現了。有一家預測機票價格的公司叫Farecast,Farecast的預需要海量數據的支持,為了提高預測的準確度,Farecast收集了么過商業航空產業中每一條航線上每一架飛機內每一個座位,在一年內的綜合票價記錄。如今,Farecast已經有大約2000億條的飛行數據,最終實現票價預測的準確度高達75%。如果沒有海量數據的支持,所謂的票價預測基本約等於0。
Farecast的創始人埃齊奧尼說:「這只是一個暫時性的數據,隨著你收集的數據越來越多,你的預測結果會越來越準確。」
大數據時代,允許不精確和錯誤
海量數據的出現,也意味著大量混雜的、不精確的、甚至錯誤的數據出現。大數據時代95%的數據都是混亂的,如果還堅持傳統「小數據」的精確演算法,那將徹底錯過大數據的價值。
為什麼「小數據」要精確?
因為「小數據時代」或者像上文提到的「樣本分析法」中,能收集到的信息量有限,所以必須保證數據盡量精確,才能提高預測的準確度。這是一個概率學問題,簡單來說,給你三個蘋果,只有一個是好的,那你挑到好蘋果的概率是1/3,如果有100個蘋果,即使有一半都是壞的,挑到好蘋果的概率也有1/2。
胡適曾經諷刺過「差不多先生」,因為差不多先生的口頭禪就是:凡事只要差不多就好了,何必太較真呢?「大數據」從某種角度來說也是一位「差不多先生」,要讓我們習慣他可能還需要時間。
大數據時代,「是什麼」比「為什麼」重要
小朋友很小的時候就要讀《十萬個為什麼》,培養對世界的好奇心,學習的過程就是搞清楚每一個現象背後的原因,這是我們從小到大養成的慣性思維。
大數據時代,這種思維需要變一變了。數據量的劇增,使得事物與事物之間的聯繫越來越複雜,通過複雜的相關關係,大數據猶如神探破案,找出蛛絲馬跡。現在,只需要知道「是什麼」就夠了,沒必要知道「為什麼」。
隨著技術的發展,收集和分析數據的成本越來越低,人們更熱衷於收集海量的數據,來預測分析可能出現的問題。比如,大數據可以用來預測汽車故障,這種功能很適合物流、快遞行業。大型的物流快遞公司會有數量眾多的運輸車隊,一旦車在運輸過程中出現故障,造成的延誤、再裝載損失都很嚴重。通過感測器檢測汽車各種零件的使用情況,能及時預測哪些零件可能在什麼時候出現故障,以便提前進行檢查維修,這樣就能大大減少成本損失。這種預測並不能告訴你,「為什麼」會出現故障,而對於快遞公司來說,也只需要只知道「是什麼」將出現故障就足夠了。
GIF
數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。
大數據時代,我們的生活將發生翻天覆地的變化,就像望遠鏡能讓我們感受浩瀚的宇宙星空,顯微鏡能讓我們觀察最小顆粒的微生物。大數據是一種收集和分析海量數據的新技術,能幫助我們更好地認識世界、理解世界。大數據不是冰冷的事實,它其實分散在日常生活的各個角落,從思維模式上先給我們帶來一場變革,然後當我們用大數據的思維看世界時,才發現「凡是過去,皆為序曲」。
未來已來,大數據時代裹挾著未來世界的新演算法,新技術像潮水一樣湧來,只有勇於擁抱變化的人才能急流勇進。大數據時代,更多的數據,更多不確定性,更複雜的相關關係,提供了「更多,更快,更好」的可能。
感謝每個來初色的人
TAG:丨初色丨 |