當前位置:
首頁 > 科技 > 讀懂這篇文章就懂大數據,3000字概括《大數據時代》

讀懂這篇文章就懂大數據,3000字概括《大數據時代》

有言在先

近期有些起伏,這種情況最適合回歸書本,尋找一些你內心認同的東西。這幾天花了點時間重溫《大數據時代》,整理、總結出了精華的東西,分享給大家。

大數據引起了變革

當今社會所獨有的一種新型能力:以一種前所未有的方式,通過對海量數據進行分析,獲得巨大價值的產品和服務,或深刻的洞見。

震人心魄的數據

2003年,人類第一次破譯人體基因密碼的時候,辛苦工作10年才完成了三十億對鹼基對的排序;大約10年後,世界範圍內的基因儀每15分鐘就可以完成同樣的工作。在金融領域,美國股市每天的成交量高達70億股,而其中三分之二的交易都是郵件里在數學模型和演算法之上的計算機程序自動完成的。

在2007年,所有數據中只有7%是存儲在報紙、書籍、圖片等媒介上的模擬數據,其餘全部是數字數據;在2000年時,數字存儲信息仍只佔全球數據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。

大數據的精髓

大數據帶給我們的三個顛覆性觀念轉變:是全部數據,而不是隨機採樣;是大體方向,而不是精確制導;是相關關係,而不是因果關係。

A.不是隨機樣本,而是全體數據:在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴於隨機採樣(隨機採樣,以前我們通常把這看成是理所應當的限制,但高性能的數字技術讓我們意識到,這其實是一種人為限制);

B.不是精確性,而是混雜性:研究數據如此之多,以至於我們不再熱衷於追求精確度;之前需要分析的數據很少,所以我們必須儘可能精確地量化我們的記錄,隨著規模的擴大,對精確度的痴迷將減弱;擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力;

C.不是因果關係,而是相關關係:我們不再熱衷於找因果關係,尋找因果關係是人類長久以來的習慣,在大數據時代,我們無須再緊盯事物之間的因果關係,而應該尋找事物之間的相關關係;相關關係也許不能準確地告訴我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。

大數據的核心是預測

大數據的核心就是預測,它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。大數據不是要教機器人像人一樣思考,而是把數學演算法運用到海量的數據上來預測事情發生的可能性。

不是隨機樣本,而是全體數據

歷史上,因為記錄、儲存、分析數據的工具都不夠好,為了讓分析變得簡單,我們選擇了把數據量減少,統計學的一個目的就是用儘可能少的數據來證實儘可能重大的發現。

傳統抽樣的精確性

採樣分析的精確性隨著採樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大,大致原因是當樣本數量達到某個值後,我們從新個體身上得到的信息會越來越少,這與經濟學中的邊際效應類似。

隨機採樣的問題

隨機採樣有一個很大的問題:人們只能從隨機採樣中得出事先設計好的問題的結果,調查得出的數據不可以重新分析以實現計劃之外的目的,而且一旦採樣過程中存在任何偏見,分析結果就會相去甚遠。

樣本=總體

採樣的目的就是用最少的數據得到最多的信息,當我們可以獲得海量數據的時候,它就沒有什麼意義了;生活中真正有趣的事情經常藏匿在細節之中,而採樣分析卻無法捕捉到這些細節(因為採樣不能得到計劃之外的東西);大數據建立在掌握所有數據,至少是儘可能多的數據的基礎上,所以我們就可以正確地考察細節並進行新的分析。

不是精確性,而是混雜性

執迷於精確性是信息缺乏時代和模擬時代的產物,只有5%的數據是結構化且能適用於傳統資料庫的,如果不能接受混亂,剩下的95%的非結構化數據都無法被利用。

小數據時代的精確性

在「小數據時代」,人們收集、處理數據的能力有限,對「小數據」而言,最基本、最重要的要求就是減少錯誤,保證質量(收集信息的有限意味著細微錯誤會被放大,甚至有可能影響整個結果的準確性)。人們創造了很多精確的系統,這些系統試圖讓我們接受一個世界睏乏而規整的慘象——假裝世間萬物都是整齊地排列的;事實上現實是紛繁複雜的,天地間存在的事物也遠遠多於系統所設想的。

我們要的是概率

我們總是為了一個「答案」而活著,精確性似乎一直是我們生活的支撐,但認為每個問題只有一個答案的想法是站不住腳的。「一個唯一的真理「的存在是不可能的,而且追求這個唯一的真理是對注意力的分散。大數據也許是拯救我們的關鍵方法:大數據通常用概率說話,而不是板著「準確無疑」的面孔。

不是因果關係,而是相關關係

在大數據時代,我們不必知道現象背後的原因,而是要讓數據自己「發聲」。我們不再一味追求人們為什麼這麼做,知道人們為什麼這麼做可能是有用的,但這個問題目前並不是很重要,重要的是我們能通過大數據分析出人們的相關行為。

相關關係

相關關係的核心是量化兩個數據值之間的數理關係:相關關係強是指當一個數據值增加時,另一個數據值很有可能也會隨之增加;相關關係弱就意味著當一個數據值增加時,另一個數據值幾乎不會發生變化。相關關係通過識別有用的關聯物來幫助我們分析一個現象,而不是通過揭示其內部的運作機制。相關關係沒有絕對,只有可能性。

人們的直接目的就是尋找因果關係

人們的直接願望就是了解因果關係,我們已經習慣了信息的匱乏,故此亦習慣了在少量數據的基礎上進行推理思考。以前我們用實驗來證明因果關係,它是通過是否有誘因來分別觀察所產生的結果是不是和真實情況相符。但是,凡事皆有因果的話,那麼我們就沒有決定任何事的自由了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環往複,那麼就不存在人的自由意志這一說了——所有的生命軌跡都只是受到因果關係的控制了——這顯然是不正確的。

相關關係和因果關係並不矛盾

相關關係分析本身意義重大,同時它也為研究因果關係奠定了基礎,通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析,如果存在因果關係的話,我們再進一步找出原因。在大多數情況下,一旦我們完成了對大數據的相關關係分析,而又不再滿足於僅僅知道「是什麼」時,我們就會繼續向更深層次研究因果關係,找出背後的「為什麼」。在小數據時代,我們會假象世界是怎麼運作的,然後通過收集和分析數據來驗證這種假象;在大數據時代,我們會在數據的指導下探索世界,不再受限於各種假想;我們的研究始於數據,也因為數據我們發現了以前不曾發現的聯繫。

A.大量的數據意味著「理論的終結」:用一系列的因果關係來驗證各種猜測的傳統研究範式已經不實用了,如今它已經被無需理論指導的相關關係研究所取代;

B.現在已經是一個有海量數據的時代,應用數學已經取代了其他的所有學科工具,而且只要數據足夠,就能說明問題,如果你有一拍位元組的數據,只要掌握了這些數據之間的相關關係,一切就迎刃而解了;

C.「理論的終結」:所有的普遍規則都不重要了,重要的是數據分析,它可以揭示一切問題;但大數據並不意味著理論已死,因為大數據就是在理論的基礎上形成的。

大數據時代的商業變革

在一個可能性和相關性佔主導地位的世界裡,專業性變得不那麼重要了;行業並不會消失,但是他們必須與數據表達的信息進行博弈。

數據化:一切皆可量化

大數據的核心發展動力來源於人類測量、記錄和分析世界的渴望。為了得到可量化的信息,我們要知道如何計量;為了數據化量化了的信息,我們要知道怎麼記錄計量的結果。如今我們經常把「數字化」和「數據化」這兩個概念搞混,但是對這兩個概念的區分實際上非常重要:

A.數據化:一種把現象轉變為可製表分析的量化形式的過程;

B.數字化:把模擬數據轉換成0和1表示的二進位碼;

數字化帶來了數據化,但是數字化無法取代數據化;數字化是把模擬數據變成計算機課讀的數據,和數據化有著本質的不同。

當方位變成了數據

1978年見證了一個偉大的轉變,當時構成全球定位系統(GPS)的24顆衛星第一次發射成功,通過與技術手段的融合,全球定位系統能夠快速、相對低價地進行地理定位,而且不需要任何專業知識。地理位置信息彙集起來,可能會揭示事情的發展趨勢;位置信息一旦被數據化,新的用途就猶如雨後春筍般湧現出來,而新價值也會隨之不斷催生。

當溝通變成數據

社交網路平台不僅給我們提供了尋找和維持朋友、同事關係的場所,也將我們日常生活的無形元素提取出來,再轉化為可作新用途的數據。數據化不僅能將態度和情緒轉變為一種可分析的形式,也可能轉化人類的行為,這些行為難以跟蹤,特別是在廣大的社區和其中的子人群環境中。

A.Facebook將關係數據化——社交關係在過去一直被視作信息而存在,但從未被正式界定為數據,直到Facebook「社交圖譜」的出現;

B.Twitter通過創新,讓人們能輕易記錄以及分享他們零散的想法,從而使情緒數據化得以實現。

「取之不盡,用之不竭「的數據創新

儘管數據長期以來一直是有價值的,但通常只是被視作附屬企業經營核心業務的一部分,或者被歸入知識產權或個人信息中相對狹窄的類別,但在大數據時代,所有數據都是有價值的。我們的時代,數據收集不再存在固有的局限性,由於存儲成本的大幅下降,保存數據比丟棄數據更加容易,這使得以較低成本獲得更多數據的可能性比以往任何時候都大。不同於物質性的東西,數據的價值不會隨著它的使用而減少,而是可以不斷地被處理,信息不會像其他物質產品一樣隨著使用而有所損耗。數據的價值並不僅限於特定的用途,它可以為了同一目的而被多次使用,也可用於其他目的。

來源:36大數據

量化投資實戰課程——全明星六大海龜豪華陣容傾囊相授

吳帆? AIMA中國區總經理

聶軍? 凱思博香港總經理

毛煜春? 安誠數盈董事長

張弘?深圳盈富總經理

林健武?量化總監

章贇? 量化總監

2017年6月16日—18日 上海

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大數據實驗室 的精彩文章:

雲時代大數據管理引擎HAWQ+全面解讀
陸銘:應警惕「大數據讓計劃成為可能」滑向政府萬能
大盤暴跌2000點?照樣盈利!

TAG:大數據實驗室 |

您可能感興趣

農民撿1300年前武則天金簡,10字概括女皇一生,解無字碑千年之謎
300萬字的《資治通鑒》,被主席概括為這十句話,堪稱經典
用4個字概括你的2018年
十二星座的2018可以用哪個四字詞語概括
考進士10次不中文人,用14字概括了諸葛亮失敗原因,千古名句
一句話概括12星座的2019
IDC報告:1310萬、4.17億、4.5小時,三個數字概括VR現狀
這首20字唐詩就是一個謎語,謎底只有1個字,概括全詩內容
2018年世界盃之前的這20張圖片概括了半個足球史,都來看看吧
這幾首詩完美概括了你的2018年,准到哭!
年末將至,一兩個字概括2018,韓國人大部分會說……
年關將近,用一個字概括你的2018年吧
這個國家可用數字「123456」來概括,後因過分打壓主體民族而分裂
此國可用數字「123456」來概括,因過分打壓主體民族而分裂
來,「十句話」概括你30歲以前的十年
一圖概括自己的2018,已看哭
神總結!一句話概括美國100所大學的特點
IDC報告:1310萬裝機量、4.17億營收、4.5小時平均使用,三個數字概括VR現狀
12星座男的浪漫招數,十個字概括12星座
1936年,毛主席評價潘漢年8個字,概括了他的一生