《大數據》的書筆記:數據是什麼?數據從哪來?數據如何用?
《大數據》出版於2012年,通過梳理美國20世紀大蕭條後信息的開放、技術創新之路,為我們描繪出一個在技術不斷發展過程中,如何不斷通過數據,建設一個民主、開放政府的設想、實踐和博弈。雖然描繪的範圍是美國,但清晰的映射出近5年來中國互聯網大數據技術快速發展的影子。指引我們認清數據的價值,挖掘數據的方法,數據變革社會的實踐。
一、數據的概念
數據是記錄信息的載體。大數據是超出傳統意義上的尺度,一般軟體難以捕捉、儲存、管理和分析的數據。從數據到大數據認知,是伴隨著以下幾組概念發展而來的:
1、最小數據集通過手機最少的數據,最好地掌握一個研究對象所具有的特點或一件事情、一份工作所處的狀態,其核心是針對被觀察的對象建立一套精簡實用的數據指標。最小數據集的出現,有利於統一數據的標準和尺度,有利於數據的規模化收集。同時,關於具體數據指標的確定,也會伴隨著爭議和討論。但,數據好比汽油,代碼如同引擎。最小數據集,如同統一了汽油的標號,使我們可以規模化的收集和使用。
2、數據倉庫是一個面向主題的、集成的、相對穩定的、反應歷史變化的數據集合。用來解決數據集成的問題。其與一般資料庫的區別在於,數據倉庫是以數據決策支持為目的來組織儲存數據,而資料庫的主要目的是為了運營性系統保存、查詢數據。數據倉庫是對海量數據進行分析的核心物理構架。它可以形象地理解為一種格式一致的多元數據儲存中心,數據源可以來自多個不同的系統,如何有機地聚集、整合多個不同運營系統產生的數據。
3、數據立方為了把分立的資料庫相連,進行多維度的連機分析,需要改變以報表的形式將數據轉化為信息和知識的方式,解決動態決策需求與靜態報表的矛盾。因此需要構建多維的數據立方體,以方便用戶在不同的維度之間切換。
數據在種類上分為:業務數據、民意數據、環境數據,不同的數據的收集方式、收集對象,數據量也有所不同。從最小數據集,到數據倉庫,再到數據立方。可以看到隨著數據量、數據增長速度、數據的多樣性不斷變化,數據在收集和使用的方式也在不斷迭代,以適應不同領域對數據的需求。
二、數據的來源
通過觀察美國1933年來數據和信息的使用的發展歷程,數據的發現、收集和使用,與技術的進步、政府和領導人的認知、民眾的意識息息相關。
1、摩爾定律當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。這一定律揭示了信息技術進步的速度。儘管這種趨勢已經持續了超過半個世紀,摩爾定律仍應該被認為是觀測或推測,而不是一個物理或自然法。預計定律將持續到至少2015年或2020年。
2、普適計算的發展通過日常生活中廣泛部署微小的計算設備,人們能夠在任何地點獲取並處理信息,計算將最終和環境融為一體,是人類的第三波計算浪潮。萬事萬物,凡存在,皆聯網,凡聯網,皆計算。美國通過在東海岸部署感測器,用以全天候監測颱風,預防災難發生。
3、政府如何收集收據一個公眾的政府,如果缺乏公眾的信息,或者缺乏收集信息的方法和手段,那它只不過是一個短暫的序幕,拉開的將是一場鬧劇或悲劇,也可能既是鬧劇又是悲劇。收集數據,必然會給公眾增加負擔,為此,在長期發展中,聯邦政府對數據的收集、發布、使用和管理形成了一個較為完備的框架體系。首先,將數據分類,按照數據收集方的角度,將數據分為民意數據、業務數據、環境數據。按照社會提交方式,劃分為強制性提交、選擇性提交、志願性提交。為了減輕民眾負擔,防止重複收集,聯邦政府成立了信息和管制辦公室,來編製年度信息收集預算,控制數據收集的負擔。向著電子化、網路化、去行政化、簡單化的方向發展。同時,數據收集要尊重公民的隱私權,並應當將數據免費向公眾發布。數據發布要確定質量的標準、流程、救助機制。確保客觀性、實用性、完整性。數據的獲得方式是透明的,具有可複製性。
4、中央數據銀行白宮行政管理預算局曾提出,聯邦政府應成立一個統一的數據中心,把政府部門所有的資料庫連接、集中、整合。建立一個大型的資料庫。最終目標是,以公民為單位,為全國每一個人建立一個數據檔案,這個檔案將包括每一個人教育、醫療、福利、犯罪和納稅等從搖籃到墳墓的數據記錄。由於無法解決隱私權的問題,這個項目最終擱淺。
5、統一身份證美國政府百年以來都在嘗試建立一個統一身份證系統。但國會不同意,大部分公民也不同意。理由是沒有任何理由去犧牲公民實實在在的自由以換取可能會好一點的國家安全。
6、萬維信息觸角計劃911以後,為了加強反恐,追蹤恐怖分子「數據腳印」,國防部成立了「信息觸角辦公室」,從交易空間中,收集信息。由於涉及每個人的信息記錄,在民眾和社會組織的狙擊下,國會終止了項目的開發。
從基於感測器的普適計算,到政府主動收集各種數據,再到全民統一數據網路的構想,數據在社會治理和決策中的重要性已經越來越收到政府的重視,同時數據的安全性,以及對民眾隱私的影響,也越來越受到民眾的關心。在以個人主義為主流文化的美國,大數據的構想如果沒有給民眾帶來明顯的普適性的利益,通常會被否決。
而在集體主義為根基的中國,這成為了一個機會,政府的權力往往比個體民眾大得多,集中力量辦大事往往使我們可以成就一些舉世矚目的工程。我們已經構建出統一的身份信息系統,如果以此為依託構建我們自己的中央數據銀行,將為建設智慧國家、智慧城市輸送源源不斷的數據資源。數據治國將在我們國家完成新的創舉。
三、數據如何使用?
伴隨著技術的進步,數據的挖掘和使用不斷迭代
1、數據、信息、知識數據經過積累反應的結果成為信息,信息通過加工形成指導實踐的內容,構成了知識。因此,數據的開發和使用,與數據的收集同樣重要。
2、人類知識的分類人類的所有知識可以分為自然科學、社會科學、人文藝術。自然科學研究的是物理世界,務求精確。人文科學研究的是人和社會的關係,關係和人都是多變看的,所以社會社會科學又被稱為準科學。
3、數據挖掘如果說聯機分析是對數據的透視性探測,數據挖掘則是對數據進行礦山鑿礦式的開採。主要目的一是發現潛在數據表面下的歷史規律,二是對未來進行預測,即描述性分析和預測性分析。
4、數據可視化圖形是解決邏輯問題的視覺化方法,數據可視化指的是以圖形、圖像、地圖、動畫等更為生動,易於理解的方式來展現數據大小,詮釋數據之間的關係和發展趨勢,以期更好的理解、使用數據分析的結果。大數據的爆炸使人們急於展示數據、理解數據、演繹數據的工具,讓冰冷堅硬、枯燥乏味的數據動起來。
5、雲計算雲計算指的是把計算能力當做一種資源,集中在一起,然後通過網路配置給有需要的客戶。客戶需要越多,服務商就送的越多,客戶需求下降,配送的資源就會下調。雲計算可以在整合計算資源,實現效率的最大化。為大數據的計算提供了可能。
6、語意網語意網就是數據網,像一個全球性的資料庫,語意網不僅把數據放在網上,還為數據貼上了標籤,在數據之間創造連接,數據一旦連接,計算機和人都可以進行探索:通過一個數據發現另外一些數據。這裡的標籤就是連接不同資料庫的主鍵,就是一個元數據。語意網的概念,也顛覆了互聯的模式,從web2.0到web3.0轉型。web1.0是以網站為標誌的信息傳播共享,web2.0是以社交媒體為頂峰的信息交流和協同,web3.0是以語意網為基礎的數據智能網路。構建語意網的關鍵是對元數據的標準的制定、統一,受到網路外部性的限制。
7、自我量化運動2005年美國開始興起,指利用計算機、智能手機等便攜感應器記錄自己的學習、運動、生活等行為,更好的提升和改變自己。理由是人的感覺是存在忙點的,但是數據不會騙人。奧巴馬藉助於對選民數據的收集分析整合,贏得了選舉。
數據賦予背景,信息提煉規律,知識指導實踐。下一波浪潮將是從大數據到大社會的變革,進入後信息時代。在後信息時代里信息變得極端個人化,計算機將記住每個人的細節,時空障礙將被打破,人與人可以在任何地方發生聯繫和合作。個人將獲得更大的解放,世界的運行更加透明,國家的權力將被分散,國家之間的界限將更加模糊。
四、我們要如何做?
大數據時代正在呼喚下一波社會化的浪潮:一個更加開放的社會,一個權力更分散的社會,一個網狀的大社會。中國文化在骨子裡重定性輕定量,自帶「差不多先生」的文化標籤,集體主義和中央集權的政治結構,有助於我們抓住大數據革命的機會,實現彎道超車。但不可迴避的是我們依然要面對收集數據、使用數據、開放數據的挑戰,需要我們在自己的領域中去思考如何面臨這三大挑戰。
我們信靠上帝。除了上帝,任何人必須用數據說話。
——美國管理學家愛德華·戴明
如果我們信靠的是數據呢?
TAG:奔跑的法師 |