對大數據系統的了解

知識 10-12

大數據概念：

直義：巨量數據集合

麥肯錫全球研究所給出的定義是：一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵。

IBM最早定義的4V：

Volume：數據體量大（bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB）

Velocity：數據流轉快速（處理速度快，和傳統的數據挖掘技術本質區別）

Variety：數據類型多樣（網路日誌、視頻、圖片、地理位置信息等）

Value:價值密度低（但商業價值高）

Veracity:真實性（IBM加入的5V）

對大數據系統的了解

大數據「解構」

大數據」在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日，卻因為近年來互聯網和信息行業的發展而引起人們關注。

大數據包括結構化、半結構化和非結構化數據，非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示：企業中80%的數據都是非結構化數據，這些數據每年都按指數增長60%。大數據就是互聯網發展到現今階段的一種表象或特徵而已，是以雲計算等技術發展的推動下，將原本很難收集和使用的數據開始容易被利用起來，通過各行各業的創新，通過數據分析創造出新的商業價值。

對大數據系統的了解

第一層面是理論，理論是認知的必經途徑，也是被廣泛認同和傳播的基線。在這裡從大數據的特徵定義理解行業對大數據的整體描繪和定性；從對大數據價值的探討來深入解析大數據的珍貴所在；洞悉大數據的發展趨勢；從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。

最早提出大數據時代到來的是麥肯錫：「數據，已經滲透到當今每一個行業和業務職能領域，成為重要的生產因素。人們對於海量數據的挖掘和運用，預示著新一波生產率增長和消費者盈餘浪潮的到來。」

大數據特性圖：

對大數據系統的了解

大數據思維

在大數據時代已經到來為我們觀察世界提供了一種全新的思維，要用大數據思維去發掘大數據的潛在價值。如電子商務網站通過對用戶的購買和瀏覽數據進行分析，進行相關商品推薦功能。

維克托·邁爾-舍恩伯格認為：

需要全部數據樣本而不是抽樣，從樣本思維轉向總體思維

通過採樣來研究事物的規律是常用的方法，也是在無法獲取全量數據條件下的無奈選擇，在大數據時代，人們可以獲得並分析更多數據，而不依賴於採樣，進而可以更全面地認識事物，更清楚地發現樣本數據無法揭示的細節信息。隨著數據收集，存儲，分析技術突破性發展，而不再因諸多限制不得不採用樣本研究法。總體的數據分析可以更加全面、系統地認識事物。

關注效率而不是精確度，從精確思維轉向容錯思維

小數據時代，由於收集的樣本信息量較少，必須確保記錄下來的數據盡量結構化，精確化確保分析得出的結論正確性。舍恩伯格指出，「執迷於精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統資料庫的。如果不接受混亂，剩下95%的非結構化數據都無法利用，只有接受不精確性，我們才能打開一扇從未涉足的世界的窗戶」。也就是說，在大數據時代，思維方式要從精確思維轉向容錯思維，當擁有海量即時數據時，絕對的精準不再是追求的主要目標，適當忽略微觀層面上的精確度，容許一定程度的錯誤與混雜，反而可以在宏觀層面擁有更好的知識和洞察力。

關注相關性而不是因果關係，從因果思維轉向相關思維

以通過大數據技術挖掘出事物之間隱蔽的相關關係，獲得更多的認知與洞見，運用這些認知與洞見就可以幫助我們捕捉現在和預測未來的戰場形勢，而建立在相關關係分析基礎上的預測正是大數據的核心議題。

Wal-Mart，通過對銷售記錄的全面分析，美國颶風來臨季節蛋撻銷量也會增加，就將颶風物品和蛋撻放一塊，提高了蛋撻的銷量；

1948年遼瀋戰役，司令員林彪通過對每日例行軍情彙報分析，發現胡家窩棚附件繳獲的短槍：長槍數和小車：大車數，俘虜和擊斃的軍官士兵比，判斷敵人的司令部，並最終抓住了廖耀湘；

這些例子真實的反映在各行各業，探求數據價值取決於把握數據的人，關鍵是人的數據思維；與其說是大數據創造了價值，不如說是大數據思維觸發了新的價值增長。

數據大且可以在線用起來。功能價值轉向數據價值。大數據並不在「大」，而在於「有用」。數據的使用就涉及到使用的成本，及數據的價值含量、挖掘成本比是用數據過程要關注的。

大數據價值

如果把大數據比作一種產業，那麼這種產業實現盈利的關鍵，在於提高對數據的「加工能力」，通過「加工」實現數據的「增值」。

不管大數據的核心價值是不是預測，但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。

從大數據的價值鏈條來分析，存在三種模式：

1- 手握大數據，但是沒有利用好；比較典型的是金融機構，電信行業，政府機構等。

2- 沒有數據，但是知道如何幫助有數據的人利用它；比較典型的是IT諮詢和服務企業，比如，埃森哲，IBM，Oracle等。

3- 既有數據，又有大數據思維；比較典型的是Google，Amazon，Mastercard等。

未來在大數據領域最具有價值的是兩種事物：1-擁有大數據思維的人，這種人可以將大數據的潛在價值轉化為實際利益；2-還未有被大數據觸及過的業務領域。這些是還未被挖掘的油井，金礦，是所謂的藍海。

而當物聯網發展到達一定規模時，藉助條形碼、二維碼、RFID等能夠唯一標識產品，感測器、可穿戴設備、智能感知、視頻採集、增強現實等技術可實現實時的信息採集和分析，這些數據能夠支撐智慧城市，智慧交通，智慧能源，智慧醫療，智慧環保的理念需要，這些都所謂的智慧將是大數據的採集數據來源和服務範圍。

未來的大數據除了將更好的解決社會問題，商業營銷問題，科學技術問題，還有一個可預見的趨勢是以人為本的大數據方針。人才是地球的主宰，大部分的數據都與人類有關，要通過大數據解決人的問題。

第二層面是技術，技術是大數據價值體現的手段和前進的基石。在這裡分別從雲計算、分散式處理技術、存儲技術和感知技術的發展來說明大數據從採集、處理、存儲到形成結果的整個過程。

雲技術

實時的大型數據集分析需要分散式處理框架來向數十、數百或甚至數萬的電腦分配工作。雲計算思想的起源是麥卡錫在上世紀60年代提出的：把計算能力作為一種像水和電一樣的公用事業提供給用戶。雲計算提供基礎架構平台，大數據應用運行在這個平台上；

這裡暫且列舉一些，比如虛擬化技術，分散式處理技術，海量數據的存儲和管理技術，NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。

雲計算和大數據之間的關係可以用下面的一張圖來說明，兩者之間結合後會產生如下效應：可以提供更多基於海量業務數據的創新型服務;通過雲計算技術的不斷發展降低大數據業務的創新成本。

對大數據系統的了解

如果將雲計算與大數據進行一些比較，最明顯的區分在兩個方面：

第一，在概念上兩者有所不同，雲計算改變了IT，而大數據則改變了業務。然而大數據必須有雲作為基礎架構，才能得以順暢運營。

第二，大數據和雲計算的目標受眾不同，雲計算是CIO等關心的技術層，是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品，而大數據的決策者是業務層

分散式處理技術

分散式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多台計算機用通信網路連接起來，在控制系統的統一管理控制下，協調地完成信息處理任務—這就是分散式處理系統的定義。

存儲技術

大數據可以抽象的分為大數據存儲和大數據分析，這兩者的關係是：大數據存儲的目的是支撐大數據分析。到目前為止，還是兩種截然不同的計算機技術領域：大數據存儲致力於研發可以擴展至PB甚至EB級別的數據存儲平台;大數據分析關注在最短時間內處理大量不同類型的數據集。

感知技術

大數據的採集和感知技術的發展是緊密聯繫的。以感測器技術，指紋識別技術，RFID技術，坐標定位技術等為基礎的感知能力提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電錶上有著無數的數碼感測器，隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化，都會產生海量的數據信息。

這些感知被逐漸捕獲的過程就是就世界被數據化的過程，一旦世界被完全數據化了，那麼世界的本質也就是信息了。

第三層面是實踐，實踐是大數據的最終價值體現。在這裡分別從互聯網的大數據，政府的大數據，企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。

互聯網的大數據

互聯網上的數據每年增長50%，每兩年便將翻一番，而目前世界上90%以上的數據是最近幾年才產生的。據IDC預測，到2020年全球將總共擁有35ZB的數據量。互聯網是大數據發展的前哨陣地，隨著WEB2.0時代的發展，人們似乎都習慣了將自己的生活通過網路進行數據化，方便分享以及記錄並回憶。

互聯網大數據的典型代表性包括：

1-用戶行為數據(精準廣告投放、內容推薦、行為習慣和喜好分析、產品優化等)

2-用戶消費數據(精準營銷、信用記錄分析、活動促銷、理財等)

3-用戶地理位置數據(O2O推廣，商家推薦，交友推薦等)

4-互聯網金融數據(P2P，小額貸款，支付，信用，供應鏈金融等)

5-用戶社交等UGC（User Generated Content用戶原創）數據(趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等)

政府的大數據

現狀是政府擁有大數據，但還沒有很好的利用起來，政府需要在制度和政策上給與支持，應該有勇氣將手中的數據逐步開放，供給更多有能力的機構組織或個人來分析並加以利用，以加速造福人類。

企業的大數據

企業的CXO們最關注的還是報表曲線的背後能有怎樣的信息，他該做怎樣的決策，其實這一切都需要通過數據來傳遞和支撐。在理想的世界中，大數據是巨大的槓桿，可以改變公司的影響力，帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群並創造市場

1) 對大量消費者提供產品或服務的企業(精準營銷);

2) 做小而美模式的中長尾企業(服務轉型);

3) 面臨互聯網壓力之下必須轉型的傳統企業(生死存亡)。

數據產業會向傳統企業的供應鏈模式發展，最終形成「數據供應鏈」。

個人的大數據這個概念

就是與個人相關聯的各種有價值數據信息被有效採集後，可由本人授權提供第三方進行處理和使用，並獲得第三方提供的數據服務。

以數據處理為中心的14個大數據專業辭彙

本地資料庫(LDB/Local Data Base)

駐留於運行客戶應用程序的機器的資料庫。本地資料庫位於本地磁碟或區域網。

數據採集(Data Acquisition，DAQ)

數據採集又稱數據獲取，將被測試對象的各種參量通過各種感測器做適當轉換後，再經過信號調理、採樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。

數據模型(data model)

數據模型是現實世界數據特徵的抽象，用於描述一組數據的概念和定義。

數據整理（Data Cleansing）

數據處理（Data Handling）

數據壓縮(Data Compression)

數據恢復(Data Recovery)

數據集成（Data Integration)

數據遷移(Data Migration)

數據冗餘(Data Redundancy/Redundant Data)

數據抽取（Data mining）

網路數據抽取（Web data mining）

網路數據抽取（Web data mining），是指從網路中取得大量的又利用價值的數字化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點挖掘(Opinion mining)等。

數據備份(Data Backup)

如何處理大數據

集中式計算VS分散式計算

集中式計算：通過不斷增加處理器的個數來增強單個計算機的計算能力，從而提高處理的速度。需要的內存很大，計算的速度很快。

分散式計算：一組通過網路連接的計算機，形成一個分散的系統。將需要處理的大量數據分散成多個部分，交由集群系統中的單個計算機分別處理，最後將這些計算結果合併得到最終結果。（MapReduce的核心思想）

Ambari

作為Hadoop生態系統的一部分，這個Apache項目提供了基於Web的直觀界面，可用於配置、管理和監控Hadoop集群。有些開發人員想把Ambari的功能整合到自己的應用程序當中，Ambari也為他們提供了充分利用REST（代表性狀態傳輸協議）的API。

Avro

這個Apache項目提供了數據序列化系統，擁有豐富的數據結構和緊湊格式。模式用JSON來定義，它很容易與動態語言整合起來。

Chukwa

Chukwa基於Hadoop，可以收集來自大型分散式系統的數據，用於監控。它還含有用於分析和顯示數據的工具。

Flume

Flume可以從其他應用程序收集日誌數據，然後將這些數據送入到Hadoop。官方網站聲稱：「它功能強大、具有容錯性，還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。」

Oozie

這種工作流程調度工具是為了管理Hadoop任務而專門設計的。它能夠按照時間或按照數據可用情況觸發任務，並與MapReduce、Pig、Hive、Sqoop及其他許多相關工具整合起來。

Pig

Apache Pig是一種面向分散式大數據分析的平台。它依賴一種名為Pig Latin的編程語言，擁有簡化的並行編程、優化和可擴展性等優點。

Sqoop

企業經常需要在關係資料庫與Hadoop之間傳輸數據，而Sqoop就是能完成這項任務的一款工具。它可以將數據導入到Hive或HBase，並從Hadoop導出到關係資料庫管理系統（RDBMS）。

Spark

作為MapReduce之外的一種選擇，Spark是一種數據處理引擎。它聲稱，用在內存中時，其速度比MapReduce最多快100倍；用在磁盤上時，其速度比MapReduce最多快10倍。它可以與Hadoop和Apache Mesos一起使用，也可以獨立使用。

Tez

Tez建立在Apache Hadoop YARN的基礎上，這是「一種應用程序框架，允許為任務構建一種複雜的有向無環圖，以便處理數據。」它讓Hive和Pig可以簡化複雜的任務，而這些任務原本需要多個步驟才能完成。

Zookeeper

這種大數據管理工具自稱是「一項集中式服務，可用於維護配置信息、命名、提供分散式同步以及提供群組服務。」它讓Hadoop集群裡面的節點可以彼此協調。

Storm

Storm現在是一個Apache項目，它提供了實時處理大數據的功能（不像Hadoop只提供批任務處理）。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 程序員小新人學習 的精彩文章:

※YUM 安裝GCC需要哪些模塊
※Intellij idea集成的git頁面進行操作

TAG:程序員小新人學習 |