當前位置:
首頁 > 最新 > 分散式存儲與計算

分散式存儲與計算

PKUGSM BUSINESS ANALYTICS

《分散式存儲與計算》

課程解析

在大數據時代,全球數字數據每兩年增加一倍。海量的數據給了數據科學家們更廣闊的應用空間。

利用豐富的數據分析工具,從數據中挖掘出有價值的信息,讓決策更加智慧,讓生活更加便利,極大地顛覆了人們傳統的生活方式和商業模式。同時,大數據時代的到來使人們從擔心沒有數據、不知道從哪獲取數據,變成了面對如此大規模的數據無從下手、不知道如何應用。

分散式存儲與計算課程是商務分析碩士學生的專業必修課,通過本課程的學習使學生能夠掌握目前大數據挖掘領域常用的分散式計算方法,加深學生對統計分散式計算的理解以及大數據價值理解,培養學員使用在現代分散式架構下利用統計方法深入挖掘大數據中的數據結構並能解決一些實際問題的能力。

本課程的教學內容主要包括大數據分散式計算、基於Hadoop的分散式和Hadoop下資料庫操作、大數據價值以及等十個模塊,每個模塊分為三節。每一部分都是本課程授課的主要內容,都力求深入淺出,以實踐案例為引導,不光講解各種分散式計算的過程與原理,還要加強學生對統計分散式計算的深入理解。

授課方式採用幻燈片課堂授課與上機指導實踐相結合的形式。每個模塊前兩節採用老師授課加案例方式,第三節採用學生上機實踐的形式。學生上機實踐部分一般每兩章節一次課堂實踐。包括教師課堂案例的實踐和擴展實踐,其中擴展實踐作為平時成績佔總成績的50%,學生針對授課內容當堂完成作業。

培養目標

1.深刻理解現代分散式存儲與計算模式在數據分析與商業價值實現的重要性;

2.掌握海量複雜數據的分散式存儲與計算的基本方法;

3.在大數據分散式計算平台實現統計模型與機器學習方法。

內容提要

1. 大數據核心價值與分散式計算

2. Hadoop 基礎與操作

3. MapReduce 原理

4. Hadoop 與 Python的分散式

5. Hadoop與非結構化數據處理

6. 統計模型的MapReduce分解

7. 機器學習與分散式系統

8. 海量數據的生產到價值實現流程

9. 大數據分散式文件系HIVE, HBase

10. Spark與機器學習

以下為各章節的詳細解析:

1.大數據核心價值與分散式計算

在這個大數據爆發的時代,人們在利用手機和電腦進行社交、購物、網路遊戲等活動時會產生大量的數據,公司的交易、財務記錄,保險公司的保險記錄等等每天都會產生大的的信息量,現在很多公司每天產生的信息量已經從TB級上升到PB級,面對如此浩瀚的數據,如何對其進行更有效的存儲並從中探索出數據的規律,這就是Hadoop可以幫助我們實現的。本節我們將帶大家熟悉大數據核心價值與數據工具的關係並熟悉

案例:從海量文本數據挖掘新聞情緒與股票收益的關聯中發掘大數據價值

上機:熟悉Linux系統與Hadoop

2.Hadoop基礎與操作

Hadoop 的兩大核心是MapReduce與HDFS 。整個的Hadoop 的體系結構主要通過 HDFS 實現分散式存儲的底層支持,通過 MapReduce 實現分散式並行處理的程序支持。本小節將圍繞Hadoop框架對分散式數據實現分散式存儲基本操作

案例:大數據分散式計算的歷史、發展與未來

上機:Hadoop基本操作

3.MapReduce原理

MapReduce是一個利用「各個擊破」的原理,把海量數據切割成小份處理然後再匯總的工作框架。所以大名鼎鼎的MapReduce 並不是什麼演算法或者模型,它其實是一個分散式的計算框架,在這樣的框架下我們可以進行任意我們想要做的事。本小節從一個小的問題引入MapReduce基本原理以及介紹如何將一個海量數據分析問題分解為一個MapReduce框架下的任務

案例:基於回歸及MapReduce並行計算的付費搜索廣告研究

上機:利用MapReduce實現一些簡單並行任務

4.Hadoop與Python的分散式

在現代數據生產和處理流程中,大量的複雜的計算機工具構成的數據科學工具(Linux操作系統,Shell編程,Python和不同的數據科學模塊,分布文件存儲系統,Hadoop大數據分散式計算平台)鏈被靈活的應用在實際問題中。傳統的依賴單一軟體完成所有任務的格局被打破。這對商業分析來說造成較大的挑戰。能否熟練使用工具鏈中的工具,並且依照應用場景構造合適的工具鏈變得非常重要。本節從實際財經案例出發,在實際應用場景下介紹如何利用大數據分散式平台Hadoop與數據科學工具Python構建的數據分析工具鏈處理海量數據

案例:海量股票數據收益分析

上機:將一個Python腳本程序並行化並應用到海量數據

5.Hadoop與非結構化數據處理

一篇被某期刊接受的文章和一篇沒有被某期刊接受的文章之間的區別在哪兒呢?這個問題實際上是一個文本分類的問題。現在商業模式下海量文本數據是非結構化數據的重要部分,如何利用大數據分散式技術對這樣的非結構化數據加以處理並轉化為統計模型所能接受的結構化數據是本節重點學習的內容。

案例:法律文書的上市公司糾紛研究

上機:文本數據的自然語言處理

6.統計模型的MapReduce分解

對於一個高度商業化的社會而言,信息的有效傳播能夠帶來可觀的商業價值。除了口碑傳播以外,企業還需要其他手段幫助傳播產品服務信息,而最常用的手段之一就是廣告。廣告的有效投放直接決定了企業的收入、利潤、甚至存活。它是當下備受關注的搜索引擎營銷的核心之一。何從上億個可能的關鍵詞中找出有價值的部分就成為了現代數據分析的一個典型與核心問題。我們將學習海量數據下如何利用MapReduce框架把傳統統計模型部署到海量數據的分析中並指導實際的營銷

案例:手機APP用戶行為海量數據分析

上機:利用用戶行為數據熟悉MapReduce原理

7. 機器學習與分散式系統

機器學習的應用由來已久。在有大數據之前,有很多研究工作為了讓機器學習演算法更快,而利多多個處理器。這類工作通常稱為「並行計算」或者「並行機器學習」。分散式計算或者分散式機器學習除了要把計算任務分布到多個處理器上,更重要的是把數據(包括訓練數據以及中間結果)分布開來。因為在大數據時代,一台機器的硬碟往往裝不下全部數據,或者即使裝下了,也會受限於機器的I/O通道的帶寬,以至於訪問速度很慢。為了更大的存儲容量、吞吐量以及容錯能力,我們都希望把數據分布在多台計算機上。隨著互聯網時代帶來的大規模數據,分散式數據處理平台,機器學習新模型需要通力配合才能產生商業價值。本節將結合案例詳細介紹機器學習方法在大數據分散式平台的應用

案例:基於KNN模型的遊戲艦隊分類

上機:機器學習演算法的分散式應用

8. 海量數據的生產到價值實現流程

未來我們每個人的衣食住行、生活起居,都將有大量的數據記錄。我們的行為會變成一串串數字成為可量化的數據,成為描述我們的信息。我們工作、吃飯、打車、搜索、社交,每一步都被記了下來。如何從這些繁雜的數據中提取有用的商業價值,帶給我們新的切入點。本節將結合前面所學完整實現一個海量數據生產到價值實現的綜合流程

案例:基於文本情感分析的股票波動預測

上機:構建一個特定主題的大數據生產和分析流程

9. 大數據分散式文件系統HDFS,HIVE,HBase

隨著數據量的增加,傳統的 MySQL、Oracle 等資料庫不再能滿足數據爆發所帶來的需求,Hive 的出現解決了 Hadoop 的數據基礎架構難題,它提供了 HiveQL 查詢語言,能夠幫助熟悉 SQL 的使用者更加快速地掌握 Hive 並進行查詢;同時,這一語言也允許熟悉MapReduce 的開發者開發自定義的 Mappers 和Reducers 來處理內建的 Mappers 和Reducers 無法完成的複雜的分析工作。HBase 是一個可以隨機訪問的存儲和檢索數據的平台,它可以是一種鍵值存儲、面向列族的資料庫,也可以是一種存儲多時間戳版本映射的資料庫。HBase 支持存儲結構化和半結構化的數據,支持多種數據類型,允許動態的、靈活的數據模型。本節將詳細介紹大數據分散式文件系統的結構以及如何利用他們完成複雜的分析工作

案例:從分散式文件系統提取圖像數據的特徵

上機:分散式文件系統系統交互與介面

10. Spark與機器學習

Spark 是MapReduce 的一種可替代方案,並不是和 Hadoop 同一級別的項目。Spark擁有高效的數據流水線,強大的快速處理功能,Spark 提供了豐富的 Scala, Java,Python API 及互動式 Shell 來提高軟體的可用性。使用者可以在 Spark 系統中像書寫單機程序一樣來書寫分散式計算程序,輕鬆的利用 Spark 系統搭建的分散式計算平台來處理海量的數據。本節我們將熟悉Spark平台的使用並利用Spark實現處理複雜數據的能力

案例:集群上的新聞文本主題聚類

上機:利用SparkMLlib實現一個機器學習演算法

BA培養框架

持續關注北大光華商業分析

第一時間掌握項目信息

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 北大光華商業分析 的精彩文章:

TAG:北大光華商業分析 |