當前位置:
首頁 > 最新 > bigide之數據開發

bigide之數據開發

大數據採集

Logstash是一個應用程序日誌、事件的傳輸、處理、管理和搜索的平台。可以用它來統一對應用程序日誌進行收集管理,提供了Web介面用於查詢和統計。

Flume是Cloudera提供的一個高可用的、高可靠的、分散式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各類數據發送方,用於收集數據。同時,Flume支持對數據進行簡單處理,並寫入各種數據接受方(可定製)。

Kafka一種高吞吐量的分散式發布訂閱消息系統,它可以處理消費者規模網站中的所有動作流數據,目前已成為大數據系統在非同步和分散式消息之間的最佳選擇。

大數據處理

一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的演算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。

Spark Streaming實現微批處理,目標是很方便地建立可擴展、容錯的流應用,支持Java、Scala和Python,和Spark無縫集成。Spark Streaming可以讀取數據HDFS、Flume、Kafka、Twitter和ZeroMQ,也可以讀取自定義數據。

大數據分析

是一個開源的分散式SQL查詢引擎,適用於互動式分析查詢,可對250PB以上的數據進行快速地互動式分析。Presto的設計和編寫是為了解決像Facebook這樣規模的商業數據倉庫的互動式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍還多。

Spark SQL的前身是Shark,SparkSQL拋棄原有Shark的代碼並汲取了一些優點,如內存列存儲(In-Memory Columnar Storage)、Hive兼容性等。由於擺脫了對Hive的依賴性,SparkSQL無論在數據兼容、性能優化、組件擴展方面都得到了極大的方便。

ElasticSearch是一個基於Lucene的搜索伺服器。它提供了一個分散式、支持多用戶的全文搜索引擎,基於RESTful web介面。Elasticsearch是用Java開發的,並作為Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎。設計用於雲計算中,能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。

Kylin是一個開源的分散式分析引擎,提供了基於Hadoop的超大型數據集(TB/PB級別)的SQL介面以及多維度的OLAP分散式聯機分析。最初由eBay開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

大數據挖掘

Knime全稱是「康斯坦茨信息挖掘工具」(Konstanz Information Miner),是一個開源分析和報表平台。宣稱「是任何數據科學家完美的工具箱,超過1000個模塊,可運行數百個實例,全面的集成工具,以及先進的演算法」。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 bigide 的精彩文章:

TAG:bigide |