bigide之數據開發

最新 03-28

大數據採集

Logstash是一個應用程序日誌、事件的傳輸、處理、管理和搜索的平台。可以用它來統一對應用程序日誌進行收集管理，提供了Web介面用於查詢和統計。

Flume是Cloudera提供的一個高可用的、高可靠的、分散式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各類數據發送方，用於收集數據。同時，Flume支持對數據進行簡單處理，並寫入各種數據接受方（可定製）。

Kafka一種高吞吐量的分散式發布訂閱消息系統，它可以處理消費者規模網站中的所有動作流數據，目前已成為大數據系統在非同步和分散式消息之間的最佳選擇。

大數據處理

一個高速、通用大數據計算處理引擎。擁有Hadoop MapReduce所具有的優點，但不同的是Job的中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的演算法。它可以與Hadoop和Apache Mesos一起使用，也可以獨立使用。

Spark Streaming實現微批處理，目標是很方便地建立可擴展、容錯的流應用，支持Java、Scala和Python，和Spark無縫集成。Spark Streaming可以讀取數據HDFS、Flume、Kafka、Twitter和ZeroMQ，也可以讀取自定義數據。

大數據分析

是一個開源的分散式SQL查詢引擎，適用於互動式分析查詢，可對250PB以上的數據進行快速地互動式分析。Presto的設計和編寫是為了解決像Facebook這樣規模的商業數據倉庫的互動式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍還多。

Spark SQL的前身是Shark，SparkSQL拋棄原有Shark的代碼並汲取了一些優點，如內存列存儲（In-Memory Columnar Storage）、Hive兼容性等。由於擺脫了對Hive的依賴性，SparkSQL無論在數據兼容、性能優化、組件擴展方面都得到了極大的方便。

ElasticSearch是一個基於Lucene的搜索伺服器。它提供了一個分散式、支持多用戶的全文搜索引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放源碼發布，是當前流行的企業級搜索引擎。設計用於雲計算中，能夠達到實時搜索、穩定、可靠、快速、安裝使用方便。

Kylin是一個開源的分散式分析引擎，提供了基於Hadoop的超大型數據集（TB/PB級別）的SQL介面以及多維度的OLAP分散式聯機分析。最初由eBay開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

大數據挖掘

Knime全稱是「康斯坦茨信息挖掘工具」（Konstanz Information Miner），是一個開源分析和報表平台。宣稱「是任何數據科學家完美的工具箱，超過1000個模塊，可運行數百個實例，全面的集成工具，以及先進的演算法」。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 bigide 的精彩文章:

TAG:bigide |