當前位置:
首頁 > 知識 > 給 Java開發者的10個大數據工具和框架,速收藏

給 Java開發者的10個大數據工具和框架,速收藏

當今IT開發人員面對的最大挑戰就是複雜性,硬體越來越複雜,OS越來越複雜,編程語言和API越來越複雜,我們構建的應用也越來越複雜。根據外媒的一項調查報告,中軟卓越專家列出了Java程序員在過去12個月內一直使用的一些工具或框架,或許會對你有意義。

先來看看大數據的概念。根據維基百科,大數據是龐大或複雜的數據集的廣義術語,因此傳統的數據處理程序不足以支持如此龐大的體量。

在許多情況下,使用SQL資料庫存儲/檢索數據都是很好的選擇。而現如今的很多情況下,它都不再能滿足我們的目的,這一切都取決於用例的變化。

現在來討論一些不同的非SQL存儲/處理數據工具,例如,NoSQL資料庫,全文搜索引擎,實時流式處理,圖形資料庫等。

1、MongoDB——最受歡迎的,跨平台的,面向文檔的資料庫。

MongoDB是一個基於分布式文件存儲的資料庫,使用C++語言編寫。旨在為Web應用提供可擴展的高性能數據存儲解決方案。應用性能高低依賴於資料庫性能,MongoDB則是非關係資料庫中功能最豐富,最像關係資料庫的,隨著MongDB 3.4版本發布,其應用場景適用能力得到了進一步拓展。

MongoDB的核心優勢就是靈活的文檔模型、高可用複製集、可擴展分片集群。你可以試著從幾大方面了解MongoDB,如實時監控MongoDB工具、內存使用量和頁面錯誤、連接數、資料庫操作、複製集等。

2、Elasticsearch ——為雲構建的分布式RESTful搜索引擎。

ElasticSearch是基於Lucene的搜索伺服器。它提供了分布式多用戶能力的全文搜索引擎,基於RESTful web介面。Elasticsearch是用Java開發的,並作為Apache許可條款下的開放源碼發布,是比較流行的企業級搜索引擎。

ElasticSearch不僅是一個全文本搜索引擎,還是一個分布式實時文檔存儲,其中每個field均是被索引的數據且可被搜索;也是一個帶實時分析功能的分布式搜索引擎,並且能夠擴展至數以百計的伺服器存儲及處理PB級的數據。ElasticSearch在底層利用Lucene完成其索引功能,因此其許多基本概念源於Lucene。

3、Cassandra——開源分布式資料庫管理系統,最初是由Facebook開發的,旨在處理許多商品伺服器上的大量數據,提供高可用性,沒有單點故障。

Apache Cassandra是一套開源分布式NoSQL資料庫系統。集Google BigTable的數據模型與Amazon Dynamo的完全分布式架構於一身。於2008開源,此後,由於Cassandra良好的可擴展性,被Digg、Twitter等Web 2.0網站所採納,成為了一種流行的分布式結構化數據存儲方案。

因Cassandra是用Java編寫的,所以理論上在具有JDK6及以上版本的機器中都可以運行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令,類似於我們平時操作的關係資料庫,對於熟悉MySQL的朋友來說,操作會很容易上手。

4、Redis ——開源(BSD許可)內存數據結構存儲,用作資料庫,緩存和消息代理。 Redis是一個開源的使用ANSI C語言編寫的、支持網路、可基於內存亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。Redis 有三個主要使其有別於其它很多競爭對手的特點:Redis是完全在內存中保存數據的資料庫,使用磁碟只是為了持久性目的; Redis相比許多鍵值數據存儲系統有相對豐富的數據類型; Redis可以將數據複製到任意數

5、Hazelcast ——基於Java的開源內存數據網格。

Hazelcast 是一種內存數據網格 in-memory data grid,提供Java程序員關鍵任務交易和萬億級內存應用。雖然Hazelcast沒有所謂的「Master」,但是仍然有一個Leader節點(the oldest member),這個概念與ZooKeeper中的Leader類似,但是實現原理卻完全不同。同時,Hazelcast中的數據是分布式的,每一個member持有部分數據和相應的backup數據,這點也與ZooKeeper不同。

Hazelcast的應用便捷性深受開發者喜歡,但如果要投入使用,還需要慎重考慮。

6、EHCache——廣泛使用的開源Java分布式緩存。主要面向通用緩存、Java EE和輕量級容器。

EhCache 是一個純Java的進程內緩存框架,具有快速、精幹等特點,是hibernate中默認的CacheProvider。主要特性有:快速簡單,具有多種緩存策略;緩存數據有兩級,內存和磁碟,因此無需擔心容量問題;緩存數據會在虛擬機重啟的過程中寫入磁碟;可以通過RMI、可插入API等方式進行分布式緩存;具有緩存和緩存管理器的偵聽介面;支持多緩存管理器實例,以及一個實例的多個緩存區域;提供Hibernate的緩存實現。

7、Hadoop ——用Java編寫的開源軟體框架,用於分布式存儲,並對非常大的數據用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群進行高速運算和存儲。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,MapReduce則為海量的數據提供了計算。

8、Solr ——開源企業搜索平台,用Java編寫,來自Apache Lucene項目。

Solr是一個獨立的企業級搜索應用伺服器,它對外提供類似於Web-service的API介面。用戶可以通過http請求,向搜索引擎伺服器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,並得到XML格式的返回結果。

與ElasticSearch一樣,同樣是基於Lucene,但它對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化。

9、Spark ——Apache Software Foundation中最活躍的項目,是一個開源集群計算框架。

Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕鬆地

10、Memcached ——通用分布式內存緩存系統。

Memcached是一套分布式快取系統,當初是Danga Interactive為了LiveJournal所發展的,但被許多軟體(如MediaWiki)所使用。Memcached作為高速運行的分布式緩存伺服器,具有以下的特點:協議簡單,基於libevent的事件處理,內置內存存儲方式。

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 java學習吧 的精彩文章:

戲說設計模式 只有一個中國 單例模式
JAVA知識貼 Java習慣用法總結
java學習 JavaScript學習心得
高級java程序員必備的面試官常問的知識
Spring MVC異常處理詳解

TAG:java學習吧 |

您可能感興趣

10 個用於 AI 開發的框架和庫
十五個Web加速開發框架和工具
2018年最好用的5個python網站開發框架
超頻大神der8auer發售直觸框架,專為開蓋而生
最適合中國開發者的深度學習框架:走向成熟的PaddlePaddle 1.0
蘋果為App開發者打造全新開發框架SwiftUI和AR工具
Pytorch-Transformers 1.0 發布,支持六個預訓練框架,含 27 個預訓練模型
Angular 和7.0.0-beta.7 發布,Web 前端框架
2018年Python web五大主流框架
使用node.js的開發框架express創建一個web應用
蘋果悄悄的就發布了iOS 11.4,加入Classkit框架即將上線
華為史上最強晶元昇騰910面世,算力超Tesla V100一倍,AI框架MindSpore明年開源
Web 前端框架 Angular 發布 7.0 首個 beta 版
用於AI開發的最佳5個開源框架
Angular 6.0.0-beta.1和5.2.2 發布,Web 前端框架
20 個好用的 Go 語言微服務開發框架
Angular 6 正式發布:統一框架、Material和CLI 三大模塊
反轉了!「只問了1個框架,就給了35K的Python崗」
一周AI大事盤點:全球超算500強公布,Facebook開源其PyRobot框架
Python 數據可視化框架 Plotly 4.0 發布