Hadoop-CERN案例研究
在這篇文章中,我們將研究一個CERN案例研究,以突出顯示使用Hadoop的好處。
瑞士的大型強子對撞機是世界上規模最大,功能最強大的機器之一。它配備了大約1.5億個感測器,每秒產生一百PB的數據,數據不斷增長。
CERN的研究表明,這些數據在數量和複雜性方面都有所擴大,其中一個重要的任務是提供這些可擴展的要求。所以他們設置一個Hadoop集群。通過使用Hadoop,它們限制了硬體成本和維護的複雜性。
他們集成了Oracle和Hadoop,並具有集成的優勢。Oracle優化了其在線事務系統和Hadoop,為其提供了可擴展的分散式數據處理平台。他們設計了一個混合系統,首先他們將數據從Oracle轉移到Hadoop。然後,他們使用Oracle API執行查詢來自Oracle的Hadoop數據。他們還使用Hadoop數據格式(如Avro&Parquet)進行高性能分析,無需更改連接到Oracle的最終用戶應用程序。
他們在CERN-IT Hadoop服務中使用的主要Hadoop組件:
集成Oracle和Hadoop的技術:
·將數據從Oracle導出到HDFS
Sqoop對於大多數情況來說都是足夠好的,他們還採用了一些其他可能的選擇,如自定義攝取,Oracle DataPump,流媒體等。
·從Oracle查詢Hadoop
他們使用Oracle中的DB鏈接訪問Hadoop引擎中的表。這也通過在Oracle和Hadoop中透明地組合數據來構建混合視圖。
·使用Hadoop框架來處理Oracle資料庫中的數據
他們使用Hadoop引擎(如Impala,Spark)來處理從Oracle導出的數據,然後從JDBC直接從Spark SQL讀取RDBMS中的數據。
從Oracle卸載到Hadoop
步驟1:將數據卸載到Hadoop
步驟2:卸載查詢到Hadoop
步驟3:從Oracle查詢訪問Hadoop
·使用資料庫鏈接從Oracle查詢Apache Hive / Impala表
create database link my_hadoop using impala-gateway ;
select * from big_table@my_hadoop where col1= :val1;
·查詢通過ODBC網關卸載到Impala(或Hive)
在oracle上創建混合視圖的示例
create view hybrid_view as
select * from online_table where date > 2016-10-01
union all
select * from archive_table@hadoop where date
基於CERN案例研究,我們可以得出結論:
·Hadoop是可擴展的,非常適合數據分析
·Oracle被證明用於並發事務工作負載
·解決方案可用於集成Oracle和Hadoop
·使用混合系統(Oracle + Hadoop)有很大的價值:
§用於舊應用程序和OLTP工作負載的Oracle API
§商品的可擴展性用於分析工作負載的硬體
我希望這個篇文章的信息能為您的知識增值。在我們的下一個Hadoop Tutorial系列文章中詳細討論Hadoop,詳細了解HDFS和YARN組件的任務。還不知道hadoop是什麼?點擊公眾號下方菜單,裡邊有hadoop專家視頻哦,同時想了解更多內容,請掃下方二維碼加大數據導師獲取。
※大數據學習的正確姿勢,教你從哪裡下手!
※物聯網醫療器械在醫療保健中的主要安全擔憂,調查顯示
※Hadoop輝煌還能延續多久——Hadoop 2.0版本出現了新的潛在的功能
TAG:ITStar |