AI、IoT、區塊鏈這些技術與大數據融合,大數據基礎軟體乾貨不容錯過
作者:劉學習 小編:阿軟
在IT產業發展中,包括CPU、操作系統在內的基礎軟硬體地位獨特,不但讓美國贏得了產業發展的先機,成就了產業巨頭,而且因為技術、標準和生態形成的壁壘,主宰了整個產業的發展。錯失這幾十年的發展機遇,對於企業和國家都是痛心的。
當大數據迎面而來,並有望成就一個巨大的應用和產業機會時,企業和國家都虎視眈眈,不想錯再失這一難得的機遇。與傳統的IT產業一樣,大數據除了應用的巨大市場機會以外,依然需要基礎軟硬體技術,來存儲、處理、分析和利用這些數據。
那麼,在大數據基礎軟體領域,中國處於什麼位置?2017年全球的大數據基礎軟體有哪些看點?中國企業的表現又如何呢?接受中國軟體網採訪的中國Hadoop大數據廠商紅象雲騰的CEO童小軍,向我們總結了2017年大數據基礎軟體方面的亮點、看點,讓記者打開眼界,大家也確實不容錯過。
紅象雲騰CEO童小軍
大數據基礎軟體發展進入相對平穩階段
目前,大數據產業還處於起步階段,核心因素是數據沒有被發現、整理和利用,大數據的價值還沒有被充分的發掘。在國內,政府大數據的開放正在積極推進中,大數據交易的規則正在建立中,企業大數據的成功案例在逐漸增多。
相對於大數據產業,大數據基礎軟體經過10年特別是近幾年的發展,已經渡過了起步階段,進入相對平穩的發展階段,在技術上已經可以滿足大數據產業對數據存儲、處理、分析、分發等的需求,正在朝更高性能、更高效率發展。
在市場格局上,國內的以Hadoop開源技術為核心的大數據基礎軟體領域,出現華為、星環、紅象雲騰三強鼎立的格局。三家公司的Hadoop技術和產品,讓大數據從非常技術,很難商業化,發展到2017年Hadoop在互聯網公司、政府部門、國防等領域規模部署,幫助企業與組織實現高效率的數據變現,並帶動各種各樣的大數據創業公司井噴式發展。
而在國外也出現了Hadoop 商業化的三駕馬車Hortonworks、Cloudera和MapR,其中,Hortonwork和Cloudera先後上市,市值衝天,MapR也加快了上市步伐。近日,該公司完成了最後一輪融資,金額5600萬美元,並已經將目光鎖定在未來的IPO上。
童小軍認為,資本青睞基於Hadoop 的大數據基礎軟體公司,國外這樣,國內也不例外。目前資本投入還處於快速增長階段。
五大技術與大數據結合,應用範圍不斷擴大
2017年大數據基礎軟體的五大技術與產品突破,進一步擴大了大數據基礎軟體的應用範圍,具有非常積極的作用。
第一,在資料庫方面,針對「流式處理」、「事件數據」以及「實時」等需求,出現了一家獨立流式數據平台公司Confluent,並推出了業界第一個基於流式資料庫平台Apache Kafka的企業級流計算平台。童小軍認為,這為大數據基礎軟體發展指明了一個專業化發展的方向。
和大多數開發人員相同,你可能將自己系統的大部分數據保存在各種資料庫中:關係型資料庫(Oracle、MySQL和Postgres)或者新興的分散式資料庫(MongoDB、Cassandra和Couchbase),這些數據可能不容易理解為事件或者事件流。資料庫中存放的是數據的當前狀態,當前狀態是過去的某些動作(action)的結果,這些動作就是事件。當談論大數據時,這些事件流所表示的業務邏輯是傳統的資料庫沒有反應出來的一面。
Apache Kafka是專門處理流式數據的分散式系統,具備良好的容錯性、高吞吐量、支持橫向擴展,並允許地理位置分布的流式數據處理。其流式數據平台有兩個主要應用:首先是數據整合:流式數據平台搜集事件流或者數據變更信息,並將這些變更輸送到其他數據系統,如關係型資料庫、key-value存儲系統、Hadoop或者其他數據倉庫。
其次是流式處理:對流式數據進行持續、實時的處理和轉化,並將結果在整個系統內開放。
第二,在物聯網方面,Eclipse IOT推出的技術,讓通過開源Hadoop技術和產品重新定義工業4.0成為可能。Eclipse IOT可能不是第一個去研究物聯網的開源組織,但是遠在IoT家喻戶曉之前,該基金會在 2001年左右就開始支持開源軟體發展商業化。
Eclipse IOT的貢獻是提供滿足任何物聯網解決方案的核心基礎技術,通過使用開源技術,每個人都可以使用,從而可以獲得更好的適配性。Eclipse IOT將物聯網視為包括三層互聯的軟體棧。從更高的層面上看,這些軟體棧(按照大家常見的說法)將物聯網描述為跨越三個層面的網路。特定的實現方式可能含有更多的層,但是它們一般都可以映射到這個三層模型的功能上:一種可以裝載設備如設備、終端、微控制器、感測器用軟體的堆棧;將不同的感測器採集到的數據信息聚合起來並傳輸到網上的一類網關,這一層也可能會針對感測器數據檢測做出實時反應;物聯網平台後端的一個軟體棧。這個後端雲存儲數據並能根據採集的數據比如歷史趨勢、預測分析提供服務。
童小軍認為,物聯網與大數據融合,為大數據在工業雲領域的應用,打下基礎,前景非常廣闊。
第三,在數據倉庫方面,新技術和產品不斷湧現。其中,俄羅斯的「百度」——Yandex公司開源了一款高性能的分散式資料庫ClickHouse,採用列式存儲、多核並行化處理和向量化,它相比MySQL快數百倍,比Hive快200倍以上,比Vertica快5倍,支持實時數據寫入,能夠支持萬億級別的數據量。
同樣,2017年8月,中國的「Yandex」——百度公司開源了分散式數據分析資料庫Palo,該產品已經服務百度內部數十個項目。它基於列式存儲、向量化執行、MVCC的實現,並且結合了谷歌mesa以及Impala的優勢,號稱比大部分資料庫有5 到 10 倍的性能提升。
第四,在人工智慧領域,雖然深度學習隨著大數據的紅利消耗殆盡,其局限性尤其體現在依賴大規模標註數據和難以有效利用先驗知識等方面,其天花板日益迫近。
童小軍認為,因為 AI 本身就是一種大數據的應用。特別是在對於 AI 的系統進行訓練的時候,使用的數據越多,AI 系統就越先進。 Hadoop 和 AI 是非常適合、非常匹配的一項技術。人工智慧逐漸回歸焦點位置,主要原因可以歸結為四點:數據、演算法、計算力、平台。2017年,基於Hadoop大數據能力的人工智慧平台呈現快速發展格局,AI開發平台開始提供易用的半自動化開發工具,方便數據與演算法的結合,以提高效率。
如MapR宣布推出了一款名為Quick Start Solution(QSS)的新解決方案,專註於深度學習應用。MapR強調,QSS是一款分散式深度學習產品和服務,能夠大規模訓練複雜的深度學習演算法。
作為大數據協同安全技術國家工程實驗室牽頭公司的360,開發了基於Hadoop大數據能力的人工智慧平台XLearning。XLearning平台將大數據與深度學習相融合,基於Hadoop Yarn完成了TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用深度學習框架的集成,是典型的「AI on Hadoop」的實現。
紅象雲騰在CRH5.0 中引入了新的時下流行深度學習計算平台 RedDL,底層建立在 TensorFlow之上,並且與Yarn集成,實現統一資源調度管理。
第五,在區塊鏈方面,大數據技術有了更多的用武空間。
童小軍認為,一方面,區塊鏈提供的是賬本的完整性,數據統計分析的能力較弱。大數據則具備海量數據存儲技術和靈活高效的分析技術,能夠極大地提升了區塊鏈數據的價值和使用空間。
特別是 BigChainDB 項目,結合來區塊鏈和大數據兩者的技術優勢,支持超大規模的企業級別區塊鏈資料庫。在大數據的系統上使用區塊鏈技術,可以使數據不能被隨意添加、修改和刪除。突破現有區塊鏈在每秒交易筆數和數據量級等限度。
紅象雲騰2017年的五大突破
面對2017年,作為中國大數據基礎軟體三大巨頭之一,紅象雲騰在2017年取得了5大重點突破。
第一,發布大數據基礎軟體CH5.0,把x86的應用生態帶入到國產系統生態中。紅象雲騰的大數據基礎平台產品CRHV5.0,為企業大數據實施提供一套完整的一站式大數據解決方案,將大數據技術帶給更多中國企業。
它具有三大特點:
首先是支持5種CPU,包括主流的國產CPU。如IBM Power、ARM結構的飛騰和華芯通,基於MIPS的龍芯,基於Alpha的國產CPU申威,以及基於x86的國產CPU兆芯。同時取得基於這些CPU的伺服器企業廠商級認證,如已經完成浪潮、中太、航天科工飛騰伺服器等兼容性測試。
其次,支持紅旗、中標麒麟、銀河麒麟、普華等多種主流的國產伺服器操作系統,當然也支持市場上主流的其他操作系統。
最後,紅象雲騰的CH5.0採用標準的API,可以將其旗下7大行業的應用,移植到國產CPU+OS系統上,並因為大量應用在x86系統上得到廣泛應用,可以將x86的應用與生態,帶入到國產生態系統中。
童小軍認為,企業級應用需要對國產CPU和操作系統兼容性應用檢測與驗證。國產CPU和操作系統需要基礎軟體的支持,紅象雲騰的大數據基礎軟體首先實現了多主流國產CPU和操作系統的適配,未來將與國產CPU共進退。
第二,產業發展方向符合國家的產業政策,得到國家投資基金的投資。2017年7月,紅象雲騰獲得1000萬人民幣Pre-A投資,投資方為華耀資本。此前,2014年4月,紅象雲騰獲得了110萬人民幣天使輪融資,投資方為極客幫創投。華耀資本成立於2013年,立足於中國並面向全球投資培育偉大企業的私募股權基金管理平台,其中多支基金均獲國家引導基金參股。直接管理和參與管理的基金規模超百億元,主導投資的項目目前近百個。
第三,參與國家重點科技專項和重大工程。2017年,紅象雲騰加入中國衛星全球服務聯盟,成為遙感協會理事單位,參與多項國家重大工程,提供大數據基礎軟體。同時在國家16項重大科技專項中,紅象參與其中的多個重大專項,提供大數據基礎軟體,完成大數據存儲和計算應用。
第四,國際合作蓬勃開展。紅象雲騰與IBM合作,在其基於最新的Power9伺服器上,首先完成兼容檢測。與Mellanox合作,在其最新IB RDMA加速晶元上,實現兼容性測試。走出國門,和美國大數據技術實驗室合作,開展研發工作。
第五,在大數據基礎軟體上,實現了AI功能的布局,並推出相關的產品和應用。紅象雲騰與新雲東方共建大數據和人工智慧實驗室,雙方將在國家全面支持IT系統自主可控和國產化基礎架構穩步發展的背景下,聯合構建國內大數據基礎軟硬體生態,搭建更適合國家安全要求的「安全穩定,堅若磐石」的大數據、人工智慧生態系統,為企業和政府提供一站式的,面嚮應用領域優化的創新解決方案。最近,實驗室與清華大學合作,完成了人臉表情識別的案例。
童小軍認為,隨著互聯網的發展,共享經濟盛行,各行業數據激增,大數據被投入更多領域的建設如社會管理、金融科技、物聯網、移動互聯網等,與構成依賴關係的雲計算、人工智慧、物聯網、區塊鏈等技術協同,共同促進技術的創進步與產品創新。
中國軟體網
專註有深度的
互聯網軟體趨勢分析
作者
劉學習
前15年,專註於伺服器、存儲以及雲計算
後5年,愛上基礎軟體、管理軟體,以及國產化系統
冀望與企業一起成長,與產業一起發展!
作品概覽
報告研究文章
TAG:中國軟體網 |