如今的數據科學家,距離深度學習有多遠?
數據科學家,指採用科學方法,運用數據挖掘工具尋找新的數據洞察的工程師。這個概念比較廣泛,在不同的行業、不同的公司里,數據科學家的工作可能都是不同的。如我們所見,數據科學家需要掌握的能力一般有:數學、計算機科學、SQL、統計、建模和編程、Hadoop、可視化……當然,這並不是全部。而且隨著更多新技術的出現,數據科學家所需要掌握的能力也將更多。
深度學習也可以說是數據科學家需要掌握的技能之一。深度學習是基於數據的,任何一種深度學習模型都需要大量的數據進行訓練,才能達到我們想要的推理、分析、預測等一系列結果。某種程度上講,深度學習也是數據科學的一部分。
大數據與深度學習間存在斷層
業界對深度學習的推崇自然不用多說,我們幾乎每周都會看到深度學習在某個領域的突破性成果,也有很多亮點新聞。不過這些成果,大多來自於深度學習社區中的頂尖研究人員,如大學教授、博士等,也就是我們所說的「學術派」。他們的研究使深度學習得到了長足的發展,使深度學習的價值能夠被更多人接受。
現在有越來越多的企業希望將深度學習嵌入到實際生產應用中,希望提高自己的競爭力。這其中,很多企業自身都擁有海量的、多樣化的數據,也就是我們常說的大數據,這些與大數據打了很長時間交道的用戶、數據科學家、數據分析師,在以Hadoop、Spark等為中心的平台幫助下,可以很好地管理數據、對數據進行SQL處理、流分析,甚至進行數據挖掘。但他們往往對深度學習的掌握不如「學術派」一般透徹——當然,作為處於應用層的「工程派」,他們或許根本無需理解得那麼透徹,但想用好深度學習仍有困難。在英特爾高級首席工程師、大數據技術全球CTO戴金權先生看來,關於大數據的這一整套工具和架構,與深度學習的架構之間是存在斷層的。
▲英特爾高級首席工程師、大數據技術全球CTO戴金權
「在與許多客戶和用戶的合作中,我們發現了這一現象。」 戴金權說,「我們希望能夠幫助我們的用戶,特別是普通用戶跨越這個斷層,讓他們能夠使用比較熟悉,對他們來說更加友好的框架和軟硬體架構,幫助他們在現有的應用環境當中使用新的深度學習技術。因此,我們構建了BigDL項目,並將其開源。」
關於BigDL
BigDL是一個將深度學習和大數據平台結合,面向Apache Spark的開源、分散式深度學習框架。正如戴金權先生所說,其目的是使深度學習更易於大數據和數據科學社區的使用。BigDL可以幫助用戶直接在已有的Hadoop/Spark集群上運行深度學習工作負載,無需特意將數據從大數據集群上拷貝到獨立的深度學習集群上進行訓練,充分了利用現有資源。也可在存儲數據的同一個集群上使用深度學習來進行分析,重用現有的大數據工具(如Spark工作流)構建大規模深度學習應用。除了對大數據生態系統的無縫集成外,它的功能亮點還包括:
極高的性能與擴展能力。為了實現極高的性能,BigDL使用硬體指令(如AVX-512)、MKL數學庫以及多線程編程等。因此BigDL比其他開源框架如Caffe、Torch和TensorFlow有明顯的性能提升。充分利用Spark架構,支持高效橫向擴展、大規模分散式訓練和推理,為BigDL提供了超高的擴展能力。
豐富的深度學習支持。用戶可以在BigDL中直接使用現有的TensorFlow、Keras、Caffe、Torch模型,將現有單節點訓練的模型無縫部署與大規模、分散式應用中,幫助研究人員和生產環境中的工程師共享模型。BigDL內置了大量開箱即用的高級演算法和模型,可以透明、無縫地運行在大規模、分散式環境中。
BigDL於2016年12月30日開源,目前共發布了4個版本。該項目自開源以來收到了眾多英特爾以外的社區用戶如阿里巴巴、Cloudera等的代碼貢獻,在社區用戶與英特爾開發人員的共同努力下得到了長足的發展。以京東、MasterCard、MLSListings等為代表的眾多用戶,藉助BigDL構建應用,獲得了更高的資源利用率、更低的成本、更高效的開發部署效率及性能提升。
總結
深度學習已成為企業創新、提高自身競爭力的有力工具,也是深入挖掘大數據商業價值的一大助力。但是,誠如戴金權先生所說,普通大數據用戶、數據科學家與深度學習之間的鴻溝是存在的。目前業內也有很多類似的框架或工具,通過集成相關框架,預置演算法與模型,幫助用戶更簡單地構建深度學習應用,提高深度學習易用性。BigDL的獨到之處在於幫助深度學習完成對大數據生態的無縫銜接,直接在現有大數據集群上運行深度學習工作負載,在充分利用現有資源的同時,擁有更高的效率。可以說,BigDL很好地填補了大數據與深度學習間的斷層,也能幫助數據科學家更快地邁向深度學習。
TAG:IT168企業級 |