蘇寧機器學習平台實踐
最新
06-08
蘇寧大數據平台研發中心為數據科學家及數據分析師提供了可視化、流程化、配置化、服務化的一站式的數據挖掘平台,用戶不需要繁瑣的開發過程,使用便捷的配置化方式實現數據建模分析過程,提供了數據、模型評估、訓練執行過程等一系列可視化方式。
基於蘇寧數據云生態,打造了能夠通過數據開發平台和實時計算平台實現演算法模型一鍵部署上線的能力,最終幫助用戶快速得到大數據背後隱藏的秘密。
蘇寧大數據平台介紹
分散式文件存儲HDFS、KV存儲主要是Hbase和Cassandra,離線計算主要是Hive、MapReduce、Spark,實時計算目前最主要的還是Spark Streaming 和Storm, 其中還有一個Libra。底層平台,承載大數據存儲和計算能力, 最上面一層是大數據開發工具, 在蘇寧內部叫做數據云開發套件。
機器學習平台功能
由於機器學習是學科交叉、高門檻,多年來其被視為 是一種只屬於少數精英的學科,參與人員不僅要具備紮實的高數、統計學、智能演算法等理論基礎, 還有具備R、Python語言編碼能力,熟悉數據倉庫,能熟練應用hadoop、spark等大數據平台, 具備工程化能力等,門檻極高,一般由一個團隊共同承擔。人員成本也很高。
MLaaS擁有豐富的數據分析工具、特徵工程變換和模型演算法。在搭建這些演算法的過程中,我們增強了一些經典演算法,最大化的利用了Spark的優勢並行化處理大數據,大大提升了模型的運行效率和性能。
業務應用案例
平台應用案例-黃牛識別
平台應用案例-OCR識別
技術實現
※數學—機器學習先驗知識
※基於機器學習的CC攻擊檢測技術研究與應用報告
TAG:機器學習 |