當前位置:
首頁 > 最新 > 分析挖掘平台助力數據價值利用

分析挖掘平台助力數據價值利用

隨著大數據的興起,分析挖掘在各種架構設計圖的位置日益突顯。但現實是,人人都說分析挖掘很重要,但除了金融、保險等少數幾個領域,其他領域很少有具體的落地應用。原因有很多,其中缺少一款實用、能與多種業務場景契合的分析挖掘工具或平台是一個重要的原因。

分析挖掘平台定位

分析挖掘工具的定位是什麼,應該提供什麼樣的功能?不同的回答,影響到最終客戶使用工具的方式,同時對分析挖掘工具本身的設計、研發思路影響巨大。為了更好地回答這個問題,可換個角度思考:如果沒有分析挖掘工具,涉及到有分析演算法的應用是如何開發的?一種典型的架構圖可能是圖1這樣的。

如圖1所示,硬體設施、操作系統,一般情況下按客戶指定要求配置;計算框架雖然有一定的選擇權,但限制較大,一般要遵守不同領域上游應用開發商的傳統習慣;一旦確定了計算框架,基本確定了可用公共演算法庫(譬如:Spark之上的MLLIB、Python之上的scikit-learn)和自研演算法可用的API函數;業務分析邏輯的研發是一個反覆探索迭代的過程,如果有一個實用的分析挖掘工具參與這個過程,可大大提高研發效率;再往上就是將分析邏輯模塊與其他模塊進行整合,完成產品的過程。

至此,如果不考慮分析師的技術能力、不同場景可複製性等因素,分析挖掘工具似乎可有可無,這種觀點在分析場景不是很多的情況下,是可接受的。

但是要從多方面考慮問題。一方面,模型探索是一個反覆迭代的過程,這一點與技術能力無關,即使數據分析師對業務很熟悉,也不能保證一次編碼就達到良好的分析效果。所以通過編寫代碼方式完成業務分析邏輯是一種低效的工作方式。另一方面,同樣的分析邏輯模塊,大部分業務場景,是需要部署到多個不同的軟硬體設施之上。不同場景提供的計算框架存在差別(即使是同一套框架,版本不同,API也有可能不同),同樣的業務邏輯代碼需要重複實現多次,這是一種研發資源的浪費。

分析挖掘平台正是解決上述問題的工具,其價值在於:降低分析類應用的技術門檻,讓數據分析師專註於業務分析,聚焦於為客戶帶來價值。為了完成這個目標,結合前面的分析,分析挖掘工具需要具備的基本要素有:

● 易用性,以零編碼為目標,業務分析師不需要編寫代碼就可完成業務模型的探索;

● 開放性,為高級用戶提供定製領域演算法的能力;

● 移植性,同一套分析流程,可快速部署多個環境中;

● 易集成,可與不同的模塊、業務系統進行融合,輸出完整的應用;

● 易部署,系統可運行在不同軟硬體、計算框架中;

● 易擴展,底層基礎計算技術發展迅速,日新月異,架構上需支持異構計算。

中興通訊分析挖掘工具AI Explorer

分析挖掘工具的設計,如果不重視易用性,其存在的價值就會大大降低。分析挖掘工具使用人員主要是數據分析師,他們的強項是業務知識,對不同演算法適應的場景也有心得;在編碼方面,大部分數據分析師並不擅長,在實際應用中,也較少關注與系統部署相關的限制。簡單一句話,業務分析師不關心 「具體如何做、誰來做的」問題,他們關心的是分析挖掘工具能提供什麼樣的功能、帶來什麼樣的工作便利性,同時不能設置過多的技術方面的前提條件。

基於以上思考,為了滿足數據分析師易用性和系統架構設計等兩方面的需求,中興通訊推出的一款全新的分析挖掘工具AI Explorer,可滿足不同場景下、模型探索和模型部署不同方面的需求。AI Explorer提出了驅動層的概念,這與計算機顯卡驅動程序的作用類似:屏蔽不同廠家硬體的區別,通過操作系統對應用層開發者提供統一的圖形API介面。在AI Explorer架構里,驅動層的作用屏蔽不同計算框架之間的技術差別,提供穩定的運算元功能集。

AI Explorer由三層架構組成,其中用戶層和驅動層是AI Explorer自身提供的功能,AI Explorer在計算層默認提供一個單節點的計算框架,如圖2所示。

用戶層

在用戶層,採取了流程設計與執行分開的設計架構(見圖3)。數據分析師在可視化界面,根據業務目標,將不同用途的運算元進行編排,輸出一個完整的分析流程。元數據在不同的運算元之間變化、流動,通過靜態檢查器實時的進行合法性檢測。合法性檢測包括兩部分:運算元自身參數和運算元之間的邏輯關係。整個檢測過程根據上下文的環境不同,動態顯示提醒信息,引導客戶完成流程編排工作。

AI Explorer採取上述設計,主要考慮到大部分運算元的執行屬於CPU計算密集型的任務,特別在計算層是大數據Hadoop集群場景下。在設計流程時,如果用戶界面不能及時地為數據分析師的操作提供反饋,那麼可能有些運算元到了運行期才會發現錯誤,這將大大降低用戶建模的效率。元數據相對是靜態的信息,某些合法性檢測,需要根據數據的內容進行判斷,所以引入動態檢查器模塊,如SQL和Python語法的檢測。動態檢查器主要與AI Explorer提供的高級功能有關。

驅動層

驅動層是AI Explorer的核心,是整個系統中承上啟下的組件(見圖4)。

驅動層提供的主要功能有:

● 為用戶層提供元數據信息。如接入的計算框架實例個數、數據表、欄位等信息。

● 生成執行計劃。用戶層輸出的流程圖可能存在多個分支、循環、分支依賴等關聯關係,另一方面,分析師在探索模型過程中,可能需要單步、區間、全量等不同的流程執行方式。上述過程中,不同分支的執行順序、依賴關係、並發執行等運行策略就是由驅動層分析控制的。

● 運算元的解析和適配。用戶層傳遞過來的運算元只是描述信息(運算元名稱、參數等信息),驅動層結合上下文、數據存儲方式、計算層可提供的能力,動態解析成與環境相關的API操作。

● 參數尋優。數據挖掘中,演算法調參是個大難題。運算元智能模塊,通過取樣、遺傳演算法、退火演算法等技術手段,幫助數據分析師自動快速縮小參數範圍或尋找到次優的參數組合。另一場景下,同樣的一套分析流程,基於不同的現場,都有各自的數據分布特點,為了達到更好的分析效果,需要對已發布流程中的運算元參數根據實際情況進行微調,而現場工程實施人員一般缺少相關技能,參數自動尋優功能可彌補此方面的不足。

● 對外提供HTTP Rest API介面,其他業務系統可通此類介面進行系統間的融合和交互。

計算層

計算層主要為第三方平台,當前AI Explorer可接入中興通訊的大數據平台DAP、ADMA系統、中興通訊ZAIP深度學習平台;同時支持Hadoop標準發布版本、Python 2.X、Python 3.X等框架。在驅動層加上不同的適配模塊可對接不同的計算平台。

AI Explorer主要特性

● 零編碼、可視化建模:簡單,方便使用,降低使用門檻。

● 靈活部署:將可視化建模能力與底層計算平台進行解耦;支持單機、集群;支持同樣框架的不同版本;執行引擎可脫離可視化建模單獨部署。

● 支持異構計算框架:提供深度學習建模能力,將GPU的計算能力引入到機器學習領域;支持在一個流程中使用不同計算架構的運算元,適應性強。

● 擴展性:提供JAVA、SCALA、Python等語言的二次介面,不同的用戶可根據自己的技術特點,選取一種適合自己的語言將已有的演算法實現包括成規範化的運算元,並可與其他人員共享成果。

● 移植性/開放性:使用AI Explorer 編排輸出的流程,可部署到不同的計算框架版本中; 提供豐富的HTTP Rest API介面,方便與其他業務系統進行互動,形成信息流的閉環。

應用案例

AI Explorer在電信領域的應用,如無線基站天線的調優,通過業務系統採集原始數據、結合當前天線參數進行分析、得到優化後參數,然後通過網管系統自動下發到基站,形成一完整改進網路質量的價值閉環。AI Explorer同時也可以作為現有業務系統的補充,譬如,在告警根源分析上,機器學習與規則引擎系統配合,可以協助運維人員更加快速的定位原始告警系統,提高快速定位問題的能力。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 ZTe刊 的精彩文章:

Cloud Native,下一代虛擬化核心網應用系統架構

TAG:ZTe刊 |