數據挖掘平台Discover解鎖Tensorflow
Transwarp Discover作為一款靈活的數據科學分析探索工具,集成多種開發環境,提供基於互動式數據分析工具Notebook實現可視化模型學習,以及各種行業模型。
在成為更成熟的數據科學平台的道路上,Discover在其最新版本(5.1)中取得多方面進展,例如Notebook開始支持深度學習工具Tensorflow,數據預處理和特徵工程函數得到豐富,新增多種機器學習演算法,提供了模型選擇和優化函數。在性能、功能、操作等方面實現了多種提升。
開發介面
首先Discover將Spark MLLib的版本升級到2.2,豐富了新的演算法,增加了對SparkR中分散式演算法的支持。
其次Discover Notebook開始支持Python3數據分析探索,同時增加了對Tensorflow深度學習Python的支持,方便展開深度學習開發。
Discover Notebook集成了更廣發的介面,用戶可以根據個人習慣和問題所需靈活選擇數據分析語言和工具。
數據預處理和特徵工程
Discover在數據預處理和特徵工程方面也提供了更全面的函數實現。
對於特徵選擇,提供分散式計算信息熵函數、分散式方法計算基尼不純度函數、自動化分散式數據近零方差列篩選函數、以及分數布式列聯表統計函數。
在數據和特徵處理方面,Discover提供了以下函數:
分散式非數值類型編碼函數;
多種數據類型的自動化缺失值填充函數,提供統一的方法對數據進行填充;
分散式眾數統計函數;
自動化分散式多種數據類型的模型輸入前預處理函數,用戶可選擇要處理的列,對na數據的處理(刪除/填充),對string數據編碼,以及標準化;
分散式非正態數值列變換函數,可自動計算非正態偏離程度,大於域值時對列做變換;
分散式連續特徵離散化函數,提供兩種離散方法,一是根據數據分布進行切分,二是根據決策樹模型切分。
另外,Discover 5.1還實現了分散式多源異構數據特徵工程函數,以自動化的方式實現以下功能:特徵選擇,特徵變換,統一指定的列的時間格式,特徵離散,特徵重要,特徵組合。
機器學習演算法
Discover 5.1在原有基礎上開發並新增了多種機器學習演算法。
無監督異常值檢測演算法 isolation forest
該演算法常用於異常檢測,經常應用於網路安全中的攻擊檢測和流量異常分析,在金融機構中則用於欺詐行為挖掘,以及在交通監控中發現交通流量異常。
基於貝葉斯個性化排序的推薦演算法 BPR
BPR多應用於內容推薦,特別是推薦內容排序的好壞決定用戶對推薦候選集滿意度的場景。BPR演算法可以從較多候選集中為用戶選取特定的少數物品進行推薦,並通過對item的評分來優化用戶對物品的排序,提高用戶對推薦滿意度從而提高點擊率,是強調個性化推薦的演算法。
密度聚類演算法 DBScan
該演算法將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,並可在雜訊的空間資料庫中發現任意形狀的聚類。多應用於城市規劃,消費行為模式分類,文本聚類等應用。
分類演算法 GBTLR
採用GBDT(梯度提升樹)+ LR(邏輯回歸)的組合,用於分類預測。其中使用GBDT進行特徵工程,取代依靠人工經驗來分析有效特徵、特徵組合的方式,提升生產效率。GBDT生成的特徵直接作為LR的輸入特徵,由LR進行二分類模型訓練,獲得較好的訓練效果。該演算法在可以廣泛應用於構建廣告點擊率預估模型的場景。
模型評估和模型選擇優化
完成模型訓練後,找到最適應當前問題的模型,進行模型優化以提供良好的運行效果是重要的環節。Discover 5.1提供了自動化分散式模型選擇函數和超參數調整函數,方便用戶進行有效的模型評估和選擇。其中包括自動化交叉驗證函數,計算經驗錯誤從而選擇錯誤值最小的模型作為最佳模型;以及超參數調整函數,對模型的超參數進行優化,從而選擇最佳參數表。
結語
Discover 5.1豐富了函數和演算法,方便特徵工程的實現,支持多種語言與開發平台,Notebook支持深度學習工具Tensorflow,使深度學習的開發更加方便。Discover將為減輕數據科學家和機器學習工程師的工作壓力提供極大幫助,使開發者專註於建立更好的機器學習模型與應用,從更大規模的數據集中挖掘出更多價值。
※探索大數據技術在商業銀行信用風險監控領域的應用
※2017年大數據熱點總結與發展趨勢預測
TAG:星環科技 |