數據挖掘平台Discover解鎖Tensorflow

Transwarp Discover作為一款靈活的數據科學分析探索工具，集成多種開發環境，提供基於互動式數據分析工具Notebook實現可視化模型學習，以及各種行業模型。

在成為更成熟的數據科學平台的道路上，Discover在其最新版本（5.1）中取得多方面進展，例如Notebook開始支持深度學習工具Tensorflow，數據預處理和特徵工程函數得到豐富，新增多種機器學習演算法，提供了模型選擇和優化函數。在性能、功能、操作等方面實現了多種提升。

開發介面

首先Discover將Spark MLLib的版本升級到2.2，豐富了新的演算法，增加了對SparkR中分散式演算法的支持。

其次Discover Notebook開始支持Python3數據分析探索，同時增加了對Tensorflow深度學習Python的支持，方便展開深度學習開發。

Discover Notebook集成了更廣發的介面，用戶可以根據個人習慣和問題所需靈活選擇數據分析語言和工具。

數據預處理和特徵工程

另外，Discover 5.1還實現了分散式多源異構數據特徵工程函數，以自動化的方式實現以下功能：特徵選擇，特徵變換，統一指定的列的時間格式，特徵離散，特徵重要，特徵組合。

機器學習演算法

Discover 5.1在原有基礎上開發並新增了多種機器學習演算法。

無監督異常值檢測演算法 isolation forest

該演算法常用於異常檢測，經常應用於網路安全中的攻擊檢測和流量異常分析，在金融機構中則用於欺詐行為挖掘，以及在交通監控中發現交通流量異常。

基於貝葉斯個性化排序的推薦演算法 BPR

BPR多應用於內容推薦，特別是推薦內容排序的好壞決定用戶對推薦候選集滿意度的場景。BPR演算法可以從較多候選集中為用戶選取特定的少數物品進行推薦，並通過對item的評分來優化用戶對物品的排序，提高用戶對推薦滿意度從而提高點擊率，是強調個性化推薦的演算法。

密度聚類演算法 DBScan

該演算法將簇定義為密度相連的點的最大集合，能夠把具有足夠高密度的區域劃分為簇，並可在雜訊的空間資料庫中發現任意形狀的聚類。多應用於城市規劃，消費行為模式分類，文本聚類等應用。

分類演算法 GBTLR

採用GBDT（梯度提升樹）+ LR（邏輯回歸）的組合，用於分類預測。其中使用GBDT進行特徵工程，取代依靠人工經驗來分析有效特徵、特徵組合的方式，提升生產效率。GBDT生成的特徵直接作為LR的輸入特徵，由LR進行二分類模型訓練，獲得較好的訓練效果。該演算法在可以廣泛應用於構建廣告點擊率預估模型的場景。

模型評估和模型選擇優化

完成模型訓練後，找到最適應當前問題的模型，進行模型優化以提供良好的運行效果是重要的環節。Discover 5.1提供了自動化分散式模型選擇函數和超參數調整函數，方便用戶進行有效的模型評估和選擇。其中包括自動化交叉驗證函數，計算經驗錯誤從而選擇錯誤值最小的模型作為最佳模型；以及超參數調整函數，對模型的超參數進行優化，從而選擇最佳參數表。

結語

Discover 5.1豐富了函數和演算法，方便特徵工程的實現，支持多種語言與開發平台，Notebook支持深度學習工具Tensorflow，使深度學習的開發更加方便。Discover將為減輕數據科學家和機器學習工程師的工作壓力提供極大幫助，使開發者專註於建立更好的機器學習模型與應用，從更大規模的數據集中挖掘出更多價值。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！