當前位置:
首頁 > 最新 > 數據挖掘平台Discover解鎖Tensorflow

數據挖掘平台Discover解鎖Tensorflow

Transwarp Discover作為一款靈活的數據科學分析探索工具,集成多種開發環境,提供基於互動式數據分析工具Notebook實現可視化模型學習,以及各種行業模型。

在成為更成熟的數據科學平台的道路上,Discover在其最新版本(5.1)中取得多方面進展,例如Notebook開始支持深度學習工具Tensorflow,數據預處理和特徵工程函數得到豐富,新增多種機器學習演算法,提供了模型選擇和優化函數。在性能、功能、操作等方面實現了多種提升。

開發介面

首先Discover將Spark MLLib的版本升級到2.2,豐富了新的演算法,增加了對SparkR中分散式演算法的支持。

其次Discover Notebook開始支持Python3數據分析探索,同時增加了對Tensorflow深度學習Python的支持,方便展開深度學習開發。

Discover Notebook集成了更廣發的介面,用戶可以根據個人習慣和問題所需靈活選擇數據分析語言和工具。

數據預處理和特徵工程


另外,Discover 5.1還實現了分散式多源異構數據特徵工程函數,以自動化的方式實現以下功能:特徵選擇,特徵變換,統一指定的列的時間格式,特徵離散,特徵重要,特徵組合。

機器學習演算法

Discover 5.1在原有基礎上開發並新增了多種機器學習演算法。

無監督異常值檢測演算法 isolation forest

該演算法常用於異常檢測,經常應用於網路安全中的攻擊檢測和流量異常分析,在金融機構中則用於欺詐行為挖掘,以及在交通監控中發現交通流量異常。

基於貝葉斯個性化排序的推薦演算法 BPR

BPR多應用於內容推薦,特別是推薦內容排序的好壞決定用戶對推薦候選集滿意度的場景。BPR演算法可以從較多候選集中為用戶選取特定的少數物品進行推薦,並通過對item的評分來優化用戶對物品的排序,提高用戶對推薦滿意度從而提高點擊率,是強調個性化推薦的演算法。

密度聚類演算法 DBScan

該演算法將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,並可在雜訊的空間資料庫中發現任意形狀的聚類。多應用於城市規劃,消費行為模式分類,文本聚類等應用。

分類演算法 GBTLR

採用GBDT(梯度提升樹)+ LR(邏輯回歸)的組合,用於分類預測。其中使用GBDT進行特徵工程,取代依靠人工經驗來分析有效特徵、特徵組合的方式,提升生產效率。GBDT生成的特徵直接作為LR的輸入特徵,由LR進行二分類模型訓練,獲得較好的訓練效果。該演算法在可以廣泛應用於構建廣告點擊率預估模型的場景。

模型評估和模型選擇優化

完成模型訓練後,找到最適應當前問題的模型,進行模型優化以提供良好的運行效果是重要的環節。Discover 5.1提供了自動化分散式模型選擇函數和超參數調整函數,方便用戶進行有效的模型評估和選擇。其中包括自動化交叉驗證函數,計算經驗錯誤從而選擇錯誤值最小的模型作為最佳模型;以及超參數調整函數,對模型的超參數進行優化,從而選擇最佳參數表。

結語

Discover 5.1豐富了函數和演算法,方便特徵工程的實現,支持多種語言與開發平台,Notebook支持深度學習工具Tensorflow,使深度學習的開發更加方便。Discover將為減輕數據科學家和機器學習工程師的工作壓力提供極大幫助,使開發者專註於建立更好的機器學習模型與應用,從更大規模的數據集中挖掘出更多價值。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 星環科技 的精彩文章:

探索大數據技術在商業銀行信用風險監控領域的應用
2017年大數據熱點總結與發展趨勢預測

TAG:星環科技 |