Sophon揭秘系列2之Auto-AI：為人工智慧平台裝上智慧大腦

最新 02-07

引言：近年來，人工智慧技術在多個領域取得了令人振奮的成果。正如AlphaGo在圍棋人機對抗中展現出的深不可測的實力，人工智慧已經在特定領域遠遠超過了人類，越來越多的企業意識到人工智慧技術必將是未來推動企業可不斷持續發展的核心競爭力。而為了創造類似的人工智慧，越來越多的公司爭奪AI演算法人才，而AI演算法入門門檻非常高，造成演算法人才匱乏的大缺口。Auto-AI試圖解決這個問題，通過自動化人工智慧構造技術，大大降低演算法人才的入門門檻。

—為人工智慧平台裝上智慧大腦—

— AI與商業銀行 —

過去，商業銀行開通的網上渠道和平台，有的僅僅是個擺設，無非是將線下產品和服務搬到了線上，提供的還是傳統銀行那一套；有的並沒有、也沒有能力對後台積累的大數據進行深入挖掘，對客戶進行畫像，實施精準營銷；有的沒有在線上提供更符合互聯網用戶特點和需求的產品與服務，因為傳統思維局限了眼光、束縛了手腳。

如今，人工智慧改變了商業銀行原有的「秩序」。德國某一家全球最大資產管理公司就頗具眼光，他們使用人工智慧深度學習技術做了一個炒股試驗，結果收入回報率高達500%；高盛使用人工智慧，其對市場的反應速度遠超競爭對手，在金融領域的影響力甚至超過美國政府。隨著越來越多的人工智慧技術滲入到金融領域，商業銀行也進入了「AI時代」。

我們從銀行理財產品推薦這一案例來入手，看看人工智慧的表現究竟如何。銀行理財產品是商業銀行在對潛在目標客戶群分析研究的基礎上，針對特定目標客戶群開發設計並銷售的資金投資和管理計劃。商業銀行是經濟中最為重要的金融機構之一，它擁有著大量的客戶，同時也掌握著大量客戶的公開信息及業務數據。那麼，利用人工智慧技術在數據上「做文章」，就能解放人類，讓電腦為客戶推薦其合適的理財產品了。

以某銀行的數據為例，我們不但可以從該數據表中得到潛在客戶的基本個人信息。如職業（job），年齡（age），學歷（education），婚姻狀況（marital）等，還能根據客戶以往的交易辦理記錄來得出一些相關指標（下圖），如季度就業變化率指標（emp_var_rate)，消費價格指數月度指標（cons_price_idx）,消費者信心指數月度指標（cons_conf_idx），三個月歐元銀行間拆放款利率（euribor3m）以及僱員數季度指標（nr_employed）等。

— 數據建模的傳統過程 —

有了以上詳細全面的數據為基礎，就可以在sophon平台上對數據進行建模，來幫助銀行分析客戶是否會購買理財產品了。Transwarp Sophon是星環科技推出的一款人工智慧平台，包括了支持拖拽式建模的客戶端和支持高性能分散式計算的伺服器端。

如上圖所示，Sophon客戶端將各種數據處理邏輯封裝為運算元。用戶通過將不同類型的運算元連接起來構建完整的數據建模流程。為了建立理財產品模型，首先需要對數據進行預處理，包括通過「替換缺失值」運算元對缺失值進行填充，通過「字元串索引」運算元將字元型特徵轉換為數字型特徵等。接下來，藉助於Sophon平台豐富的特徵工程運算元，包括「One-hot編碼」，「分位數離散化」、「標準歸一化」、「Min-Max歸一化」、「Max-Abs歸一化」等，來對數據進一步加工處理。當特徵工程完成之後，用戶就可以選擇合適的分類運算元來建立理財產品模型。此外，Sophon平台提供了多種性能評估運算元來幫助用戶對所建立的模型好壞進行評估。用戶可以根據該結果對之前的數據建模流程，包括運算元的類型以及運算元的超參數，進行調整，從而獲得更佳的模型性能。

可以預見，這一過程對用戶的建模經驗提出了較高的要求。同時，該過程是比較枯燥和耗費時間的。為了得到一個令人滿意的模型，即使是有經驗的數據科學家，可能仍然要花數日甚至數周才能完成。儘管採用Grid Search或Random Search技術能夠一定程度上解決該問題。不過，這些技術的效率和效果往往不能讓人滿意。對於Grid Search而言，需要用戶事先定義好各組參數的候選取值，並通過組合的方式依次遍歷所有候選取值的組合。但是，這種方式存在著一些比較明顯的局限性。首先，用戶提供的候選取值均是離散值，而實際最優參數很有可能位於兩個候選取值之間。其次，Grid Search認為每一個候選取值的出現概率相同。另外，當參數空間較大時，組合爆炸問題限制了Grid Search的可用性。舉個例子，每一個骰子表示一個超參數，骰子的每一面表示該超參數的候選取值。那麼，假如模型包含了兩個超參數，就會需要遍歷6*6=36組參數。隨著超參數的增多，需要遍歷的參數組合也會更多。

Random Search對每一個參數可以指定不同的分布，每一組實驗參數均從中採樣得到，一定程度上解決了Grid Search的局限性。現有研究結果表明，對於較大的參數空間，Random Search具有比Grid Search更好的效果。然而，Random Search的局限性在於每一組實驗參數之間均是無相關性的。

— Auto-AI實現自動建模 —

為了進一步降低Sophon平台的使用門檻和提供更加智能化的使用體驗，我們的Sophon研發團隊打造了全新的自動化數據建模組件Auto-AI。Auto-AI組件包含了兩個運算元，分別是自動化數據探索運算元和自動化建模運算元。

其中，自動化數據探索運算元的主要功能是分析特徵的類型，對離散特徵進行字元串索引，過濾重複或缺失值過多的樣本等。

而自動化建模運算元的主要功能是自動化構建數據建模的流程。自動化建模運算元會以迭代的方式對最優的模型和超參數進行搜索，並提供了兩種方式來停止迭代，分別是時間和迭代次數。該運算元還提供了包括準確率、召回率等多種性能指標來評估模型的性能。當模型的性能滿足要求時，通過提前停止閾值參數，提前停止迭代，幫助用戶節約時間成本。

此外，如上圖所示，自動化建模運算元允許用戶根據需求開啟自動化特徵縮放、自動化特徵抽取和自動化特徵編碼。如果開啟了更多功能，那麼該運算元最終返回的模型將會更複雜，並具有更強的預測能力。同時，需要更多的運行時間或迭代次數來搜索最優模型。融合了Auto-AI組件的Sophon平台能夠在無需用戶參與的情況下，快速高效地幫助用戶完成完整的數據建模任務，包括數據預處理自動化、特徵工程自動化、模型選擇自動化和模型調參自動化。得益於與Sophon平台的無縫銜接，Auto-AI提供了種類豐富的運算元和易用的介面來完成自動化數據建模任務，並且Auto-AI的自動化數據建模過程支持分散式執行，用戶無需擔心在面對大數據時的性能問題。由此可見，隨著Auto-AI組件的加入，用戶不再需要關心數據預處理、特徵工程、演算法的選擇和調參。也許是一頓午飯的時間甚至是一杯咖啡的時間，Auto-AI組件已經幫助用戶完成了數據建模的任務，大大提高了數據科學家的工作效率。

結語：目前，Auto-AI已經在多個數據集取得了不錯的測試結果。星環科技的Sophon研發團隊仍然在不斷改進和優化Auto-AI。相信Auto-AI組件的加入，猶如為Sophon人工智慧平台安裝上智慧大腦，必將給用戶帶來更加智能化的使用體驗，並幫助用戶從特徵工程和模型調參的困境中解放出來。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 智子AI 的精彩文章:

TAG:智子AI |