AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlueAI技術分享
雷鋒網 AI 科技評論按,近日,IEEE ISI 2019 國際大數據分析競賽結果出爐,今年的競賽包括企業投資價值評估和法律訴訟類型預測兩個賽題,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊分別取得了一項冠軍和一項季軍的優異成績,本文作者羅志鵬(深蘭科技北京 AI 研發中心),他為雷鋒網 AI 科技評論獨家撰寫了該團隊在企業投資價值評估賽題中的演算法思路與技術細節分享。
背景介紹
IEEE 年度國際會議是安全信息學領域的旗艦會議,於 2003 年首次在美國亞利桑那州圖森市召開。在過去的 16 年中,IEEE ISI 會議已經從傳統的智能和安全領域發展到多領域聯合研究與創新。今年,第 17 屆 IEEE ISI 會議在中國深圳於 7 月 1 日至 3 日由深圳人工智慧與數據科學研究所主辦。
為了促進人工智慧分析行業的發展,並為學術交流和技術討論提供一個平台,IEEE ISI 會議發起了此次國際大數據分析競賽 (IEEE ISI 2019 年世界盃,IWC 2019)。本競賽面向全球高校、研究機構、企業、政府開放。共有來自中國、美國、巴基斯坦、伊拉克、英國、德國、挪威 7 個國家,來自華為、京東、滴滴等知名企業,以及來自清華大學、北京大學、浙江大學等知名高校的三百餘支隊伍參賽,參賽總人數逾千人。
團隊成績
在企業投資價值評估賽題中 DeepBlueAI 團隊以較大領先優勢獲得冠軍,排名如下:
圖 1 最終排行榜
賽題介紹
本次比賽提供了基於 3500 家上市公司全量信息,描述公司在財務、法務、股權、經營狀況、輿論等方面的屬性特徵,包含企業的工商信息、年報、財務信息、納稅信息、股權信息、法務信息、知識產權信息、經營信息、購地信息等數據(以實際發布的數據集為準)。這些數據來自於官方統計平台,數據真實可信。每一家企業對應一個類目 ID。參賽選手需要合理運用現有數據集材料,篩選出對競賽有價值的信息進行特徵構建和模型訓練。
本次會議共有兩個賽題:
賽題 1 企業投資價值評估
參賽者可參照企業的年報、財務信息、經營信息、資產信息、稅務信息,知識產權等企業綜合信息對企業投資情況進行打分,為投資者提供投資依據。
賽題 2 法律訴訟類型預測
參賽者可根據企業的法院公告、裁判文書、動產抵押、司法凍結、行政處罰、欠稅信息、開庭公告等法務信息預測企業未來一段時間可能收到的法律訴訟類型,為企業規避法律風險。
本文接下來分享賽題 1 的思路與技術細節。
評測指標
使用均方根誤差 RMSE 作為本次競賽的主要性能指標。返回結果越小代表模型性能越好。比賽成績以參賽團隊提交的測試集結果為準,此部分佔總成績 90%。同時會根據代碼的魯棒性、可擴展性、可讀性為演算法模型打分,此部分佔總成績 10%。比賽最終排名取決於以上兩部分成績總和。
題目特點以及主要工作
在這次比賽中,主要有以下難點:
數據維度廣
該賽題主辦方提供 37 張 xlsx 格式的數據表格,一共包括 304 列。
信息複雜
包括公司產品信息、工商基本信息、購地信息、海關進出口信息、年報信息、融資信息、商標信息、上市財務信息、專利信息、招標信息等。
數據特徵類型豐富
包括字元串、數值型、類目型、時間等。
數據量小
訓練集僅有 3000 條。
對於這樣大量的欄位,如果直接採用人工去做特徵,一方面工作量巨大,另外一方面很多特徵也難以想到。故團隊成員基於以上難點,採用了自研的 AutoML 系統進行建模,該系統包括了自動數據清洗、自動特徵工程、自動特徵選擇、自動模型調參、自動模型融合等步驟,能極大的提高任務建模的效率,並且在此次競賽中也大大提升了效果。
自動化數據清洗
在通常的競賽中,我們的數據往往是比較乾淨的,要麼採集比較規範,要麼已經經過加工處理。這次競賽提供的數據是真實的工業界應用數據,含有大量的不規範欄位。比如時間列,就存在各種各樣的格式,比如存在年份縮寫、中文年月日、標記格式不統一(有時用「」,有時用「-」來分隔)等情況。
圖 2 原始數據展示
考慮這些數據情況,可能是由於數據錄入的時候,不同年代採用不同的格式,並且數據保留了原來的格式,從而造成了大量數據不規範的問題。另外數據中存在著大量的雜訊。而我們的自動化數據清洗模塊,對不同類型的數據使用不同的清洗方法,能夠有效地清洗不規範數據。
特徵工程
我們的特徵工程部分包含兩個階段:AutoML 自動特徵工程階段和業務特徵強化階段。
在 AutoML 自動特徵工程階段,將原始數據清洗成 AutoML 系統可處理的格式後,進行自動特徵生成,然後進行特徵選擇迭代。在特徵選擇階段我們採用 lightGBM 單模型。在自動特徵工程中,我們假設通用場景類型,選擇和本次任務契合的場景類型進行自動特徵工程,在每一輪特徵迭代過程中我們參考了上一輪特徵的重要性,在重要性高的特徵上面進行迭代更新。篩選出的特徵中比較重要的有:行業細類特徵、資歷、年報等。具體地,原始特徵包含了數值類型,分類類型,時間類型以及文本類型。我們對數值類型和類目特徵生成了基本統計特徵,以及數值和分類的聚合特徵。對時間類型,提取了周期性特徵。對文本特徵,採用 TF-IDF、LDA 方法提取特徵。同時我們也提取重要特徵進行高階組合,從而避免了指數級的特徵組合,並且能挖掘三階甚至四階不同類型的特徵組合,有效地提升模型性能。
圖 3 AutoML 自動特徵工程
在自動特徵階段生成的全部特徵累計有 7000 多列,自動特徵選擇採用遞減的方式,在業務特徵強化階段,我們通過深入思考業務的邏輯,結合已有特徵的重要性,挖掘出業務中我們認為應該考慮進去的信息,然後構造出能反應這些信息的特徵。
在自動特徵工程階段,我們發現專利和資質認證兩個信息對模型效果提升較大。這很符合我們的直覺,在對企業價值評分時,專利的數量、種類等信息無疑是非常重要的。
首先是針對專利信息,我們挖掘了公司的專利在時間線上的活躍度,公司在該專利領域的實力。我們猜測在長期專利數量較多或者存在上升趨勢的企業投資價值評分應該更高。根據實際專利的申請審核流程,提交申請到出審核結果的時間長度,我們提取了企業在最近 1、3、6、12、24 個月的專利數量以及專利數量較多的種類。其次我們挖掘了每個城市每個行業的企業競爭力,用城市中各個行業的公司數量以及他們之間的相對特徵來表現。我們猜測公司地址在其行業密集度較高的城市具有更強的競爭意識和競爭氛圍,成長性較高,可能會得到較高的投資價值評分。之後我們挖掘了公司的認證資格競爭力信息,在行業內理論上應該是資歷認證更完善的公司實力更強,風險更小,我們通過構造公司在資歷全集中的完善度特徵來反映這個信息。
模型融合
圖 4 模型集成
為了增強最終結果的穩定性,我們採用 Stacking+Bagging 的方式進行模型融合。融合的主體方法是 Stacking, 第一層我們採用過的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTrees Regressor。每個模型採用交叉驗證的方式進行線下驗證。
圖 5 模型結果
在 Stacking 的第二層中我們採用了基於約束的線性模型,在實驗中發現效果好於其他線性和非線性模型。
在 Bagging 中我們使用不同 seed 以及隨機微調了一些參數分別生成 10 個 LightGBM 和 10 個 XGBoost 模型。最後將 Stacking 的結果與 Bagging 結果進行簡單線性加權融合作為最終預測結果。在這次競賽中模型融合提升並不是很大,從榜單來看我們的單模型結果就能獲得冠軍,因此 AutoML 自動特徵工程部分是我們制勝的關鍵。
圖 6 模型融合
工作總結
在此次競賽中,我們的主要工作包括:
對於相似的數據創建了一鍵清洗系統,這套系統可以自動計算來轉化貨幣格式、使用強規則收集時間戳和時間增量以及根據數據分布自動填寫缺失值。
選擇使用 AutoML 自動特徵工程和自動特徵選擇。對於多維度,多欄位的表單數據,AutoML 可以極大的提升開發效率和模型效果。
設計了一些針對業務場景的特徵。
構建了多種不同類型模型的集成,使得集成之後的效果有所提升,也增加了結果穩定性。
進一步工作
此次競賽主辦方提供的數據量比較小,可以收集多年的數據根據滑窗的方式獲取更多的訓練數據。
影響企業投資價值的因素多,可能需要更多公司動態信息,例如人員流動信息和招聘信息等,這些信息可能有助於提升預測效果。
※Palo Alto Networks 高管:雲安全方案怎麼做,在中國怎麼賣
※收購Root Robotics,玩掃地機的iRobot要加註教育機器人
TAG:雷鋒網 |