H2O.ai 無人驅動的機器學習工具
H20.ai無人驅動的人工智慧工具,真的能夠在不需要用戶具有專業的機器學習知識,就可以創造和訓練良好的機器學習模型。
機器學習,尤其是深度學習,已經被證明是非常有用,但對計算機硬體有難以置信的要求。高端gpgpu(通用圖形處理單元)、fpga(現場可編程門陣列)和自定義晶元(如谷歌的張量處理單元(TPU))的出現並不是偶然,也不是隨著雲服務出現。
但是找到合適人手,有困難嗎?是的,缺乏合格的數據科學家和機器學習程序員。是否真的缺乏合適的人,取決於典型的企業招聘流程是否適合於數據科學家和開發人員。我認為,招聘程序在大多數組織中都存在嚴重缺陷。
如果公司能夠聯合領域內專家、統計學家、SQL程序員和機器學習程序員,而不是試圖找到擁有博士學位和20年經驗的數據科學家,他們將能夠工作。此外,如果他們使用了諸如H2O.ai之類的無人驅動的人工智慧工具,將使機器學習過程中有很大一部分能夠自動化,可以使這些團隊更有效率。
正如我們所見,無人驅動的人工智慧是一種自動化的機器學習系統,它能夠在短時間內創造和訓練出驚人的好模型,而不需要數據科學專業知識。然而,儘管無人驅動人工智慧降低了機器學習、特徵工程和所需的統計知識水平,但它並沒有消除理解數據和應用的統計和機器學習演算法的需求。
彌合數據科學技能的差距
在分析數據之前,無論是機器學習、深度學習還是統計模型,您都需要清理和準備。在模型構建過程中,您需要做特徵工程,在此過程中,您將創建與目標結果關聯更大的新欄位,這些欄位通常在進行奇異值分解(SVD)或聚類分析之後。所有這些都很乏味。構建深層神經網路模型層,並對其超參數進行調優,也是一種繁瑣的勞動密集型的工作,它涉及到高強度的、處理器密集型的、內存密集的每一個模型的訓練步驟。
在過去的一年裡,至少有六次嘗試自動化機器學習。其中包括Auto-sklearn, Auto-Weka, Prodigy, Google AutoML, Google Vizier, 和H2O.ai無人驅動人工智慧。H2O.ai是無人驅動人工智慧的開源深度學習包,它也有一個自動模塊,它專註於不同演算法的超參數優化,並為一個問題找到最好的組合或集成,但不做任何特徵工程。
除了創造和優化模型所需要的技術工人的問題之外,沒有人真正理解機器學習系統所創造的預測模型,這些模型通常是非線性的、非單調的、非連續的,儘管它們比統計模型更精確。在過去的幾年裡,有很多試圖接近和注釋機器學習預測並解決「黑盒問題」的嘗試。其中一些已經被納入無人驅動的人工智慧。
黑盒問題在金融、醫藥等監管應用領域尤為重要。告訴貸款申請人「系統說不」是不夠的。你還得解釋為什麼它說不,例如「你的收入太低,你申請的貸款金額太低」或者「你錯過了太多的還款」。
H2O.ai無人驅動人工智慧為該公司的開源軟體棧添加了專有的自動特徵工程和可視化模型解釋。
無人驅動人工智慧是一個專有的web產品(見上面的架構圖),它構建在開源的H2O.ai stack(見下圖)之上,目標是模仿Kaggle大師們創建偉大模型的過程。底層的水。H2O.ai堆棧也可以預先構建為JAR文件、Python和一個R語言包。
H2O.ai堆棧包括廣泛的機器學習和深度學習演算法,並可以與Apache Hadoop和Apache Spark集成。
Kaggle是一個數據科學的網站,提供標準的數據集,並運行競賽來分析它們。有些比賽是贊助的,並提供大量的獎品。(目前正在進行的TSA乘客篩選演算法挑戰賽的第一名是50萬美元。是的,很大。)Kaggle還為數據科學提供教程和在線環境。每個挑戰都有一個排行榜,所有的Kaggle用戶都根據他們的貢獻進行排名。在Kaggle的排名中,目前有95位大師和890位大師。當然,這些排名只反映了競爭對手的人數和團隊。我確信有成千上萬的大師級和高級數據科學家在為公司默默工作,沒有時間去和Kaggle競爭。
我分析了Kaggle上的兩個數據集與無人驅動AI: BNP Parabas(法國巴黎銀行),競爭運行兩年前預測是否合格進行加速處理保險索賠,和默認的信用卡客戶數據集,一個UCI數據集,可以用來預測是否可能拖欠貸款客戶他或她的下一個付款。我使用無人驅動的AI 1.0.4和1.0.5(用於bug修復)安裝在AWS p2.8 xlarge實例上,該實例擁有8個Nvidia K80 gpu。
H2O.ai無人驅動人工智慧安裝和配置
選擇在Amazon EC2實例安裝H2O.ai無人驅動人工智慧,使安裝變得簡單。在任何其他支持的雲或本地機器上,基本上安裝Docker、Nvidia - Docker和Nvidia驅動程序,添加標準目錄,下載並安裝無人驅動的AI Docker容器,並添加您的許可。當運行時,無人驅動的AI容器在12345埠上暴露一個web埠,您可以從一個Chrome瀏覽器查看。默認的測試結果見下圖。
默認的H2O.ai視圖,人工智慧工作空間展示了您的測試,並提供了鏈接,以可視化您的數據集和創建新的測試,您可以在添加測試時添加數據集。
在Ubuntu上,GPU支持使用Nvidia - Docker程序和Nvidia驅動程序將無人驅動的AI Docker容器連接到Nvidia GPU。無人驅動人工智慧可以使用多個gpu和多個cpu。
無人驅動人工智慧支持開普勒、Maxwell、Pascal和Volta GPU微架構。它在開普勒K80 gpu上運行良好,這是AWS P2實例中提供的類型,並被歸類為具有3.7的計算能力。無人驅動人工智慧不支持老特斯拉和費米微架構。
您通常使用scp複製數據到託管的虛擬機的數據目錄中,假設您正在雲中運行無人驅動的人工智慧。在導入時,容器被配置為使用該目錄作為其預設值。
雖然你可以在本地的MacOS或Windows 10機器上安裝無人驅動的人工智慧容器,但你需要使用至少16GB內存的機器,並將至少8GB的RAM給Docker。您將能夠對這些配置進行實驗,但是由於缺少RAM和缺少GPU支持,您將無法使用它進行嚴肅的工作。
H2O.ai無人驅動人工智慧的機器學習
為了運行一個實驗,在12345埠上登錄你的無人驅動AI伺服器。點擊新的實驗按鈕,選擇一個訓練數據集,你會看到一個像下圖所示的截圖。下面有設置的一些解釋。
在您選擇一個實驗數據集之後,您可以選擇目標列,刪除列,選擇測試數據集,並調整實驗設置。在上面的截圖中,我還沒有選擇測試數據集。
精度設置控制影響其他幾個參數:最大的行數,整體水平,是否嘗試轉換目標,是否要調整的參,XGBoost模型,有多少個人使用遺傳演算法,在每個模型中交叉驗證摺疊使用多少,以及是否進行特徵選擇排列。時間設置控制著epochs的運行數量。解釋性設置控制是否為解釋顯示使用特徵選擇策略。我對所有三個控制項使用默認設置5。
上面的截圖顯示了H2O無人驅動人工智慧在巴黎銀行的訓練數據上做了一個實驗,這個實驗已經完成了百分之九十二。請注意在左下角所示的最大AUC(曲線下的面積)分數的變化。還注意到GPU使用的bursty模式,在較低的右下角對每個時代進行訓練,以及在較低的中間面板中進行工程化的特徵名稱。
當你啟動一個實驗的時候,無人驅動人工智慧開始了功能工程的過程,它涉及到快速的訓練和大量的模型,同時將轉換應用到數據領域,以創造具有更好預測能力的新特性。具體應用什麼轉換取決於數據類型。
文本欄位可以生成tf-idf(術語,頻率-逆文檔頻率)和單詞計數特性。數字欄位可以通過binning轉換為分類值,而分類值(例如紐約州的平均房價)欄位的平均值可以通過交叉驗證來實現。多個維度可能集群化,單個行與最近的集群中心之間的距離可能成為一個新特性。
法國巴黎銀行的實驗是完整的,在50個時代之後,顯示了一個AUC(曲線下的區域)的分數為0.7636。這個完整的實驗有八個額外的動作,包括解釋,評分另一個數據集,下載各種生成的數據和一個計分包。
在所有的epochs被評估後,無人驅動人工智慧運行一個完整的訓練,預測生成和最終的功能集,並顯示自己是完整的。在這一點上,您可以查看模型解釋,這需要進行更多的計算,然後查看解釋。
全球可解釋模型解釋圖比較了深度學習模型預測、近似k灰度模型預測和實際目標。您可以選擇單個數據點來顯示它們的參數。
模型解釋頁面包括一個全局解釋性模型解釋圖、一個變數重要性條形圖、決策樹代理模型、部分依賴和個體條件期望圖。所有這些都有助於生成精確模型的近似解釋,使用k灰度技術。這裡的基本情況是,無人駕駛人工智慧運行一個k-means分析來生成集群,並將全球和集群局部通用線性模型與無人駕駛人工智慧模型預測相適應。本地模型用於解釋在足夠大的集群中的行,而全局模型用於解釋大型集群之外的行。
這個屏幕顯示集群0和全球原因代碼為信用卡支付違約數據集的分析。在這裡,我們看到的三大支付值關聯到一個更高的違約概率和相關的前三個違約的概率較低。這些貢獻是相似的,但不完全相同,因為集群0是灰度和全球模型。
如果您查看解釋,您可以看到對全局解釋器模型的主要貢獻者和單個集群的模型的變數。使用Plot下拉菜單選擇要查看的集群。
無人驅動人工智慧可以為任何實驗生成一個可下載的Python評分包,可以在TCP或HTTP模式下運行。您需要Ubuntu 16.04或更高版本,Python 3.6,以及一堆Python模塊來運行計分包。
H2O無人驅動人工智慧可視化頁面展示了對培訓或測試數據集自動生成的繪圖和圖形的概述。這個截圖是用於信用卡默認訓練數據的。你可以點擊任何一個圖來查看它的大小,下載它,並看到它的任何其他的情節。
如果您點擊一個數據集,您可以看到該數據集的關鍵可視化,如上所示。如果你點擊任何一個可視化,你可以看到它的大小並下載它。如果給定類別中有附加的圖,例如biplots,您可以在其中導航。
除了通過它的web UI控制無人驅動人工智慧,您還可以使用h2oai_client輪編寫Python客戶端程序。
H2O.ai 無人驅動人工智慧 AI 1.0.5概覽
H2O.ai的無人驅動人工智慧是一個自動驅動的機器學習系統,它也有特徵工程和注釋,大大減少了生產好的模型所需要的時間和精力。
優點
無人驅動人工智慧能夠在不需要用戶專業知識的情況下創造和訓練好模型
與Nvidia gpu(K80及以上)的良好集成
近似線性模型有助於解釋決策中的重要因素
快速生成和評估多個模型
為培訓模式生成和導出預測途徑
缺點
雖然H2O.ai人工智慧平台是開源的,但是無人驅動人工智慧部分是專有的
無人驅動人工智慧背後的概念需要強大的統計數據和機器學習背景
訓練有素的數據科學家很可能比業務分析師更能在無人驅動的人工智慧上做得更多
評估自動化機器學習
總的來說,無人駕駛人工智慧令人印象深刻,事實上,我很驚訝它運行得如此之好。該公司表示,為系統提供演算法的Kaggle大師們也感到驚訝。特徵工程和模特培訓通常需要幾周的時間才能得到一個好的答案。無人驅動的人工智慧通常可以在幾分鐘或幾小時內得到一個好的答案。
H2O.ai聲稱無人驅動的人工智慧給你帶來了一個裝在盒子里的Kaggle大師智慧。嗯,有點。它帶給你的方法Kaggle大師,但有人在你的組織需要了解一些關於你在做什麼,或者你不能讓無人驅動AI離開你的決定,比如列下降,精度和時間選擇,什麼和評分演算法來選擇。
如果沒有一些統計背景,特徵工程、k-means集群和廣義線性模型的討論聽起來都像「單詞沙拉」,而可視化也不會刺激你說「嗯,這兩個變數都是高度相關的」,我想知道如果我放棄一個模型,模型會不會更好。
據我所知,無人驅動人工智慧是目前唯一一種支持自動驅動的機器學習系統,它也同時具有工程和注釋功能。不過,我不認為這種情況會持續一年多。競爭很激烈,其中一些可能會作為開放源碼發布,或者作為服務提供。
與此同時,無人驅動人工智慧每年的售價為75K美元,並不便宜。然而,如果它被多個數據分析師使用,並且您的公司有許多分類或回歸問題,影響您的底線的六位數或七位數的方法,這可能是值得的。
費用情況:每年$ 75K / GPU,有4個和8個GPU配置的折扣。對於那些沒有gpu的人來說,CPU價格是同樣的。
平台:Ubuntu、RHEL、MacOS、Windows,或IBM Power;on或任何雲,Chrome瀏覽器。Ubuntu 16.04支,持最新Nvidia gpu(K80或更高版本)。
※哪些蘋果用戶還會購買下一代產品?讓機器學習帶你精準定位
※Gary Marcus再發萬字長文,列14個Q&A回應機器學習批判言論
TAG:機器學習 |