當前位置:
首頁 > 最新 > 又來搶大數據飯碗?AWS發布SageMaker:省略數據清洗、建模、調參等步驟

又來搶大數據飯碗?AWS發布SageMaker:省略數據清洗、建模、調參等步驟

編輯 Natalie、Vincent

AI 前線導語:美國拉斯維加斯時間 2017 年 11 月 29 日上午,AWS CEO Andy Jassy 在一年一度的 AWS re:Invent 大會上發布了主題演講。在短短兩小時內,Andy 宣布了一系列令人興奮的新服務。其中最重要的包括一款售價 249 美元的、名為 DeepLens 的人工智慧攝像機;一套用於開放並部署機器學習演算法的 SageMaker 平台;外加實時視頻識別、文字翻譯等多項應用層服務。

更多乾貨內容請關注微信公眾號「AI 前線」(ID:ai-front)

據 AI 前線了解,作為全場最大亮點的 SageMaker 平台,真正做到了「默默秒殺全場」的強大功能:除了免去了開發者進行數據清洗、建模的麻煩事兒,甚至還可以把開發者最頭疼的調參優化交給機器處理。

顯而易見,亞馬遜公司希望各企業客戶能夠更好地運用人工智慧技術——當然最重要的是,使用由亞馬遜出售的人工智慧工具。

通過本次大會公布的這一整套人工智慧解決方案,亞馬遜方面已經明確表示,希望能夠乘這股人工智慧的繁盛東風進一步拓展收入規模。與此同時,這批聲明的發布也標誌著亞馬遜與同樣擁有自家 AI 企業解決方案的谷歌在這一領域成為了競爭對手。

Amazon SageMaker

正如本文開頭所說,這也許是本次 re:Invent 上發布的最大殺器,也可能是自各類開源機器學習框架流行以來在 AI 領域出現的最大殺器(如果使用體驗真的如 Andy Jassy 所描述的那樣好的話):普通開發者也想用機器學習來玩自己的數據,但是數據清洗、建模、各種試錯太難太花時間,把開發者都嚇跑了。SageMaker 的目標是,開發者只需要關心自己輸入什麼數據,自己想用什麼框架和什麼演算法,其他的各種參數調優什麼的臟活兒就讓機器自己用機器學習來做,一鍵直達式機器學習服務,開發者值得擁有。

讓我們來看看這個可能會讓大數據工程師「失業」的神器到底有何玄機?

Amazon SageMaker 是一項全託管端到端機器學習服務,可幫助數據科學家、開發人員以及機器學習專家快速構建、訓練並託管規模化機器學習模型。它的出現將顯著加速一切機器學習工作,同時幫助大家快速將機器學習元素添加至生產應用程序當中。SageMaker支持當前機器學習行業中最為流行的各類框架(包括谷歌 TensorFlow、Facebook Caffe2、Pytorch 以及 MXNet 等),且允許開發者從查找必要數據起步對其 AI 模型進行訓練,而後將成果發送給客戶——整個流程皆可在此程序內實現。

Amazon SageMaker 由以下三大主要部分組成:

  • 創作(Authoring):無需進行任何設置,使用 Jupyter Notebook IDE 就能進行數據探索、清潔與預處理。你可以在常規實例類型或 GPU 驅動型實例當中運行此類工作負載。

  • 模型訓練:一項分散式模型構建、訓練與驗證服務。你可以利用其中的內置常規監督與無監督學習演算法及框架,或者利用 Docker 容器創建屬於自己的訓練機制。其模型訓練規模可囊括數十個實例,以支持模型構建加速。訓練數據讀取自 S3,訓練後的模型成果亦可存放在 S3 存儲桶內。最終得出的模型結果為數據相關模型參數,而非模型當中進行推理的代碼。將關注點分開之後,開發人員能夠更輕鬆地將 Amazon SageMaker 訓練出的模型部署至其它平台(例如 IoT 設備)。

  • 模型託管:模型託管服務可配合 HTTP 端點以調用模型進行實時推理。這些端點可進行規模擴展,從而支持實際流量;開發人員也可以同時對多套模型進行 A/B 測試。此外,你也可以使用內置的 SDK 構建這些端點,或者選擇 Docker 鏡像提供自己的配置選項。

上述組成部分皆可獨立使用,這意味著 Amazon SageMaker 將能夠輕鬆填補現有流程中的空白環節。換句話來說,當開發人員以端到端方式使用該服務時,將能夠享受到由其提供的強大功能。

作為 AWS 免費項目的一部分,大家無需任何投入即可馬上開始使用 Amazon SageMaker。在前兩個月中,用戶每月可獲得 250 個小時的 t2.medium 記事本實例使用額度,50 個小時的 m4.xlarge 訓練用實例使用額度,外加 125 個小時的 m4.xlarge 託管用實例使用額度。在免費範圍之外,具體計費標準因實際服務區而定,但總體成本包含每秒實例使用、每 GB 存儲容量使用以及每 GB 數據傳入 / 傳出等因素。(小編註:大家可以先試用之後看看 Amazon SageMaker 是否真如 Jassy 所說的這麼智能。)

AWS 官方博客上對如何使用 SageMaker 提供了一份簡易指南,下面截取並翻譯了構建機器學習流程的部分,迫不及待的小夥伴們到官網查看完整的操作方法:https://aws.amazon.com/cn/blogs/aws/sagemaker/

SageMaker 使用指南

作為示例,這裡假定我們需要構建、訓練並部署一套基於 Apache MXNet 的圖像分類器。這裡我們使用 Gluon 語言、CIFAR-10 數據集,外加 ResNet V2 模型架構。

從 Jupyter Notebook 開始創作

在創建記事本實例時,其會啟動一個配備有 Anaconda 軟體包與常規深度學習庫、具有 5GB 機器學習存儲分卷,且包含多種示例記事本演算法顯示機制的機器學習計算實例。開發人員可以選擇配置其中的 VPC 支持能力,從而在自己的 VPC 內創建 ENI 以簡化並保護對資源的訪問。

在實例配置完成之後,我們就可以打開記事本並開始編寫代碼!

模型訓練

為了簡潔起見,我們在這裡忽略實際模型訓練代碼。不過對於任何 Amazon SageMaker 常規框架訓練工作,您都可以通過以下方式建立起一套簡單的訓練介面:

現在,我們已經構建起模型訓練任務,並可通過以下命令為其饋送數據:m.fit("s3://randall-likes-sagemaker/data/gluon-cifar10").

如果前往任務控制台,就會看到這項任務正在運行當中!

託管與實時推斷

現在我們的模型已經完成了訓練,並可用於進行實際預測!利用之前提到的代碼,這裡創建並啟動一個端點。

而後運行以下命令調用該端點:

就這麼簡單,只需要不足 100 行代碼,我們的端到端機器學習流程即構建完成。

AWS DeepLens

在今天於 AWS re: Invent 大會上發布的消息當中,DeepLens 攝像機可能是最吸引眼球的。與谷歌 Clips 類似,這同樣是一款帶有內置 AI 功能的攝像頭;但與 Clips 不同的是,DeepLens 專門面向開發者,而非消費者。這是全球首款面向開發者且可實現深度學習的無線視頻攝像頭。Andy Jassy 對它的定位是個「學習機」——可以手把手幫助開發者學習如何入門圖像識別 / 視頻識別

DeepLens 預裝大量 AI 工具,包括光學字元識別、圖像與物體識別等等。AWS 方面在一篇博文中解釋稱:「它能夠幫你檢測貓狗、人臉、家庭及日常環境下的各類物品、動作與行動等等。」

對於普通企業來說,DeepLens 則能夠幫助大家更快測試並開發基於視覺的新型 AI 功能。舉例來說,如果你正在運營倉庫並希望自動掃描貨品庫存,則可購置一些 DeepLens 攝像機以完成這項工作。在這之後,還可以使用亞馬遜提供的預訓練 AI 識別基本物品,或者訓練自有模型並將其載入至攝像頭當中。每款 DeepLens 都配有一塊英特爾凌動處理器,能夠採集 1080p 視頻與音頻。為了實現連接與數據導出,DeepLens 還設有 Wi-Fi、USB 以及迷你 HDMI 介面。

如大家所預期,DeepLens 將與 AWS 推出的其它雲及 AI 服務進行緊密集成。正如蘋果公司努力將客戶同其生態系統綁定起來一樣,亞馬遜也希望開發者們能夠將其所有 AI 工具放到同一個平台上。

目前 DeepLens 已經在 Amazon.com 上預售,價格 249 美元,2018 年 4 月發貨。

更多教程和介紹見:

https://aws.amazon.com/cn/blogs/ai/customize-and-display-aws-deeplens-project-output-on-your-laptop/

https://aws.amazon.com/cn/blogs/ai/extend-aws-deeplens-to-send-sms-notifications-with-aws-lambda/

其他應用層新服務

除了以上兩項大殺器,Andy Jassy 也發布了一系列應用層的新服務。

  • Rekognition Video:繼去年發布的 Rekognition 圖像識別服務之後,本次又發布了視頻識別服務,可以做人物跟蹤一類的任務並實時得出分析結果,相關消息在 re:Invent 大會前已經發布,詳見 AI 前線之前的報道。

  • Amazon Kinesis Video Streams:幫助用戶把來自不同設備、不同制式的視頻流上傳雲端的一項服務。

  • Amazon Transcribe:音頻轉文字服務,目前支持英語和西班牙語。

  • Amazon Translate:翻譯服務。

  • Amazon Comprehend:自然語言識別服務。

這一切究竟意味著什麼?首先幾乎可以肯定的是,這意味著 AWS 這一已然成為亞馬遜營收主體的業務支柱未來還將幫助其賺取更多資金。AWS 這家子公司已經成為全球伺服器容器銷售領域的領導者,如果人工智慧工具的市場需求持續增長,那麼其必將在這一層面有所建樹。憑藉著 Alexa 這類產品,亞馬遜公司已經證明其能夠構建 AI 產品,並打算將其智能方案銷售給其它企業。

上個季度,AWS 營收與 2016 年同期相比增長了 42%,本季度營收為 45.8 億美元,遠超分析師們的預期。(不過這一增長率同上個季度持平,這意味著其爆炸性的增長速度可能正在放緩。)而在被問及 AWS 最終是否可能成為全球規模最大的企業級科技公司並擊敗甲骨文時,CEO Andy Jassy 在今天發布公告前接受 CNBC 採訪時表示,「也是有可能的。」

參考資料來源:

https://aws.amazon.com/cn/blogs/aws/sagemaker/

今日薦文


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI漫遊 的精彩文章:

什麼是AI資料庫,為什麼它值得我們關注

TAG:AI漫遊 |