谷歌雲TPU服務正式全面開放:「AlphaGo背後的晶元」進入商用化
機器之心報道
機器之心編輯部
剛剛,谷歌雲博客宣布:谷歌雲 TPU 機器學習加速器測試版已向外部用戶開放,價格大約為每雲 TPU 每小時 6.50 美元,而且數量有限。此舉意味著這種曾支持了著名 AI 圍棋程序 AlphaGo 的強大晶元將很快成為各家科技公司開展人工智慧業務的強大資源。
2016 年 5 月,谷歌向世人發布了一款特別的機器學習專屬晶元:張量處理器(Tensor Processing Unit,TPU),去年又推出了它的第二代產品(Cloud TPU)。這是一種被認為比 CPU 、甚至 GPU 更加高效的機器學習專用晶元。作為科技巨頭的谷歌早已把這種高度定製化產品應用在了自己的伺服器中,而本周一,谷歌宣布其他公司馬上也將可以享受新型晶元帶來的計算服務了。
雖然新一代 TPU 的適應性如何還有待觀察,但是較之於單純的機器學習任務加速的功能而言,TPU 確實頗具實力。據谷歌稱,第一代 TPU 僅能夠處理推理任務,而第二代 TPU 還可以用於機器學習模型的訓練,這個機器學習過程中重要的一部分完全可在單塊、強大的晶元上進行。在 2017 年 4 月,谷歌曾通過一篇論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》介紹了 TPU 研究的相關技術以及第二代晶元與其它類似硬體的性能比較結果(參見:谷歌發布 TPU 研究論文,神經網路專用處理器是怎樣煉成的?)。
TPU 可以幫助谷歌的各類機器學習應用進行快速預測,並使產品迅速對用戶需求做出回應。谷歌稱,TPU 已運行在每一次搜索中;TPU 支持作為谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)和谷歌雲視覺 API(Google Cloud Vision API)等產品的基礎的精確視覺模型;TPU 也幫助了谷歌神經翻譯質量的提升;而其強大的計算能力也在 DeepMind AlphaGo 對陣李世乭的重要勝利中發揮了作用——這是計算機首次在古老的圍棋比賽中戰勝人類世界冠軍。
谷歌本周一的「Beta 測試」公告也宣示著這家現代科技企業正在改變自己的運營理念——它已開始涉及人工智慧專屬晶元的解決方案,這是一個包含數十家創業公司,以及英特爾、高通和英偉達這樣的傳統硬體廠商的重要市場。隨著時代的發展,谷歌、亞馬遜和微軟已不再是純粹的互聯網企業,它們都已或多或少地開始扮演起硬體製造者的角色。
在此之前,谷歌其實也並不是 TPU 的唯一使用者,美國出行服務公司 Lyft 在去年底開始參與了谷歌新型晶元的測試。Lyft 希望通過使用 TPU 加速自動駕駛汽車系統的開發速度:TPU 在計算機視覺模型的訓練速度上具有優勢,可將原先耗時數日的任務縮短至幾小時內完成。
谷歌在其雲平台博客上宣布了 TPU 服務開放的消息:
通過谷歌雲平台(GCP)提供的 Cloud TPU beta 版自 2018 年 2 月 12 日起可用,其旨在幫助機器學習專家更快地訓練和運行 ML 模型。
Cloud TPU 是谷歌設計的一種硬體加速器,旨在優化以加速和擴大使用 TensorFlow 編程的機器學習工作負載。Cloud TPU 使用四個定製化 ASIC 構建,單個 Cloud TPU 的計算能力達到 180 萬億次浮點運算,具備 64 GB 的高帶寬內存。這些板卡可單獨使用也可通過超快的專門網路聯合使用以構建數千萬億次級別的機器學習超級計算機,我們稱之為「TPU pod」。今年稍後,我們將在 GCP 上提供更大型的超級計算機。
我們設計 Cloud TPU 的目的是為 TensorFlow 工作負載提供差異化的性能,使 ML 工程師和研究者實現更快迭代。例如:
你們無需費力等待調度共享計算機集群,通過谷歌計算引擎 VM,就可以獨立獲取互動式的網路聯結 Cloud TPU。
無需花費數日或數周等待商用級機器學習模型,你可以在一系列 Cloud TPU 上訓練同樣模型的不同變體,而且第二天就可以將準確率最高的訓練模型部署到生產過程。
使用單個 Cloud TPU,並遵循該教程(https://cloud.google.com/tpu/docs/tutorials/resnet),你可以在不到一天的時間內,訓練 ResNet-50 使其在 ImageNet 基準挑戰上達到期望的準確率。
讓機器學習模型訓練更容易
傳統上,編寫自定義 ASIC 和超級計算機的程序需要極高的專業度。而對於 Cloud TPU 而言,你可以使用高級 TensorFlow API 進行編程,我們開源了一系列參考高性能 Cloud TPU 模型實現,幫助大家立刻上手:
ResNet-50(https://cloud.google.com/tpu/docs/tutorials/resnet)和其他常用的圖像分類模型(https://github.com/tensorflow/tpu/tree/master/models/official)。
用於機器翻譯和語言建模的Transformer(https://cloud.google.com/tpu/docs/tutorials/transformer (https://research.googleblog.com/2017/08/transformer-novel-neural-network.html))
用於目標檢測的 RetinaNet(https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md)
為了節約大家的時間和精力,我們持續測試這些模型實現的性能和在標準數據集上收斂至期望準確率的情況。
以後,我們還將開源其他模型實現。喜愛冒險的機器學習專家可以使用我們提供的文檔(https://cloud.google.com/tpu/docs/)和工具(https://cloud.google.com/tpu/docs/cloud-tpu-tools)利用 Cloud TPU 自己優化其他 TensorFlow 模型。
現在開始使用 Cloud TPU,今年稍後我們宣布 TPU pod 時,你們將從時間-準確率的大幅改進中受益良多。正如我們在 NIPS 2017 上宣布的那樣,在完整的 TPU pod 上,ResNet-50 和 Transformer 的訓練時間從大半天降到不到 30 分鐘,而且無需改變任何代碼。
可擴展的機器學習平台
雲 TPU 同樣簡化了對機器學習計算資源的規劃和管理:
你可以為自己的團隊提供頂尖的機器學習加速,隨著需求的變化動態調整自己的容量;
相比於花費資金、時間和專業人才來設計、安裝、維護一個實地的機器學習計算群(它還需要專門化的供能、冷卻、網路和存儲),你可以從谷歌多年以來優化過的大規模、高集成的機器學習基礎設施受益;
不需要花費努力保證驅動對各種工作站和伺服器保持更新升級,雲 TPU 做了不需要驅動安裝的預配置;
受谷歌雲服務提供的同樣複雜的安全機制和實踐的保護。
在谷歌雲,我們還想為客戶的每個機器學習負載提供最好的雲。伴隨谷歌雲 TPU,我們也會提供大量的高性能 CPU(包括英特爾 Skylake)和 GPU(包括英偉達的 Tesla V100)。
開始使用雲 TPU
雲 TPU 如今在數量受限的情況下可用,價格以秒計費,大約為每雲 TPU 每小時 6.50 美元。
註冊地址:https://services.google.com/fb/forms/cloud-tpu-beta-request/
本文為機器之心報道,轉載請聯繫本公眾號獲得授權。
------------------------------------------------
※智能零售來了!Amazon Go無人商店周一正式對公眾開放
※深度學習即將非法?歐盟《一般數據保護條例》五月生效
TAG:機器之心 |