柯潔中盤再敗!谷歌乘AlphaGo之勢強推TPU,與英偉達必有一戰
新智元報道
柯潔又輸了,與AlphaGo的對決比分被改寫為0:2 !
AlphaGo變得更強大了,此前DeepMind和谷歌團隊在新聞發布會上說,。除了演算法上的改進之外,他們也特彆強調了谷歌雲和 TPU(向量處理單元)等計算資源上的改進對 AlphaGo 的巨大提升作用。「對戰柯潔的AlphaGo Master使用更加有效的演算法,所需的計算量是AlphaGo的1/10。AlphaGo Master使用谷歌雲提供的4塊TPU單機,你可以把它當做是一台計算機。」 TPU 可謂是「阿老師」背後的秘密武器。
TPU 是谷歌特別設計用於神經網路計算的晶元。 谷歌在年度 Google I / O 大會推出了 TensorFlow Processing Unit(張量處理單元,TPU)的第2代以及 Cloud TPU。一時間引起業界熱議。
與谷歌的第一代 TPU ASIC (專用集成電路)不同,Cloud TPU 被設計用來支持 AI 的神經網路訓練或推理的使用。第二代 TPU 晶元為機器學習提供每秒45萬億次浮點運算(約相當於 16位 TFLOPS),大約是英偉達P100(20 TFLOPS)或AMD即將推出的 Vega GPU(25 TFLOPS)的兩倍。不過,它還不夠英偉達新推出的 Volta 晶元快。Cloud TPU 封裝在一個4晶元的模塊上,具有把這些強大的處理器連接起來的結構,可以實現非常高的處理性能。這種 scaling 的功能很重要,因為這樣的話可以利用幾乎是無限的加速器供應來訓練神經網路。
巧合還是針鋒相對:谷歌與英偉達必有一戰?
TPU 在機器學習中的表現似乎優於英偉達的 Tesla Volta GPU。新版本的TPU發布時,距離英偉達推出 Tesla Volta GPU 還不到一周的時間。
四晶元的 Cloud TPU 能夠提供 180 TFLOPS 的浮點運算速度,用 32 個互相連接的板組成一個 「TPU Pod」,峰值性能可達 11.5 petaflops——實際上是單個機架上的一個大型超級計算機。
谷歌還宣布推出 TensorFlow Research Cloud,這是一個包含 1000 TPU (4000 Cloud TPU 晶元)的超級計算機,提供180 PetaFlops(約16位FLOP)的計算能力,將免費提供給合格的研究團隊。雖然這與英偉達的 Saturn V 超級計算機的概念相似,但規模更大。此外,谷歌的超級計算機的設計僅支持谷歌自己的開源 TensorFlow 機器學習框架和生態系統,而 Saturn V 可適用於所有類型的軟體。
可以看到,相對英偉達的GPU,谷歌有了TPU,相對英偉達的 Saturn V 超級計算機,谷歌有了TensorFlow Research Cloud。谷歌似乎在步步緊逼近年來上升勢頭的英偉達。
顯然,因為有大量機器學習的需求,谷歌一直是英偉達GPU的一個非常大的(也許是最大的)客戶。當前幾乎所有的谷歌和其它人的神經網路訓練都是用的英偉達GPU。但英偉達並沒有故步自封。就在不久前,英偉達宣布即將推出的基於Volta的Tesla V100 GPU,其中的創新還包括一種新型處理器內核,能夠提供高達120TFLOPS的超強運算性能,比單個 Cloud TPU晶元高2.6倍。Tesla V100 非常強大,也因此非常昂貴,它的面積為815 平方毫米,內置210億個晶體管,比Pascal P100大33%。
事實上,英偉達 CEO黃仁勛在GTC主題演講中表示,Volta是迄今為止最大,也是最複雜的晶元。但Volta必須做得很大:它不僅僅是一個深度學習 ASIC,它支持用於科學應用的32位和64位浮點數以及大規模超級計算機所需的錯誤糾正內存。IBM和英偉達贏得了如今三大DOE超級計算機合同中的兩個,其中很大一部分是因為Volta晶元。Volta晶元可以說肯定是世界上最快的圖形晶元。這些特點正是ASIC能夠超越GPU的原因。
所以,谷歌Cloud TPU會對英偉達產生影響,但至少在短期內,由於以上討論到的限制,影響的量級可能會比您想像的要低。Cloud TPU只能在谷歌和谷歌雲的計算引擎內部使用。而且只能在使用TensorFlow的項目中使用,甚至只有在公共雲基礎設施中運行應用程序的項目才能有安全性、業務和監管方面的意義,因為谷歌對於做給其競爭對手的商業晶元供應商並不感興趣。英偉達公司的機器學習GPU的佔有率為20%,該業務每年增長近3倍(最近一個季度為186%),因此其它方面的增長將有助抵消谷歌這邊的損失。
即使TPU被引入到其他機器學習ASIC晶元,也無法抵消Google TPU的自身限制。這就是英偉達自己的「類似TPU的」深度學習加速器(DLA)可能發揮作用的地方。 正如此前文章中所討論的,英偉達已經宣布將開源下一代自主駕駛SOC(代號為「Xavier」)的加速技術。英偉達的舉措意味著,如果ASIC在其他應用程序和其他客戶中變得更加普及和引人注目,英偉達可以應對ASIC可能帶來的任何競爭威脅。英偉達可以將技術生態系統擴展到公司的直接市場以外。
但是,雙方的競爭是實實在在的,刀光劍影在也在暗中湧現。就在谷歌在烏鎮峰會上大秀TPU的優越性能的當天。被譽為「坐上了火箭」的英偉達股價出現了罕見的下跌。隨後,根據彭博社報道,5月25日軟銀集團公司悄悄收購了英偉達公司40億美元(4.9%)的股份,成為該圖形晶元製造商的第四大股東,英偉達股價開始恢復上漲。
國外媒體評論認為,TPU 推出後,應該感到憂慮的另一家公司是英特爾。在GPU的衝擊下,英特爾已經十分落後,它沒有跟上快速增長的 GPGPU (GPU上的通用計算)市場,這個市場上機器學習是重要的一塊。
總體上看,會有更多機器學習應用轉移到雲端。在一些情況下,在雲中租用 GPU 集群已經比在本地供應成本要低。英偉達 Volta GPU 和谷歌 Cloud TPU 的出現只會讓這個差價越來越大。谷歌也清楚,增加在這個市場上的份額的關鍵是在自己的晶元上運行更多領先的軟體,所以它拋出了TensorFlow Research Cloud 計劃,為願意分享自己工作成果的研究人員免費提供1000個Cloud TPU。
TPU 本身的局限明顯,谷歌還會尋求合作
Cloud TPU 對機器學習行業的第一個戰略意義在於,谷歌已經證明,ASIC 能夠提供驚人的 ML 性能。谷歌正在將這項技術推廣到外部以加速行業的發展。ML 行業對運算性能十分饑渴,而這款晶元不但非常快速,而且可擴展。即將推出的其他 ML ASIC (包括英特爾的 Nervana Engine,Wave Computing的數據流處理單元,英偉達 的 DLA 等等),也可看到 ASIC 的潛力。本質上,谷歌造的是一個非常出色的晶元,將所有邏輯都集中在神經網路的訓練和處理底下的數學。通過一個定製的結構將數千個這樣的晶元連接在一起,谷歌可以使用並提供超級計算機級別的性能,而成本只是在開放市場上購買系統的皮毛。
但是,造一個 ASIC 並不適合膽小者。首先,ASIC 功能有限。例如,谷歌TPU 只支持 TensorFlow,讓使用 Microsoft,Amazon,Facebook 等的主流 AI 框架的用戶只能選擇在 GPU 上運行。(不過,谷歌還宣布將在 Google Cloud 上提供新的英偉達 V100 GPU。)此外,ASIC 的開發成本也很高。其複雜的設計可能要花費超過1億美元,並且需要花費多年時間來設計和調試。(不過谷歌聲稱他們付出的努力要小得多。)
因此,像 TPU 這樣的 ASIC,如果能夠將這些成本分攤到大量使用中,起碼是數十或數百萬單位,才是有道理的。但谷歌需要這樣大量的使用,因此收益可能很迅速而且戲劇化。要注意的是,由於開發 ASIC 可能需要花費很長的時間,在 AI 這個日新月異的市場中,晶元的設計可能會錯過創新的機遇。這就是為什麼包括百度、Amazon、Microsoft 等在內的許多數據中心都傾向於使用 GPU 或 英特爾和賽靈思的 FPGA 來加速關鍵工作負載,在提供高性能和高效率的同時隨時能保持硬體升級的靈活性。一個厲害的團隊可以幾個月內就設計出一個新的 FPGA,不需要花費幾年時間。
圍棋大戰背後的商業野心 ,向中國企業兜售TensorFlow+TPU+谷歌雲
谷歌首席執行官 Sundar Pichar 已經明確表示,該公司的戰略已經從「Mobile First」轉變為「AI First」。Google Cloud TPU 的推出遠比僅僅成為更便宜的GPU替代品更具戰略意義。TPU 和 Google TensorFlow 框架為公司的工程師和數據科學家提供了一個全面優化的平台,以支持他們的研究和產品開發。 谷歌團隊擁有產品上市時間、性能和功能優勢,因為它們可以控制機器學習增強的產品和服務的硬體和軟體。TPU 甚至可以提供未來的平台來支持公司的無人車願景。
除了內部驅動程序之外,Google Cloud可以通過為TensorFlow開發項目提供卓越的價格/性能的硬體,從而在與Amazon Web Services和Microsoft Azure Cloud的競爭中受益。當然,TensorFlow本身也可以受益。 它已經是許多機器學習應用程序團隊使用的首選框架。TensorFlow Research Cloud旨在推動整個行業採用TensorFlow。
「在中國,BAT有大量的用戶群,都想為用戶提供更優化的服務,如果使用TensorFlow會變得更好,誰用TPU都會變得更好。」谷歌母公司Alphabet董事長施密特在烏鎮峰會現場說。他還說,亞馬遜和蘋果都用過他們的產品,有很多有效的案例。
施密特的話一語道破了谷歌此次中國行的一大目的:兜售TensorFlow+TPU+谷歌雲。
TensorFlow 經過兩年多的發展,目前在Github上已經成為最受歡迎的深度學習框架,受到大量開發者的好評。另外,整合了機器學習技術的谷歌雲,現在也已經躥升為亞馬遜和微軟雲的最大競爭對手之一。
最最關鍵的是,谷歌的深度學習框架、雲和TPU等資源是互通和綁定的,這讓它得以形成循環,逐漸籠絡到更多的開發者。正如前文所說,谷歌已形成以AI戰略為中心的完整平台,並且在將這個平台逐步推向企業、開發者和個人用戶。在AI領域,谷歌正在打造真正的帝國。
根據新浪科技的報道,Jeff Dean 透露,中國 TensorFlow的用戶數是7萬。
消息顯示,DeepMind CEO 哈薩比斯等人此番中國之行不僅在烏鎮,還會與國內眾多科技公司,包括BAT,進行接觸和交流。由此看來,施密特先生要讓BAT 試用TensorFlow和TPU的話並不是玩笑。
對於中國AI領域生態圈的巨頭以及眾多初創企業來說,這到底算是一顆氫彈還是一顆原子彈呢?
參考資料:https://www.forbes.com/sites/moorinsights/2017/05/22/google-cloud-tpu-strategic-implications-for-google-nvidia-and-the-machine-learning-industry/3/#5fae19b8513d
※CPU和GPU雙低效,摩爾定律之後一萬倍——寫於TPU版AlphaGo重出江湖之際
※亞馬遜 AI 正在吞噬這個世界:在賺錢的同時「被迫」升級自己的技術基礎設施
※亞馬遜AI正在吞噬世界:賺錢同時「被迫」升級技術基礎設施
※摩爾定律之後一萬倍——寫於TPU版AlphaGo重出江湖之際
※柯潔戰敗解密:AlphaGo最新架構和演算法,谷歌雲TPU拆解
TAG:新智元 |
※打敗柯潔的AlphaGo有了繼任者AlphaZero 國際象棋/圍棋/將棋通殺
※柯潔和AlphaGo曾經的對戰前瞻
※羅永浩語出驚人懟iPhone;人機大戰柯潔再敗|CSDN極客頭條
※擊敗柯潔的「AlphaGo」登上今日Science:人工智慧除了創造新材料還能預測化學反應性能
※柯潔對戰中國版AlphaGo 再次不敵AI;小米管理層變動 兩位聯合創始人辭職
※華為Mate 20首銷火熱,AI智慧使柯潔瘋狂打Call
※柯潔再次成為圍棋 AI的benchmark,這次讓二子也落敗
※柯潔再次成為圍棋 AI 的 benchmark,這次讓二子也落敗
※巔峰期的李昌鎬、李世石和柯潔,誰能擊敗第一代Alpha Go?
※人機大戰柯潔不敵國產圍棋AI;亞馬遜Alexa智商重大升級
※早報:柯潔對戰中國AlphaGo,地平線推基於征程2.0的計算平台
※AI又贏了!柯潔對弈國產AI「星陣」最後中盤認輸
※那個大戰AlphaGo的柯潔,將免試入讀清華大學工商管理專業
※LG杯八強對陣:許嘉陽VS申真諝 柯潔VS陳耀燁
※AlphaGo會怒砸柯潔才是真正的智能?貝索斯說亞馬遜終將倒下;斯坦·李勸你遠離蠢貨
※【AI】柯潔坦承:AI計算和判斷全都在我之上 總是有無力感
※LG杯重演中國厚度VS韓國銳度 柯潔值得期待
※LG杯8強,柯潔向第8冠邁前一步,韓國前三威脅仍在
※柯潔輸中國AI「星陣」,盤點歷史上最具代表性的3次人機對戰!
※三星杯32強首輪:柯潔VS王元均 連笑VS金志錫