黃仁勛親自撰文懟上 TPU:P40速度比你快 2 倍,帶寬是你的 10 倍
雷鋒網按:前不久谷歌發布了關於TPU細節的論文,稱「TPU 處理速度比當前 GPU 和 CPU 要快 15 到 30 倍」。當時就有人對此種「比較」表示質疑,因其拿來的比較對象並非市場里性能最好的。
而昨晚(美國時間 4 月 10 日)英偉達 CEO 黃仁勛就親自撰文回應了這一「比較」,文章第一段就以谷歌 TPU 開頭,炮擊意圖十分明顯,隨後更是扔出了 Tesla P40 GPU 與 TPU 的性能對比圖,可謂針尖對麥芒。
不過 P40 和 TPU 的售價差距很大(P40 24GB版本售價5千多美元,TPU 成本估計在幾百美元),尺寸和製程也不一樣,也有人覺得這樣的對比未免也是不恰當的。但黃仁勛不惜親自撰寫長文,擺事實擺數據,意在表明英偉達在 AI 晶元領域的強勢姿態和技術領先的驕傲。
當時TPU論文甫一發布,雷鋒網就論文中的比較對象問題諮詢了AI人士意見,感興趣的讀者可戳《》。以下為黃仁勛發表全文,原文標題為「AI 驅動數據中心加速計算的崛起」(AI Drives the Rise of Accelerated Computing in Data Centers),由雷鋒網編譯。
谷歌最近的TPU論文給出了一個十分明確的結論:如果沒有高速計算能力,大規模AI實現根本不可能。
如今的世界經濟運行在全球的數據中心之上,而數據中心也在急劇發生改變。不久之前,數據中心服務支撐網頁、廣告和視頻。現在,它們能夠從視頻流里識別聲音、檢測圖片,還能隨時讓我們獲得想要的信息。
以上提到的各種能力,都在愈來愈依靠深度學習來支撐。深度學習是一種演算法,從海量數據里學習形成軟體,來處理諸多高難度挑戰,包括翻譯、癌症診斷、自動駕駛等等。這場由AI引發的變革,正在以一種前所未有的速度影響著各種行業。
深度學習的開拓者Geoffrey Hinton最近在接受《紐約客》採訪時說道:「凡是任何一個有很多數據的分類問題,都可以用深度學習的方法來解決。深度學習有幾千種應用。」
不可思議的效果以谷歌為例。谷歌在深度學習里突破性的工作引發了全球關註:Google Now 語音交互系統令人吃驚的精確性、AlphaGo在圍棋領域歷史性的勝利、谷歌翻譯應用於100種語言。
深度學習已經達到了不可思議的效果。但是深度學習的方法,要求計算機在摩爾定律放緩的時代背景下,精確處理海量數據。深度學習是一種全新的計算模型,它也需要一種全新計算架構的誕生。
一段時間以來,這種 AI 計算模型都是運行於英偉達晶元之上。2010 年,研究員 Dan Ciresan 當時在瑞士 Juergen Schmidhuber 教授的 AI 實驗室工作,他發現英偉達 GPU 晶元可以被用來訓練深度神經網路,比 CPU 的速度快 50 倍。一年之後,Schmidhuber 教授的實驗室又使用 GPU 開發了世界上首個純深度神經網路,一舉贏得國際手寫識別和計算機視覺比賽的冠軍。接著,在 2012 年,多倫多大學的碩士生 Alex Krizhevsky 使用了兩個 GPU,贏得了如今蜚聲國際的 ImageNet 圖像識別競賽。(Schmidhuber教授曾經寫過一篇文章,全面梳理了運行於GPU之上的深度學習對於當代計算機視覺的影響 http://people.idsia.ch/~juergen/computer-vision-contests-won-by-gpu-cnns.html)
深度學習優化
全球的 AI 研究員都發現了,英偉達為計算機圖形和超級計算應用所設計的 GPU 加速計算模型,是深度學習的理想之選。深度學習應用,比如 3D 圖形,醫療成像、分子動力學、量子化學和氣象模擬等,都是一種線性代數演算法,需要進行大規模並行張量或多維向量計算。誕生於 2009 年的英偉達 Kepler GPU 架構,雖然幫助喚醒了世界在深度學習中使用 GPU 加速計算,但其誕生之初並非為深度學習量身定製的。
所以,我們必須開發出新一代GPU架構,首先是 Maxwell,接著是 Pascal,這兩種架構都對深度學習進行了特定的優化。在Kepler Tesla K80 之後四年,基於 Pascal 架構的 Tesla P40 推理加速器誕生了,它的推理性能是前者的 26 倍,遠遠超過了摩爾定律的預期。
在這一時期,谷歌也設計了一款定製化的加速器晶元,名為「張量處理單元」,即 TPU。具體針對數據推理,於 2015 年部署。
上周,谷歌團隊發布了關於 TPU 優越性的一些信息,稱 TPU 比 K80 的推理性能高出 13 倍。但是,谷歌並沒有拿 TPU 與如今最新一代的 Pascal P40 做比較。
最新對比我們創建了如下的圖表,對 K80、TPU 和 P40 的性能進行量化,看看 TPU 與如今的英偉達技術之間的較量。
P40 在計算精度和吞吐量、片內存儲和存儲帶寬之間達到了良好平衡,不僅在訓練階段,也在推理階段達到了前所未有的性能表現。對於訓練階段,P40 擁有 10 倍於 TPU 的帶寬,32 位浮點性能達到 12個 TFLOPS 。對於推理階段,P40 具有高吞吐的 8 位整數和高存儲帶寬。
數據基於谷歌 Jouppi 等人論文「In-Datacenter Performance Analysis of a Tensor Processing Unit」[Jou17],以及英偉達內部基準分析。K80 與 TPU 的性能比數據來源於論文[Jou17]里 CNN0 和 CNN1的加速性能比,其中比較的是性能減半的 K80。K80 與 P40 性能比基於 GoogLeNet 模型,這是一種可以公開使用的CNN 模型,具有相似的性能屬性。
雖然谷歌和英偉達選擇了不同的發展路徑,我們有一些共同關切的主題。具體包括:
AI 需要加速計算。在摩爾定律變慢的時代背景下,加速器滿足了深度學習海量數據處理需求
張量處理處於深度學習訓練和推理性能的核心位置
張量處理是一個重要的新工作負載,企業在建立現代數據中心的時候,要考慮這一問題
加速張量處理可以顯著減少現代數據中心的建設成本
全球科技正處於一場被稱為「AI 革命」的歷史性轉變中。如今這場革命影響最深刻的地方,就是阿里巴巴、亞馬遜、百度、Facebook、谷歌、IBM、微軟、騰訊等公司所擁有的的超大規模數據中心。這些數據中心,需要加速 AI 工作負載,不必花費數十億美元用新的CPU節點來打造新的數據中心。如果沒有加速計算,大規模 AI 實現根本不可能。
GPU加速計算為深度學習和現代AI 供能。大家可以在 5 月 8-11 日到加州聖何塞參加我們的 GPU Technology 大會。你將會聽到 AI 開拓者們談論他們突破性的發現,並且獲悉 GPU 計算的最新進展是如何在變革一個又一個行業。
※科普:流氓軟體和電腦病毒重災區 下載站行業亂象匯總分析
※AMD收購Nitero 或大舉發展無線VR產品
TAG:雷鋒網 |
※谷歌透露TPU細節:處理速度是GPU/CPU的15-30倍
※為什麼 TPU 運算速度比普通的 GPU、CPU 組合快 15-30 倍?
※每秒180萬億次,谷歌新一代TPU三大變化值得關注
※「TPU和GPU,誰將一統AI晶元」摩爾定律之後一萬倍,10萬+熱文引爆激辯
※10倍於一代速度 新AlphaGo採用谷歌TPU
※每秒 180 萬億次 谷歌新一代 TPU 三大變化值得關注
※谷歌正式發布第二代TPU:比傳統CPU快30倍!
※谷歌正式發布第二代TPU:比傳統CPU快30倍
※吊打CPU和GPU 谷歌發布第二代TPU性能比傳統快30倍
※吊打NV和intel谷歌自主開發70倍速TPU
※吊打NV和intel 谷歌自主開發70倍速TPU
※谷歌硬體工程師揭秘TPU為何會比CPU、GPU快30倍?
※「AI晶元爭奪戰」谷歌TPU率隊,顛覆3350億美元的半導體行業
※Google公布可180萬億次浮點運算的Cloud TPU,還要用AI幫你畫貓貓
※詳解Google第二代TPU,既能推理又能訓練,性能霸道 | Google I/O 2017
※CPU和GPU雙低效,摩爾定律之後一萬倍——寫於TPU版AlphaGo重出江湖之際
※「重磅」谷歌發布TPU論文,75位聯合作者,GPU迎來最強勁對手
※淺談CPU,GPU,TPU,DPU,NPU,BPU
※自打Google的TPU2橫空出世後,我們還差一個用途詳解呢