「AI教父」黃仁勛京城掀起「革命」,正式發布全球首款可編程 AI 推理加速器
從退出移動市場到引領人工智慧浪潮,NVIDIA 過去一年股價狂飆三倍,甚至讓某些華爾街分析師一度暫時停止估價。黃仁勛這三個字變成「AI 教父」、「讓科技以 3 倍速前進的男人」..... 等。從全世界開始對人工智慧、自動駕駛趨之若鶩之後,關於 NVIDIA 的一切已經無需太多說明。
北京時間 9 月 26 日,也就是今天上午,NVIDIA 創始人兼 CEO 黃仁勛在北京 GTC(GPU 技術大會)上發表主題演講《AI 的趨勢、挑戰與機遇》(AI Trends, Challenges and Opportunities), DT 君從現場發回報道。
圖丨英偉達GTC大會入場
圖丨一語道破英偉達的願景
圖丨現場的 Jetson TX2 超級計算平台
圖丨黃仁勛表示,AI已無處不在,兩股力量正推動計算領域的未來。第一,摩爾定律已終結,設計人員無法再創造出可以實現更高指令級並行性的 CPU 架構;第二,深度學習正在引領軟體和計算領域的變革。深度學習、大數據和 GPU 計算的結合則引爆了 AI 革命。與此同時,NVIDIA 的 GPU 也彌補了CPU 的不足,加速處理高強度計算負載,為整個行業指明了前進的道路。
圖丨AI 推理平台必須具備可編程性才能運行種類繁多且不斷演進的網路架構
圖丨黃仁勛介紹智能設備的爆炸性增長
黃仁勛表示,在不遠的未來,數據中心內的每個查詢和工作負載都將涉及一個或多個 DNN 推理。推理吞吐量直接轉化為數據中心成本。V100 可將 CPU 速度提高 40 倍,所以只需一台 8-GPU 伺服器即可替換 160 台雙 CPU 伺服器或 4 個機架。每台 V100 伺服器可節省約 50 萬美元!
圖丨自動駕駛汽車的發明將是 AI 最大的貢獻之一。NVIDIA DRIVE是一個為自動駕駛行業帶來變革的端到端平台。與此同時,作為NVIDIA開發的自動駕駛應用,DRIVE AV 將環繞攝像頭、雷達和激光雷達的感測數據融合。多種深度學習和計算機視覺演算法將為L4和L5級別自動駕駛技術提供所需的多樣性和冗餘性。合作夥伴能利用我們平台的所有或部分特性。
圖丨NVIDIA DRIVE 是最前沿的深度學習和計算機視覺計算機,可以讓新型的初創公司設計新的演算法和軟體。145家初創公司正在研製基於NVIDIA DRIVE的自動駕駛汽車,卡車,高清製圖及服務。
鑒於中國市場的重要性和 AI 創業的持續火熱,黃仁勛這次現身北京,也是繼今年 1 月拉斯維加斯 CES 公布一系列全新產品,以及 5 月聖何塞 GTC 發布基於全新 Volta 架構的 Tesla V100 加速卡後,最重磅的一次公開露面。主題演講的內容,也是全球 AI 從業者所關心的 Tesla V100 最新的進展,以及相關軟硬體的部署情況。
今年 5 月黃仁勛在聖何塞 GTC 上正式發布 Tesla V100 加速卡的情景,相信很多人還記憶猶新:黃仁勛掏出一張手掌般大小的卡片,一改往日的沉穩做派,情緒激動的向全世界展示這一革命性的「性能怪獸」:Tesla V100 加速卡。黃仁勛的激動可以理解,畢竟他手握的是 NVIDIA 投入了數千人、花費了數年時間、耗資 30 億美元打造的產品,他甚至稱「打造 Tesla V100 是不可能完成的任務,難以置信!」
圖丨黃仁勛在今年 5 月的聖何塞 GTC 上重磅發布 Tesla V100
言歸正傳,黃仁勛在本次北京 GTC 上的主題演講也是以 Tesla V100 加速卡和 TensorRT 3 可編程推理引擎這兩大軟硬體平台為核心所展開的。本次的主題演講主要分成四部分:
TensorRT 3 推理引擎(TensorRT 3 Inference Engine)
作為本次 GTC 最重要的發布之一,TensorRT 3 是 NVIDIA 最新版本的可編程推理平台,能協助用戶快速完成 AI 推理引擎的布署。
圖丨黃仁勛宣布NVIDIA兼容所有的AI開發框架
圖丨黃仁勛宣布推出 NVIDIA TensorRT3。TensorRT 是全球首款可編程 AI 推理加速器,TensorRT 可編程,且支持所有框架,並能加速現有和未來的網路架構。NVIDIA TensorRT3 的性能非常卓越,例如,運行在Volta 上的 TensorRT3 在圖像分類方面比最快的 CPU 還要快 40 倍,在語言翻譯方面則要快 140 倍等等。
簡單來說,一邊是個大公司開發出來的機器學習框架,諸如 Google 的 TensorFlow、Facebook 的 Caffe2、微軟的 Cognitive Toolkit 等,另一邊則是用來加速學習的硬體,當然是 NVIDIA 的自家產品,比如 Tesla V100、DRIVE PX 2、JETSON TX2 等。那麼如何簡單快速又高效的在深度學習框架和硬體之間建立起聯繫?讓演算法能夠真正很方便的跑起來?TensorRT 3 就充當了中間這個橋樑,讓深度學習的門檻大大降低。
圖丨NVIDIA TensorRT 可編程推理平台(來源:NVIDIA)
TensorRT 是基於神經網路上的推理加速庫,通過為開發者提供現成的程序庫來有效縮短開發時間。TensorRT 是採用 GCC 開發而成的 X++庫,其 1.0 版支持 FP16 計算特性,2.X 版則是增加了 INT8 的支持,並且支持開放式開發環境 Caffe 大部分常用的層以及模型。
眾所周知,深度學習分為訓練(training)與推理(inference)兩個階段。與訓練時不同,推理工作所使用的精度不需要到很高,一般而言四分之一精度計算就已經足夠了。目前 TPU、FPGA、GPU 或者是 NVIDIA 新推出的 Tensor Core,在處理推理工作時,都是採用 INT8 計算。
而根據NVIDIA官方開發網站的介紹,最新版本的TensorRT 3除了具備INT8特性外,同時進一步強化INT8加速技術,並增加了動態內存管理以及內核自動優化機制,可有效減少計算壓力、簡化推理模型,節省終端所需要的推理計算資源。
圖丨TensorRT 3 的技術特點(來源:NVIDIA)
通過 TensorRT,開發者可以大幅減少推理過程的延遲現象,幾乎可達到實時反應的地步,這對於像在線影音分類、對象偵測以及自動駕駛的應用而言,無疑是非常重要的特性。
當然,TensorRT 若是從頭到尾重新開發屬於自己的庫,NVIDIA 同樣也會完全支持,並提供相對應的函數,讓開發者同樣能夠享有 INT8 加速效果,並且可以支持更多定製化的 AI 技術。
目前,已經有很多企業導入了 INT8 加速技術,來加快推理過程,從而減輕終端負擔,比如滴滴、大疆、Face++、微軟亞洲研究院等,未來普及率也會逐漸增加。TensorRT 包含在 NVIDIA 提供給開發者的工具與函數庫 JetPack 中,只要使用 NVIDIA 的方案就可獲得。
圖丨TensorRT 可協助用戶快速部署訓練完的模型,並根據用戶需求套用推理庫來進行優化(來源:NVIDIA)
Tesla V100 全面融入中國的 AI 雲服務
介紹完全新的開發平台後,該講講自家產品在行業中的應用了。首先,黃仁勛舉了一個很簡單的例子來說明目前 CPU 並不是 AI 相關計算的最佳選擇。以中國語音識別領域的著名廠商科大訊飛為例,以其語音產品每天 5 億人次的訪問量、每次平均 15 分鐘的使用時長來計算,要滿足這個計算量將要花費 10 億美元來搭建基於 CPU 的數據中心,這包括 20 萬個 CPU 伺服器,以及 100 兆瓦的耗電量。
圖丨黃仁勛在GTC大會上也宣布了重大合作消息,目前,阿里巴巴、百度和騰訊已在各自的雲服務中採用 NVIDIA Volta GPU —— 研究人員和初創公司現在可以租用雲端最先進的 AI 基礎設施,免於建造超級計算機的複雜性和高昂費用。華為、浪潮和聯想也已採用 NVIDIA 基於 HGX 的 GPU 伺服器——對於需要專用 AI 超級計算機的企業,NVIDIA正在與中國主要的系統集成商開展合作,提供經過全面優化的伺服器。
圖丨黃仁勛宣布中國雲服務提供商採用 NVIDIA GPU 加速的推理平台。中國擁有世界上最龐大和最活躍的互聯網用戶群,並且中國的互聯網公司是 AI 領域的全球領導者。他們正在競相把 AI 融合到商業、社交、新聞、語音、實時視頻和圖像共享中。中國的頂級互聯網公司都採用了 NVIDIA 的可編程推理加速平台來支持呈指數級增長的 AI 工作負載。
而 NVIDIA 的 HGX 伺服器則是在 8 個 Tesla V100 加速單元的基礎上搭建的 AI 專用加速器,單個 HGX 伺服器在語音/圖像識別推理方面的計算性能相當於 150 個傳統 CPU 伺服器。
圖丨在語音/圖像識別推理計算能力方面,單個 HGX 伺服器相當於 150 個傳統 CPU 伺服器(來源:NVIDIA)
目前,NVIDIA 已經與中國的主流科技公司展開了技術合作,從現場公布的數據來看:將科大訊飛單個伺服器能同時處理的訪問量提高了 10 倍;將微信語音轉文字的數據通量提高了 2.5 倍、精確度提高了 20%;將京東單個伺服器的視頻分析效率提高了 20 倍;將阿里巴巴語言翻譯的處理能力提高了 3 倍、延遲降低了 3.5 倍。
圖丨GPU 加速器對各廠商 AI 相關服務的優化(來源:NVIDIA)
同時,黃仁勛也正式宣布,Tesla V100 將於中國的三大雲服務運營商:阿里雲、百度雲、騰訊雲做全面融合,助力中國的 AI 雲服務。
中國主流伺服器廠商開始採用 HGX 加速方案
HGX 超大規模 GPU 加速器目前已被包括華為、浪潮、聯想在內的中國一線伺服器廠商所採用,相關產品也會陸續發布。
圖丨華為、浪潮、聯想等伺服器廠商已經開始在產品中整合 HGX 伺服器(來源:NVIDIA)
NVIDIA的自動機器人
鑒於蘋果剛在不久前發布了 A11 Bionic 晶元,業界對終端 AI 應用何時到來也是有很大爭議。DT 君也於北京 GTC 期間採訪了 NVIDIA 副總裁兼加速計算總監 Ian Buck,他表示目前 NVIDIA 確實在終端 AI 方面有所動作,但更多的是聚焦在機器自動化方面,比如服務型機器人、無人機等,在手機端目前還沒有太多打算。
圖丨黃仁勛宣布全球首款自主機器處理器Xavier。Xavier是迄今為止最為複雜的片上系統,並且Xavier將成為下一代Jetson的片上系統!與此同時,NVIDIA宣布京東 X將會採用我們的Jetson平台,實現其自主機器,機器人技術將會革新製造,物流和配送行業。
NVIDIA 不看好手機端 AI 應用的原因貌似很簡單,用 Ian Buck 的話來說就是「本地端只能解決一些小問題,AI 是一個非常複雜的系統,必須結合多層次的解決方案。」
黃仁勛的主題演講也印證了這一點。目前,NVIDIA 已與京東的子公司 JDX 合作,共同研發倉儲機器人 jRover 及自動送貨無人機 jDrone。而且計劃在 2022 年之前完成 100 萬架無人機的部署。
圖丨NVIDIA 將與京東合作開發倉儲機器人與無人機(來源:NVIDIA)
Volta 架構 + TensorRT 3,NVIDIA 將正式進軍推理領域
從這次北京 GTC 所發布的內容,以及黃仁勛本人的演講來看,傳遞了兩個明顯的信號:一是 GPU 暫時無可取代,如果出現別的解決方案,GPU 也會快速做調整來適應市場;二是 GPU 只適合訓練(training),不適合推理(inference)的老觀點是時候改改了。NVIDIA 當然知道,AI 計算不能只有訓練部分,而是必須也包含推理,否則就只是半套解決方案,而且這也意味著將一半的市場白白送給對手。
圖丨訓練和推理是 AI 生態的一體兩面,缺一不可。(來源:NVIDIA)
AI 必須循序漸進,沒有訓練,就談不上後來的推理。而當初若沒有 GPGPU(通用型圖形處理單元),所謂的機器學習可能現在都還只存在於教科書或者論文當中,而不是像現在遍地開花,甚至即將進入終端市場,推動從雲到端的 AI 應用生態。
Google 提出的 TPU(張量處理單元),基本上就是一個為推理優化的 ASIC 架構,雖具備一定的訓練能力,但訓練性能表現遠不如 NVIDIA 的 GPGPU。TPU 的好處是由於採用 ASIC 的固定設計,功耗低,理論的功耗性能比相對於其他計算架構明顯要更高。
NVIDIA 雖然在機器學習領域有著極重要的地位,但過去在推理方面的效能並不是太出色,也因此讓 FPGA 或 TPU、寒武紀等競爭架構有機可乘。但黃仁勛和他的 NVIDIA 不會坐以待斃,在今年 5 月聖何塞 GTC 大會中正式發布了基於 Volta 架構的 GPU 產品 Tesla V100,不僅加入 Tensor Core 設計,大幅強化推理性能表現,更是配合 Tensor RT 生態的布局,意圖重新掌握 AI 核心計算硬體的話語權。
圖丨基於 Volta 架構、整合了 Tensor Core 的 Tesla V100 (來源:NVIDIA)
Tensor Core 是一個類似 Google TPU 的 SIMD 核心,每個 Tensor Core 每個時鐘可執行 64 次浮點 FMA 混合精度運算(FP16 乘法與 FP32 累加),一個 SM 單元中的 8 個 Tensor Core 每個時鐘可執行共計 1024 次浮點運算。
相較使用標準 FP32 計算的 Pascal GP100 而言,單一 SM 下的每個深度學習應用的數據通量提升了 8 倍,所以這最終使得 Volta V100 GPU 相比於 Pascal P100 GPU 的數據通量一共提升了 12 倍。如果將其換算成推理能力,集成 Tensor Core 的 V100 較前代產品有 6 倍的性能提升,而 Tensor Core 本身具備 ASIC 的特點,也就是非常省電,其佔用晶元面積也可以控制在合理的範圍內。
圖丨Tensor Core 基本上就是一個針對特定演算法優化的 ASIC 組件(來源:NVIDIA)
2017 年 Google 發布了二代 TPU 架構以及 TensorFlow 框架,把從訓練到推理的過程完整打包成一個應用套件,各家硬體廠商都可針對此應用套件發展自己的硬體架構。雖然不少人把 TPU 當作 NVIDIA 未來在 AI 產業的一大挑戰,但 Google 只是希望提出一個業界可遵循的設計範例,並非要直接殺入市場。而 NVIDIA 也沒有將 TPU 當作敵手,反而是成為學習的對象。
正因如此,Tensor Core 的基本概念與 TPU 相當一致,要說 TPU、Tensor Core 是競爭架構,不如說系出同門反而更合理。從 Google 只拿古老的 NVIDIA K80 和 TPU 比較,就知道 Google 的本意根本是明貶暗褒 NVIDIA,隨後發表的 Tensor Core 架構和 TPU 相當雷同,而 Google 更是第一時間使用了 V100 作為其雲平台的核心架構,可見兩家並非外界所理解對立關係。
在 Google 的推動下,業界還是會提出更多競爭架構,FPGA、DSP,以及來自中國的寒武紀,甚至 Imagination 推出的 AI 加速單元,都在整個機器學習大環境中扮演各自的角色。但 NVIDIA 比整個產業早了不只一步,且在架構發展的推動方面,GPU 的迭代周期短,且每次升級後性能成長幅度更是超越了摩爾定律。
圖丨得益於 Tensor Core,V100 的訓練與推理性能遠超過前代產品。(來源:NVIDIA)
NVIDIA 的 AI 布局雖趨完整,但新勢力的崛起不可忽視
而當業界把 AI 加速硬體從訓練階段延伸到推理階段,也代表未來技術發展重點在於如何快速把訓練完成的模型部署到應用中。不久的未來,我們也可看見更多 AI 應用出現在我們的生活中,NVIDIA 的 Tesla V100 是這個演化過程的一部分,加入 Tensor Core 的設計也不過就是應對客戶需求的一種手段。
不過外界或許會有疑問,除了 AI 訓練、推理外,Tensor Core 乍看之下好像對 NVIDIA 的老本行,也就是遊戲應用沒有太大的幫助。但事實上,未來遊戲發展也會加入一定的訓練與推理能力,遊戲場景、遊戲過程,甚至人物角色都可以通過 AI 來變得更加豐富。正如微軟下一代的 DirectX,如果不出意料,應該也會加入 AI 相關的處理能力,從而滿足在 VR 或 AR 遊戲應用中所需要的環境對象學習、分析與邏輯判斷等 AI 相關計算需求。
而 NVIDIA 也會持續推出具備 AI 能力的終端方案,包括汽車、無人機、家電等,未來也有可能採用更大比例的 Tensor Core 方案,協助這些終端在更少的功耗、更低的延遲下,做好計算工作,滿足各種 AI 應用對實時響應的需求。
所以,從產品布局上去觀察,我們可以說,最積極推動 AI 計算架構革新的 NVIDIA,目前最大的挑戰其實並非來自對手,而是下一步要如何自我突破。所以說,雖然 NVIDIA 目前風頭正勁,不過從中短期來看,NVIDIA 仍得面對兩個問題。
首先,AI、機器學習的發展還在起步階段,各種新技術的問世都很可能會讓市場立刻轉向,例如 Google 針對 TensorFlow 推出的機器學習專用晶元 TPU(雖然暫時不構成直接競爭關係)、以及 Intel 和 Xilinx 布局的 FPGA 等,都是目前行業內相當關注的技術。
而且已經開始有人潑冷水。美國投資研究機構 MorningStar 分析師 Abhinav Davuluri 在其最新的機器學習及人工智慧研究報告中,就直言「NVIDIA 是不是人工智慧領域的贏家,這件事還不是一個定局」。雖然是老調重彈,但確實代表了業內一部分人的觀點。
他解釋道,發展人工智慧有訓練和推理兩個階段,訓練階段需要運算能力來學習數據集,推理則是計算機根據新資料樣本來推斷答案。NVIDIA 會在訓練領域持續獨大,這個並沒有疑問,但 Intel 與 Xilinx 的優勢在於推理。而且他認為 Intel 比 NVIDIA 有更廣泛的晶元選擇。
對於競爭對手的威脅,NVIDIA 解決方案架構工程副總裁 Marc Hamilton 認為,TPU 僅能針對 TensorFlow 機器學習框架使用;而 FPGA 雖然效率高,但晶元編程難度很大。因此綜合支持的應用範疇、編程易用性來看,GPU 仍是最適合的技術。
另外,同樣擁有 GPU 技術的 AMD 也不會坐視 NVIDIA 獨享市場。近日就傳出,現採用 NVIDIA 方案的 Tesla 找上 AMD 合作,來開發自動駕駛晶元。儘管隨後 AMD 官方出面否認這個消息,但是很多時候傳聞並非空穴來風。
Tesla 有意開發自主晶元在市場上已傳聞許久,去年初 Tesla 挖走了曾任職於蘋果、 AMD,設計了 iPhone A4、A5 晶元、領導了 AMD Zen 架構開發的 Jim Keller。通過與 AMD 合作,Tesla 可以強化自主晶元的開發,另一方面當然就是減少對單一廠商的依賴。因此消息放出當天,NVIDIA 的股價一度下跌 4.7 %,可以看出華爾街對 NVIDIA 中短期的市場競爭力或多或少是有疑慮的。
其次,另一個 NVIDIA 得面對的挑戰就是長期策略。現階段訓練神經網路,最大的問題就是得花上很多時間,為了加快訓練速度,目前最常見的做法就是買 GPU 、買很多 的 GPU、買更多的 GPU……
但日前一篇加州大學伯克利分校領銜的研究人員發表的論文吸引眾多目光,研究人員使用全新演算法,在 24 分鐘內訓練 ImageNet,創下世界紀錄,另外 ResNet-50 的訓練時間為 1 小時,達到了跟先前 Facebook 一樣的成績。
但研究人員表示,他們只使用了 120 萬美元的硬體,比 Facebook 當時價值 410 萬美元的設備節省了很多。他們也強調「我們不隸屬於 NVIDIA 或 Intel 任一方,對於 GPU 或 KNL 也沒有任何偏好。我們只想表明,可以用更少的預算去實現相同的效果。」
也就是說,隨著研究人員設計出更好的演算法,對 GPU 的需求及採購數量勢必會比現在下降不少。雖然這個問題在短期來看還不會困擾 NVIDIA,但長遠來看,如何在產品供應及價格上找到平衡、以及 GPU 的應用領域如何持續擴大,仍是 NVIDIA 長期得思考的問題。
為遊戲而生,但卻改變人類世界
回顧 GPU 的發展歷程,大約二十多年前,PC 和主機遊戲都還只是低解析度的 2D 遊戲為主,真實 3D 遊戲受到硬體性能限制,畫面都極為粗糙。NVIDIA 當初就認為,如果可以擺脫 CPU 本身的限制,利用硬體設計去加速 3D 畫面的繪製,那麼就可以大幅降低 3D 遊戲的門檻。
圖丨首款利用 GPU 加速的 3D 遊戲。(來源:ID Tech)
而因為這個概念而出現的 GPU 技術,讓當時的人們理解到:原來通過專用加速硬體,可以做到比使用市面上最昂貴 CPU 更流暢細緻的高精細度遊戲畫面處理,市場為之震驚。當 NVIDIA 成功將此概念帶入市場,一時之間,出現了許多專用的 GPU 加速架構,就連以 CPU 見長的 Intel,甚至也因為害怕被 GPU 所取代,也跟風推出自有的獨立 GPU 產品,想要在這個快速成長的市場分一杯羹。
2008 年,Intel 放棄獨立 GPU 技術,轉往集成架構後不久,其在上海 IDF 公開表示,圖形卡產業已經走到盡頭,相關的視覺計算工作將會由專用的可程序設計通用架構晶元取代。但事實上,Intel 所宣稱的可編程通用架構晶元從未真正在繪圖應用中普及過。
圖丨NVIDIA 於 1996 年底發布的 RIVA 128 顯卡
而除了 ATI,也就是後來的 AMD 還能勉強跟上和 NVIDIA 的技術競爭,其他曾發布過自有 GPU 技術的廠商不是倒閉,不然就是像 Intel,放棄自有獨立 GPU 技術的發展。因為 GPU 技術發展太快,那些半路出家的廠商沒有足夠的技術和專利積累,根本無法追上競爭對手的腳步。
而到後來,GPU 本身的技術發展也開始脫離純粹的遊戲目的。
CPU 勝在專註,一件事可以很快完成,但同時間只能做好少數幾件事,如果手上工作太多,那工作的效率就會大大降低。GPU 則是擅長一心多用,可以同時高效處理計算任務,然而這些計算任務必須相對簡化、規則化,否則處理的效率就會受影響。
圖丨CPU 和 GPU 架構的比較。(來源:聖荷塞州立大學)
GPU 本身是擅長大量並行、高密度的計算工作的一種架構。就以 3D 實時渲染為例,包括對象的構型、對象在 3D 空間中的位置、對象的顏色或材質的配合與處理,都需要通過 GPU 計算,才能達到每秒數十張畫面的更新,達到人眼中的流暢效果。如果換做 CPU,那可能需要好幾個小時才能完成一張畫面的繪製。
在實時繪圖這種需要同時處理大量計算工作的應用上,GPU 擁有的單一指令多數據流 (SIMD) 的多線程架構優勢就遠遠超過 CPU。也因為繪圖處理需要極高的並行計算性能,遠超出當代的 CPU 能力,就有科研機構成功通過特殊方式,獲取了這種計算性能,而這也就是後來 GPGPU 的雛型。
在科研機構的無心插柳之下,人們開始認知到 GPU 特殊架構所能帶來的計算潛力,NVIDIA 並沒有將這種「非正規應用」當作學者們的無心之作,反而極為認真看待這方面的應用發展,全力協助想要發展此類應用的科研機構。後來更以此研究為基礎,發展出專用的程序介面 CUDA,並正式提出 GPGPU 概念。自此,GPU 一躍成為計算機世界中的計算主角,擺脫遊戲設備的廉價概念。
在 GPU 出現之前,AI 曾經因為當時計算架構與性能限制,沉寂了很長時間,而隨著具備大量並行計算能力的 GPGPU 的應用普及,機器學習、深度學習等 AI 的基礎計算得以被快速執行,AI 概念也重新回到人們的眼中,甚至影響我們現在以及未來的生活。
GPU 擅長的大量並行處理能力滿足了 AI 學習過程中所需要的計算能力,而當初若 NVIDIA 沒有發展出 GPGPU,AI 根本沒有機會在短短几年的時間內發展到如此規模,雖然現在業界提出了許多專用架構,每個都號稱效率要高過 GPU,但事實上,這些架構的概念都是已經出現了很久的東西,比如說 FPGA、DSP,或者是 TPU 等專用 ASIC,相關概念早在業界存在了數十年之久,只是極為冷門,從未有機會登上主流計算舞台。
這些計算架構的重新被關注,其實該感謝 GPGPU 將相關計算概念真正實用化、市場化。
相較起這些數十年如一日的老架構,GPU 在始終一致的計算概念的前提下,技術發展卻是日新月異,不僅換代時間短,且每次換代所帶來的效能提升,或內建計算功能都能遠遠突破上一代產品。所以要說 GPU 在 AI 應用上已經被對手超越,可能還為時過早。
處於巔峰的NVIDIA,投資策略是否會一改往日的保守作風?
雖然 NVIDIA 現在風頭正盛,但相較於其他美國大型科技公司善用收購掌握技術及市場,他們更傾向採取保守策略。根據 DT 君的統計, NVIDIA 成立以來,公開的收購案為 13 起。 AMD 則更少,只收購過 5 家公司,AMD最近一次收購是在今年 4 月買下研發 AR/VR 晶元的初創公司 Nitero ,以及在 2006 年買下 ATi Technologies ,來與 NVIDIA 競爭 GPU 市場。
但是,反觀成立 49 年的 Intel 收購了 87 家公司、參與 52 起投資案;高通的收購案也有 47 起,投資案也多達 84 起。
不過,值得注意的是, NVIDIA 近年來因在人工智慧、自動駕駛汽車等領域掌握了領先優勢,業績大幅成長,2017 財年營收為 69 億美元,年成長率高達 38%,過去三年的凈利率分別為 13.5%、12.3%、24.1%,尤其是 2017 財年的 24.1%,已經跟高通達到相同水準。
NVIDIA 的研發重點緊扣產業趨勢,加上業績優異,未來前景仍具高成長性,吸引了大量投資人追捧,帶動市值衝破 1,000 億美元大關。
圖丨全球主要半導體公司目前市值對比(註:以9月22日收盤價計算)
這使得 NVIDIA 在財務資金操作上能比以往更為靈活,投資策略開始變得積極。NVIDA 成立至今共參與了 19 起投資案,其中發生在 2016 、 2017 年內的就佔了 11 起。同時,拉攏創業公司也是一招,推出 NVIDIA Inception 創業計劃,與 1,300 家 AI 創業公司合作以及提供戰略性支持。
圖丨NVIDIA 成立 24 年來的 13 起收購案
總之,黃仁勛的這場主題演講最重要的無疑是,NVIDIA全面開始進軍AI推理加速領域,從推理計算能力衍生出的各類應用,諸如高效圖像語音識別、高等級自動駕駛、自動機器人、AI城市等等,NVIDIA都已涉及。
正如黃仁勛在演講結束時說的:NVIDIA已將AI計算帶入新紀元!當然,還有一點最重要:買更多的GPU,省更多的錢!
※這家源自麻省理工學院的初創公司,想讓自動駕駛汽車像人一樣擁有「常識」
※微軟、Facebook 聯手鋪設「世上最快」海底光纜,今日正式完工
※這種鋁居然密度小於水!化學家們在材料設計上取得新突破
※重新定義空調?新型冷卻系統可將熱氣「發射」至外太空,最佳狀態下省70%的電能
※吳恩達deeplearning.ai的深度學習課程怎麼樣?DT君親測後為你劃重點
TAG:DeepTech深科技 |