深度 | 從算力到半導體供應鏈，硬體如何決定機器學習的研究趨勢

科技 09-27

選自arXiv

作者：

Tim Hwang

機器之心編譯

參與：

路、劉曉坤、張倩

今日，Andrej Karpathy 推薦了一篇有趣的論文，介紹了計算力、機器學習專用硬體架構和供應鏈的變化對機器學習模型研究方法以及人工智慧未來的影響。機器之心重點節選了第二部分和第三部分，更多細節請參見原文。

論文：COMPUTATIONAL POWER AND THE SOCIAL IMPACT OF ARTIFICIAL INTELLIGENCE

論文鏈接：https://arxiv.org/ftp/arxiv/papers/1803/1803.08971.pdf

機器學習是一個計算過程，因此它與計算力緊密相關，也就是與承載機器智能演算法的晶元和半導體緊密相關。最明顯的是，計算力和計算架構決定了機器學習的訓練和推斷速度，從而影響該技術的發展進度。然而，這些關係遠比上面描述的更加微妙：硬體決定了研究者和工程師在設計、開發機器學習模型時使用的方法。晶元的能耗等特性也決定了機器學習在現實世界中的應用。

從更廣泛的角度來說，計算力也很重要，因為其具備特殊的地理影響。半導體通過複雜的國際供應鏈進行設計、裝配及部署。市場結構和該領域公司之間的競爭影響著機器學習的發展。此外，從國家安全的角度來看，這些供應鏈也很重要，硬體成為對人工智慧必備的基礎器械有直接影響的政府工業和貿易政策競技場。

本文旨在深入探討計算力與機器學習發展之間的關係。更具體地說，本文要探索計算架構、機器學習方法和供應鏈的變化對人工智慧未來的影響。為此，本文嘗試理清這一底層硬體層與深遠的社會影響及 AI 相關風險之間的特殊關係。一方面，這一探索凸顯了硬體如何加劇對無處不在的監控、技術失業和地緣政治衝突的一系列擔憂。另一方面，它也凸顯了促進計算力發展在解決這些問題上可能發揮的重要作用。

第一部分將研究算力在機器學習發展中所起的作用，並指出在近期關於該技術社會影響的報告中，其影響被扁平化。第二部分將探討機器學習硬體的專門化趨勢，以及它對控制和隱私的影響。第三部分將討論半導體供應鏈及其對機器學習地緣政治的影響。第四部分將介紹在機器學習工作流程中改變數據和算力之間平衡的研究進展，以及它對技術的經濟影響。最後，我們將介紹硬體作為行動槓桿的潛在作用。

第一部分：機器學習和算力

以計算機視覺領域為例，該領域聚焦於提高機器從圖像和視頻中提取可理解特徵的能力。20 世紀 90 年代和 21 世紀早期的「傳統」方法聚焦於在人為定義的特定特徵上運行演算法執行圖像處理和分類。相對地，神經網路可以自己學慣用於分類的相關特徵，而不需要在演算法中進行預定義。

擴展算力和數據可用性改變了計算機視覺領域的實踐方法。從數據方面來看，消費網路的增長產生了大量可用於機器學習系統訓練的圖像。包含 2 萬類別、1400 萬張標註圖像的 ImageNet 數據集為研究者提供了圖像處理研究的常用數據集。從 2000 年的每晶元 3700 萬晶體管到 2009 年的每晶元 23 億晶體管，算力在 21 世紀繼續發展。這一趨勢隨著一類特殊的計算架構 GPU 的出現而持續增強。GPU 因其並行計算的特性尤其適用於神經網路。

基於自動學習特徵和並行訓練的特性，神經網路得以顯著超越該領域的早期方法，ImageNet 大規模視覺識別挑戰賽是這一過渡趨勢的典型標誌。自 2010 年舉辦以來，該挑戰賽聚集了很多研究者在視覺識別任務上進行系統設計的競爭。從 2010 年到 2011 年，傳統方法從未將誤差率降到 25% 以下。由 Hinton 帶領的團隊在 2012 年開發的 AlexNet 首次實現了 25% 以下的識別準確率，有研究者稱「ImageNet 2012 引發了 AI 大爆炸」。

第二部分：計算力專門化

計算力不是簡單的數量問題。晶元的特殊架構很大程度上決定了該晶元能否有效解決給定的計算問題。總的來說，該行業正擁有日益專門化的機器學習平台，這一領域的持續增長也吸引了越來越多的商業興趣。從這個角度來說，硬體的發展方向與軟體截然相反：儘管研究領域一直致力於構建更通用的學習系統，但晶元領域仍在持續轉向更窄的專門化方向。

有兩個因素塑造了機器學習硬體的市場。一個是性能與靈活性之間的負相關關係。儘管通用計算力可以支持廣泛的任務，而且經過簡單配置就能承擔新的任務，但它往往會被為特定目的而構建的硬體所超越。然而，這種性能的提升是有代價的：專用硬體適應相對較小的用例集，而且其體系架構在部署後不太容易改變。

另外一個重要的因素是，用於訓練機器學習模型以完成任務的硬體可能與用於利用已經訓練的模型進行推理的硬體有很大不同。這是因為機器學習工作流程的每個步驟都有不同的需求。例如，能耗對於在移動設備上運行的計算機視覺系統來說可能非常重要，雖然該系統最初在數據中心上訓練時能耗可能並不重要。

背景：從 CPU 到 GPU

GPU 是當今機器學習工作流程的支柱，也是訓練和推理的主要平台，被廣泛用於基礎研究及市場上機器學習驅動產品的實際開發和部署。

GPU 在機器學習中發揮的巨大作用來自一個意想不到的歷史融合。顧名思義，GPU 最初是為支持計算機圖形和圖像處理應用而設計的。為此，GPU 採用了一種架構，將計算任務分布在大量要並行處理的內核中。這點與 CPU 不同，CPU 採用的內核數量更少，功能更強大，優化後只需同時處理幾個任務。

這種並行架構使得 GPU 非常適合機器學習應用。從根本上說，神經網路的訓練和推理依賴於大量相同矩陣乘法運算的執行。

日益專門化：FPGA 和 ASIC

作為機器學習的主要硬體平台，GPU 的新用途反映了現有技術的選擇。隨著機器學習熱度越來越高，專門為這些應用程序設計硬體的想法也變得更有吸引力。業內的討論聚焦於將現場可編程門陣列（FPGA）和專用集成電路（ASIC）作為機器學習下一個主要平台的可能性。

FPGA 不同於 CPU 和 GPU，因為它不在存儲的內存中運行程序。相反，FPGA 是標準化「邏輯塊」的集合，一旦收到製造商的晶元，編程人員就可以配置這些邏輯塊之間的關係。ASIC 是專門為某一目的而設計的晶元板，在製造後不容易重新配置。

在機器學習推理的背景下，FPGA 和 ASIC 特別有吸引力。這兩種設備的能耗都小於 CPU 和 GPU，而且由於它們更加專業，其速度也更快。這些優勢以損失靈活性、增加成本為代價。FPGA 和 ASIC 無法輕易、快速配置來用於執行各種各樣的任務。與 CPU 和 GPU 相比，它們都更貴一些。ASIC 價格更高，因為它是「定製」項目，生產成本高、耗時長。這使得它們只有在大量使用時才具有成本效益。

前景

目前仍然不清楚更專門化、更不靈活的硬體是否會取代 GPU 在機器學習訓練和推理中的地位。FPGA 和 ASIC 生產商發布的性能基準表明在兩類任務上它們都能顯著超越 GPU。谷歌聲稱，相比當前的 GPU 和 CPU，其 TPU ASIC 能以 15 到 30 倍的速度執行推理。而聚焦於機器學習專用硬體的創業公司 Graphcore 也聲稱，他們的 8 塊「IPU」卡擁有相當於 128 塊當前 GPU 卡的性能。

儘管如此，基準問題仍然存在，系統地評估這些宣言也很有挑戰性。GPU 領導者英偉達對谷歌宣稱的 TPU 性能提出了挑戰，並指出谷歌的晶元無法與英偉達最新一代硬體進行比較。同時，半導體行業目前並不像在 CPU 領域中那樣擁有評估機器學習專業硬體的通用方案。

影響：訓練和推斷的地理布局

1.推斷的地理布局

機器學習可以不斷被集成到各種產品和服務中，並且在一些以前認為不切實際的情況下使用。對於公民自由意志主義者來說，FPGA 和 ASIC 支持將機器學習作為一種監控手段來使用：小型、低功耗的設備現在可以結合計算機視覺的進步來識別人和物體，即使是在帶寬較低的地區。對於那些擔心機器學習被濫用的人來說，專門化硬體可能效果更好，因為其中的不法活動更容易被追蹤和截斷。

另一個令人擔憂的事實是，當發現缺陷後，FPGA 和 ASIC 不夠靈活的架構可能會使修復機器學習系統變得更具挑戰性。越來越多的研究繼續強調這一點，即機器學習系統經常會產生偏見、歧視性的結果，並且可能容易受到惡意操縱。當一個訓練好的機器學習模型被「硬連線」到晶元中時，發現它有這些缺陷可能會使修復過程變得更加昂貴和漫長，因為它需要更換處理器本身，而不是修改軟體。這種問題在「嵌入式」環境中比較常見，在這種環境下，晶元隨產品一起銷售和分發，一旦晶元離開工廠，就沒有統一的方法來改變它們的行為。

同時，FPGA 和 ASIC 也提出了一種可能性，即機器學習可能會以更穩健的隱私保護方式來構建。因為專門的計算能力使得機器學習推斷能夠在設備端完成。

隨著用於機器學習的 FPGA 和 ASIC 進入市場，並試圖在該技術的應用中找到可行的位置，這種情況一直懸而未決。

2.訓練布局

意識到訓練布局和推理布局非常不同是很重要的。FPGA 和 ASIC 在傳統上限定於作為機器學習系統訓練的平台。同時，在使用專業硬體進行訓練這一方向上，谷歌和其它公司也在持續探索，近期的現實情況表明對於很多研究者和從業者而言，在訓練階段中 GPU 仍然是主導。並且由於訓練過程在可見未來內也許仍然是計算密集的，很可能機器學習模型的構建將仍然在集中化的數據中心上進行。

這種機理模式會影響機器學習的管理。對最複雜、最精細模型的訓練將繼續在少數有財力維持或租用必要計算能力的參與者中進行。然而，一旦訓練完成，機器學習模型就可以更廣泛地傳播與部署。毫無疑問，一些類型的機器學習模型將繼續接受「作為服務」，推理會在雲中進行。然而，FPGA 和 ASIC 打開了推斷的大門，不再局限於這種特殊方式。同時，這些平台——特別是 ASIC——更加不靈活，使得分布後更加難以修改。

第三部分：供應鏈和算力

CPU、GPU、FPGA 和 ASIC 都是複雜的半導體全球供應鏈中的最終產品。上文我們探討了改變計算架構對機器學習的社會影響，現在我們深挖半導體製造業更廣泛的商業影響力。

半導體製造業的地理位置和在國家安全中的戰略資產地位使得算力成為 AI 地緣政治的重要競技舞台。

半導體供應鏈

第二部分討論的硬體平台只是半導體行業的一個維度。半導體晶元，這種「由數十億部件組成，用於存儲、傳輸和處理數據的小型電子設備」是「信息時代的基礎建設技術」。這些晶元使計算機能夠運行軟體應用，是「從手機到遊戲系統，再到飛機和工業器械、軍事設備和武器」等大量設備的關鍵組成部分。鑒於其廣泛應用，半導體是一個體量龐大的全球行業。2015 年，全世界的半導體銷售額達到 3350 億美元，比 2012 年增長 15%。

生產一塊半導體晶元需要很多步驟。一些公司是「集成器件製造商」（IDM），管理從始至終的整個半導體生產流程，包括設計、製造、裝配、測試和包裝。採用該模型的企業包括英特爾、三星和德州儀器。

但是，很多企業僅負責供應鏈中的特定部分，將該生態系統中的任務按需求外包給其它公司。在機器學習硬體的討論中，「無晶圓廠（fabless foundry）」的角色非常重要。這些企業主要負責設計半導體晶元然後將晶元製造工序外包出去，通常叫做「fabrication」。採用這一模型的企業包括 AMD、Broadcom、Qualcomm。機器學習硬體開發的領導企業中有很多都是「fabless」。這樣這些企業就避免了大量資金支出，節省了構建和維護晶元「製造」的費用。建立一家半導體製造高級工廠耗資可能高達 200 億美元。

GPU 市場由英偉達主導，這是一家無晶圓廠（fabless）。根據一份行業分析，2017 年第三季度，英偉達占 GPU 市場份額高達 72.8%，剩餘份額由 AMD（另一家 fabless foundry）控制。兩家公司的總部都在加州聖塔克拉拉。

FPGA 市場同樣由幾家 fabless foundry 主導。2016 年，賽靈思以 53% 的市場份額主導 FPGA 市場。另一家 FPGA 生產商 Altera 公司佔據 36% 的市場份額，該公司於 2015 年被英特爾收購。隨後是競爭者 Microsemi (7%) 和萊迪思半導體公司（Lattice Semiconductor）(3%)。從 2015 年開始 FPGA 市場的局勢大致保持穩定。這些公司全都在美國，且除了萊迪思，其它公司的總部都在加州。

評估機器學習專用晶元 ASIC 的市場份額則更具挑戰性。首先，該市場仍在快速發展：目前在 ASIC 的大規模生產和銷售方面沒有強力玩家。截至本文寫作時，僅谷歌將其 TPU ASIC 分配給少數研究者，並通過谷歌雲服務提供有限的 TPU 計算循環（computing cycle）。由於這些晶元是為特定目標而高度定製的，最終定義 ASIC 這一「市場」可能比較有難度。

由於機器學習硬體的主導者是「fabless foundry」，它們依靠該生態系統中的其它公司來提供其設計晶元的實際產品。僅製造晶元的這些公司叫做「純晶圓代工企業」（pure play foundry）或「晶圓代工廠」（foundry），該領域是高度整合的。2016 年，台積電（TSMC）佔據晶圓代工全球市場的 59%。其後是 GlobalFoundries（11%）、聯華電子 (UMC) (9%) 和中芯國際 (SMIC) (6%)。TSMC 和 UMC 的總部在台灣，SMIC 在中國，GlobalFoundries 在美國。儘管 GlobalFoundries 在美國，但是它由阿布扎比酋長國國有投資機構阿布扎比高級技術投資公司（ATIC）控股。

設計機器學習晶元的主要「fabless foundry」之間的關係較為穩定，少數企業承包晶元製造任務。在 GPU 領域，英偉達將大量高性能 GPU 生產任務外包給台積電。2009 年，GlobalFoundries 不再屬於 AMD 晶元製造業務的一部分，因為當時 AMD 謀求轉型為「fabless foundry」。由於這一歷史關係，AMD 與 GlobalFoundries 合作密切，不過 AMD 最近宣布將把新 GPU 生產任務分配給 GlobalFoundries 和台積電。

在 FPGA 領域，晶元設計者和代工廠之間的關係稍微不同。賽靈思過去與聯華電子合作，但是近期硬體的生產將更多與台積電合作。Altera 2015 年被英特爾收購，它主要承接英特爾的硬體製造任務。萊迪思與聯華電子和台積電合作，還有一些小的代工廠。

這些競爭者的地理分布反映了該行業的整體結構。美國企業佔據全球市場的最大份額，2016 年半導體銷售額佔全球市場的 50%。但是，半導體設備的實際製造主要在美國以外的其它地區。2015 年，世界 3/4 的高級半導體製造產能位於韓國、台灣、日本。這將繼續推動半導體製造從美國向亞太地區的轉移這一歷史趨勢。1980 年，美國佔據全球半導體製造產能的 42%，這一數字逐年下降，2007 年該數字降至 16%。