能耗換取靈活性，今天的 FPGA 走錯路了？

新聞 07-29

選自康奈爾大學

作者：Adrian Sampson

機器之心編譯

參與：李詩萌、路

在 FPGA 廣泛應用的今天，康奈爾大學計算機科學助理教授 Adrian Sampson 思考它是否走在正確的路上，如何能夠實現通用 FPGA 等問題。

計算 FPGA

什麼是 FPGA？

我認為架構社區對這個概念沒有一致的定義。我們來看三個可能的答案：

定義 1：FPGA 是一堆晶體管，你可以把它們連接（wire up）起來做出任何你想要的電路。它就像一個納米級麵包板。使用 FPGA 就像晶元流片，但是你只需要買這一張晶元就可以搭建不一樣的設計，作為交換，你需要付出一些效率上的代價。

我不喜歡這個答案。因為它既沒有從字面上解釋清楚人們是如何使用 FPGA 的，也不是一個貼切的比喻。

從字面上講這種說法並不對，因為你並不需要重連（rewire）FPGA，它實際上是一個通過路由網路（routing network）連接的查找表 2D 網格，以及一些算術單元和內存。FPGA 可以模擬任意電路，但它們實際上只是在模仿，就像軟體電路模擬器模擬電路一樣。

這個答案不恰當的地方在於，它過分簡化了人們實際使用 FPGA 的方式。接下來的兩個定義能更好地描述 FPGA。

定義 2：在原型設計和小批量生產中，FPGA 相當於定製晶元的廉價替代方案。如果你要搭建一個路由器，你可以提供現成的 FPGA，並根據你需要的功能編程，從而避免流片的巨大成本。或者如果你要設計一個 CPU，你可以將 FPGA 作為原型：你可以圍繞它構建一個真正可引導的系統，在把設計的 CPU 送到晶圓廠之前，用來測試和演示。

電路模擬是 FPGA 的經典主流用例，這也是 FPGA 最早出現的原因。FPGA 的關鍵在於硬體設計是用 HDL 形式編碼的，而且買一些便宜的硬體就可以得到和 ASIC 相同的效果。當然，你不可能在 FPGA 和真正的晶元上使用完全相同的 Verilog 代碼，但至少它們的抽象範圍是一樣的。

定義 3：FPGA 是一種偽通用計算加速器，與 GPGPU（通用 GPU）類似，FPGA 可以很好地卸載特定類型的計算。從編程角度上講，FPGA 比 CPU 更難，但從工作負載角度上講 FPGA 是值得的：和 CPU 基線相比，好的 FPGA 實現可以提供數量級的性能和能量優勢。

這是與 ASIC 原型設計不同的一個用例。和電路模擬不同，計算加速是 FPGA 的新興用例。這也是微軟最近成功加速搜索和深度神經網路的原因。而且關鍵的是，計算實例並不依賴於 FPGA 和真正 ASIC 之間的關係：開發人員針對基於 FPGA 的加速編寫的 Verilog 代碼不需要與用來流片的 Verilog 代碼有任何的相似性。

這兩種實例在編程、編譯器和抽象方面存在巨大差異。我比較關注後者，我將其稱為「計算 FPGA 編程」（computational FPGA programming）。我的論點是，目前計算 FPGA 的編程方法都借鑒了傳統的電路模擬編程模型，這是不對的。如果你想開發 ASIC 原型的話，Verilog 和 VHDL 都是正確的選擇。但如果目標是計算的話，我們可以也應該重新思考整個堆棧。

GPU 和 FPGA 的類比

讓我們開門見山地說吧。FPGA 是一類很特殊的硬體，它用來高效執行模擬電路描述的特殊軟體。FPGA 配置需要一些底層軟體——它是為了 ISA 編寫的程序。

這裡可以用 GPU 做類比。在深度學習和區塊鏈盛行之前，有一段時間 GPU 是用來處理圖形的。在 21 世紀初，人們意識到他們在處理沒有圖形數據的計算密集型任務時，也會大量使用 GPU 作為加速器：GPU 設計師們已經構建了更通用的機器，3D 渲染只是其中一個應用而已。

計算 FPGA 遵循了相同的軌跡。我們的想法是要多多使用這一時興的硬體，當然不是為了電路模擬，而是利用適合電路執行的計算模式。用類比的形式來看 GPU 和 FPGA，則：

「GPU 之於圖形」相當於「FPGA 之於電路模擬」

為了讓 GPU 發展成今天的數據並行加速器，人們不得不重新定義 GPU 輸入的概念。我們過去常常認為 GPU 接受奇特的、強烈的、特定領域的視覺效果描述。我們實現了 GPU 執行程序，從而解鎖了它們真正的潛力。這樣的實現讓 GPU 的目標從單個應用域發展為整個計算域。我認為計算 FPGA 正處於類似的轉變中：

「GPU 的海量、常規數據並行」相當於「FPGA 具有靜態結構的不規則並行性」

現在還沒有針對 FPGA 擅長的基本計算模式的簡潔描述。但它和潛在的不規則並行性、數據重用以及大多數靜態的數據流有關。和 GPU 一樣，FPGA 也需要能夠體現這種計算模式的硬體抽象：

「GPU 的 SIMT ISA」相當於「FPGA 的 ____」

上式缺少的內容即，在 FPGA 運行的軟體上類似 ISA 的抽象。

RTL 不是 ISA

Verilog 用於計算 FPGA 的問題在於它在低級硬體抽象中效果不好，在高級編程抽象中的效果也不好。讓我們通過反證法想像一下，如果用 RTL（寄存器傳輸級）取代這些角色會是什麼樣。

角色 1：Verilog 是一種符合人體工程學、面向較低級抽象的高級編程模型。在我們的思想實驗中，計算 FPGA 的 ISA 比 RTL 的抽象層次更低：例如網表（netlist）和比特流（bitstream）。而 Verilog 是更高效也更高級的編程模型。

甚至 RTL 專家可能也無法相信 Verilog 是可以高效開發主流 FPGA 的方式。它不會把編程邏輯推向主流。對於經驗豐富的硬體黑客來說，RTL 設計似乎是友好而熟悉的，但它與軟體語言之間的生產力差距是不可估量的。

角色 2：Verilog 是 FPGA 硬體資源的低級抽象。也就是說，Verilog 之於 FPGA 就像 ISA 之於 CPU。Verilog 可能沒那麼方便編程，但對於高級語言編譯器來說，它是一個很好的目標，因為它直接描述了硬體中在發生什麼。如果你需要維持最後幾個百分點性能的時候，它是最後的編程語言選擇。

事實上，對現在的計算 FPGA 來說，Verilog 實際上就是 ISA。主要的 FPGA 供應商工具鏈會將 Verilog 作為輸入，而高級語言的編譯器則將 Verilog 作為輸出。供應商一般會對比特流格式保密，因此 Verilog 在抽象層次結構中會處於盡可能低的位置。

把 Verilog 當做 ISA 的問題是它和硬體之間的距離太遠了。RTL 和 FPGA 硬體之間的抽象差距是巨大的：從傳統角度講它至少要包含合成、技術映射以及布局布線——每一個都是複雜而緩慢的過程。因此，FPGA 上 RTL 編程的編譯/編輯/運行周期需要數小時或數天，更糟糕的是，這是一個無法預測的過程：工具鏈的深層堆棧可能會掩蓋 RTL 中的改變，這可能會影響設計性能和能源特性。

好的 ISA 應該直接展示底層硬體未經修飾的真實情況。像彙編語言一樣，它其實不需要很方便編程。但也像彙編語言一樣，它的編譯速度需要非常快，而且結果可預測。如果想要構建更高級的抽象和編譯器，就需要一個不會出現意外的低級目標。而 RTL 不是這樣的目標。

正確的抽象？

我不知道應該用什麼樣的抽象取代 RTL 在計算 FPGA 中的位置。實際上，只要 FPGA 供應商一直保持底層抽象的保密性和子 RTL 工具鏈的專有性，那就不可能替換 Verilog。或許只有等到硬體發展了才能找到這一問題的長期解決方案，就像 GPU 之前做過的一樣：

「GPU 和 GPGPU」相當於「FPGA 和 ____」

如果計算 FPGA 是特定類演算法模式的加速器，那當前的 FPGA 並不能理想地實現這一目標。在這個遊戲規則下能夠擊敗 FPGA 的新硬體類型，才可能帶來全新的抽象層次結構。新的軟體棧應該摒棄 FPGA 在電路模擬方面的遺留問題，以及 RTL 抽象。

原文鏈接：

https://www.cs.cornell.edu/~asampson/blog/fpgaabstraction.html

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器之心 的精彩文章:

※根據Git推算程序員大佬作息：同樣是熬夜，為什麼他發量那麼多？

TAG:機器之心 |