當前位置:
首頁 > 新聞 > 能耗換取靈活性,今天的 FPGA 走錯路了?

能耗換取靈活性,今天的 FPGA 走錯路了?

選自康奈爾大學

作者:Adrian Sampson

機器之心編譯

參與:李詩萌、路


在 FPGA 廣泛應用的今天,康奈爾大學計算機科學助理教授 Adrian Sampson 思考它是否走在正確的路上,如何能夠實現通用 FPGA 等問題。

計算 FPGA

什麼是 FPGA?

我認為架構社區對這個概念沒有一致的定義。我們來看三個可能的答案:

定義 1:FPGA 是一堆晶體管,你可以把它們連接(wire up)起來做出任何你想要的電路。它就像一個納米級麵包板。使用 FPGA 就像晶元流片,但是你只需要買這一張晶元就可以搭建不一樣的設計,作為交換,你需要付出一些效率上的代價。

我不喜歡這個答案。因為它既沒有從字面上解釋清楚人們是如何使用 FPGA 的,也不是一個貼切的比喻。

從字面上講這種說法並不對,因為你並不需要重連(rewire)FPGA,它實際上是一個通過路由網路(routing network)連接的查找表 2D 網格,以及一些算術單元和內存。FPGA 可以模擬任意電路,但它們實際上只是在模仿,就像軟體電路模擬器模擬電路一樣。

這個答案不恰當的地方在於,它過分簡化了人們實際使用 FPGA 的方式。接下來的兩個定義能更好地描述 FPGA。

定義 2:在原型設計和小批量生產中,FPGA 相當於定製晶元的廉價替代方案。如果你要搭建一個路由器,你可以提供現成的 FPGA,並根據你需要的功能編程,從而避免流片的巨大成本。或者如果你要設計一個 CPU,你可以將 FPGA 作為原型:你可以圍繞它構建一個真正可引導的系統,在把設計的 CPU 送到晶圓廠之前,用來測試和演示。

電路模擬是 FPGA 的經典主流用例,這也是 FPGA 最早出現的原因。FPGA 的關鍵在於硬體設計是用 HDL 形式編碼的,而且買一些便宜的硬體就可以得到和 ASIC 相同的效果。當然,你不可能在 FPGA 和真正的晶元上使用完全相同的 Verilog 代碼,但至少它們的抽象範圍是一樣的。

定義 3:FPGA 是一種偽通用計算加速器,與 GPGPU(通用 GPU)類似,FPGA 可以很好地卸載特定類型的計算。從編程角度上講,FPGA 比 CPU 更難,但從工作負載角度上講 FPGA 是值得的:和 CPU 基線相比,好的 FPGA 實現可以提供數量級的性能和能量優勢。

這是與 ASIC 原型設計不同的一個用例。和電路模擬不同,計算加速是 FPGA 的新興用例。這也是微軟最近成功加速搜索和深度神經網路的原因。而且關鍵的是,計算實例並不依賴於 FPGA 和真正 ASIC 之間的關係:開發人員針對基於 FPGA 的加速編寫的 Verilog 代碼不需要與用來流片的 Verilog 代碼有任何的相似性。

這兩種實例在編程、編譯器和抽象方面存在巨大差異。我比較關注後者,我將其稱為「計算 FPGA 編程」(computational FPGA programming)。我的論點是,目前計算 FPGA 的編程方法都借鑒了傳統的電路模擬編程模型,這是不對的。如果你想開發 ASIC 原型的話,Verilog 和 VHDL 都是正確的選擇。但如果目標是計算的話,我們可以也應該重新思考整個堆棧。

GPU 和 FPGA 的類比

讓我們開門見山地說吧。FPGA 是一類很特殊的硬體,它用來高效執行模擬電路描述的特殊軟體。FPGA 配置需要一些底層軟體——它是為了 ISA 編寫的程序。

這裡可以用 GPU 做類比。在深度學習和區塊鏈盛行之前,有一段時間 GPU 是用來處理圖形的。在 21 世紀初,人們意識到他們在處理沒有圖形數據的計算密集型任務時,也會大量使用 GPU 作為加速器:GPU 設計師們已經構建了更通用的機器,3D 渲染只是其中一個應用而已。

計算 FPGA 遵循了相同的軌跡。我們的想法是要多多使用這一時興的硬體,當然不是為了電路模擬,而是利用適合電路執行的計算模式。用類比的形式來看 GPU 和 FPGA,則:

「GPU 之於圖形」相當於「FPGA 之於電路模擬」

為了讓 GPU 發展成今天的數據並行加速器,人們不得不重新定義 GPU 輸入的概念。我們過去常常認為 GPU 接受奇特的、強烈的、特定領域的視覺效果描述。我們實現了 GPU 執行程序,從而解鎖了它們真正的潛力。這樣的實現讓 GPU 的目標從單個應用域發展為整個計算域。我認為計算 FPGA 正處於類似的轉變中:

「GPU 的海量、常規數據並行」相當於「FPGA 具有靜態結構的不規則並行性」

現在還沒有針對 FPGA 擅長的基本計算模式的簡潔描述。但它和潛在的不規則並行性、數據重用以及大多數靜態的數據流有關。和 GPU 一樣,FPGA 也需要能夠體現這種計算模式的硬體抽象:

「GPU 的 SIMT ISA」相當於「FPGA 的 ____」

上式缺少的內容即,在 FPGA 運行的軟體上類似 ISA 的抽象。

RTL 不是 ISA

Verilog 用於計算 FPGA 的問題在於它在低級硬體抽象中效果不好,在高級編程抽象中的效果也不好。讓我們通過反證法想像一下,如果用 RTL(寄存器傳輸級)取代這些角色會是什麼樣。

角色 1:Verilog 是一種符合人體工程學、面向較低級抽象的高級編程模型。在我們的思想實驗中,計算 FPGA 的 ISA 比 RTL 的抽象層次更低:例如網表(netlist)和比特流(bitstream)。而 Verilog 是更高效也更高級的編程模型。

甚至 RTL 專家可能也無法相信 Verilog 是可以高效開發主流 FPGA 的方式。它不會把編程邏輯推向主流。對於經驗豐富的硬體黑客來說,RTL 設計似乎是友好而熟悉的,但它與軟體語言之間的生產力差距是不可估量的。

角色 2:Verilog 是 FPGA 硬體資源的低級抽象。也就是說,Verilog 之於 FPGA 就像 ISA 之於 CPU。Verilog 可能沒那麼方便編程,但對於高級語言編譯器來說,它是一個很好的目標,因為它直接描述了硬體中在發生什麼。如果你需要維持最後幾個百分點性能的時候,它是最後的編程語言選擇。

事實上,對現在的計算 FPGA 來說,Verilog 實際上就是 ISA。主要的 FPGA 供應商工具鏈會將 Verilog 作為輸入,而高級語言的編譯器則將 Verilog 作為輸出。供應商一般會對比特流格式保密,因此 Verilog 在抽象層次結構中會處於盡可能低的位置。

把 Verilog 當做 ISA 的問題是它和硬體之間的距離太遠了。RTL 和 FPGA 硬體之間的抽象差距是巨大的:從傳統角度講它至少要包含合成、技術映射以及布局布線——每一個都是複雜而緩慢的過程。因此,FPGA 上 RTL 編程的編譯/編輯/運行周期需要數小時或數天,更糟糕的是,這是一個無法預測的過程:工具鏈的深層堆棧可能會掩蓋 RTL 中的改變,這可能會影響設計性能和能源特性。

好的 ISA 應該直接展示底層硬體未經修飾的真實情況。像彙編語言一樣,它其實不需要很方便編程。但也像彙編語言一樣,它的編譯速度需要非常快,而且結果可預測。如果想要構建更高級的抽象和編譯器,就需要一個不會出現意外的低級目標。而 RTL 不是這樣的目標。

正確的抽象?

我不知道應該用什麼樣的抽象取代 RTL 在計算 FPGA 中的位置。實際上,只要 FPGA 供應商一直保持底層抽象的保密性和子 RTL 工具鏈的專有性,那就不可能替換 Verilog。或許只有等到硬體發展了才能找到這一問題的長期解決方案,就像 GPU 之前做過的一樣:

「GPU 和 GPGPU」相當於「FPGA 和 ____」

如果計算 FPGA 是特定類演算法模式的加速器,那當前的 FPGA 並不能理想地實現這一目標。在這個遊戲規則下能夠擊敗 FPGA 的新硬體類型,才可能帶來全新的抽象層次結構。新的軟體棧應該摒棄 FPGA 在電路模擬方面的遺留問題,以及 RTL 抽象。

原文鏈接:

https://www.cs.cornell.edu/~asampson/blog/fpgaabstraction.html

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心 的精彩文章:

根據Git推算程序員大佬作息:同樣是熬夜,為什麼他發量那麼多?

TAG:機器之心 |