10TOPs/W,這家晶元公司「拿下」豐田/寶馬/佛吉亞「GGAI視角」
由於需要巨大的計算能力,感知演算法仍然是自動駕駛汽車的瓶頸。
考慮到自動駕駛與電動汽車的並行發展,巨大感知數據的實時處理對於核心計算晶元的功耗要求提出了更高的要求。
「我們的技術可以在處理大量實時數據的同時,用不到100w的功率完成對整輛車的計算和推理工作。」Recogni公司創始人表示。
這家公司推出的集成模塊,包括三個被動冷卻型圖像感測器、一個深度感測器和一個定製晶元。通過乙太網連接到外部激光雷達或毫米波雷達,晶元使用其他感測器來補充攝像頭感知,識別車輛、行人和其他物體。
這款晶元每秒能執行超過1000萬億次運算(1000TOPs),以每秒60幀的速度捕捉和分析多達3個800到1200萬像素的攝像頭產生的未壓縮視頻流。
更關鍵的是,現有市面上的大多數神經網路加速器技術要麼是針對性能優化,要麼是針對功率優化——沒有一種技術是針對兩者都優化的。
一、汽車邊緣計算進入TOPs/W時代
1000TOPS,100瓦功耗,10TOPs/W是一個什麼概念?
英偉達面向L4/L5的Pegasus晶元,每秒可完成320萬億次浮點計算(320TOPS),功耗為500瓦(換算為0.64TOPs/W),雖然相對Xavier的30萬億次浮點計算性能(30TOPS)提升了10多倍,但功耗也增長數倍。
英特爾旗下Mobileye的EyeQ5計算性能為24TOPS,功耗為10瓦,換算為2.4TOPs/W。整個完整的計算平台可搭載兩塊EyeQ5晶元、一個英特爾凌動C3xx4處理器,可應用於L4/L5。
華為發布的邊緣計算昇騰310晶元的最大功耗為8W,主打高效計算低功耗AI晶元,整數精度(INT8)16TOPS,換算為2TOPs/W。
顯然,Recogni公司的晶元性能遠遠超過目前其他幾家競爭對手的水平,並且已經達到了數據中心級的處理能力。那麼,10TOPs/W是可以達到的嗎?還是說Recogni公司在誇大其詞?
瑞薩電子曾在今年6月宣布,已經開發出一種高效的人工智慧加速器,可以在低功耗下執行CNN(卷積神經網路),其測試性能達到了8.8 TOPs/W。
加速器基於存內計算(PIM)架構,這是一種流行的人工智慧技術,當數據從內存中讀取時,在內存電路中執行乘法和累加操作。
為此,瑞薩開發了一種三值(- 1,0,1)SRAM結構PIM技術,可以執行大規模的CNN計算。然後將SRAM電路與能夠在低功耗下讀出內存數據的比較器相結合。
到目前為止,由於二進位(0,1)SRAM結構只能處理值為0或1的數據,內存中處理體系結構無法實現對單位計算的大規模CNN計算的足夠精度。此外,製造過程的變化導致這些計算的可靠性降低。
三元(- 1,0,1)SRAM結構PIM體系結構採用三元存儲器與簡單的數字計算塊相結合的方式,將硬體數量的增加和計算誤差的增加降到最低。
同時,它允許根據所需的精度在1.5位(三元)和4位計算之間切換比特數。由於這可以在每個用戶的基礎上支持不同的精度和計算規模,用戶可以優化精度和功耗之間的平衡。
當採用PIM結構時,通過檢測SRAM結構中位線電流的值來讀出內存數據。雖然採用A/D轉換器進行高精度的位線電流檢測是有效的,但這種方法增加了晶元面積,佔用了更多的電能。
將比較器(1位感測放大器)與複製單元相結合,可以靈活地控制電流,從而開發出高精度的存儲數據讀出電路。通過停止未激活節點(神經元)的讀出電路的運行,該方法也大大減少了被神經網路操作激活的節點數量,降低到1%左右,進一步降低了功耗。
對於TOPs/W的挑戰,已經成為各大晶元初創公司吸引市場關注的利器。
以色列晶元公司Hailo今年5月發布的首款晶元,也號稱是「世界上性能最好的深度學習處理器」,其中Hailo-8晶元可實現26Tops,而功耗僅為幾瓦。
按照這家公司發布的測試數據,看起來也相當不錯。Hailo-8與英偉達的Xavier AGX在ResNet-50基準上的比較數據,在類似的幀率下,其晶元提供2.8TOPs/W,而英偉達僅僅只有0.14TOPs/W。
當然,一款真正車規級晶元還有很多其他的標準需要考慮,比如成本、軟體成熟度和解決方案的完整性,但是在TOPs/W的原始性能方面能夠擊敗行業巨頭,這無疑「讓人興奮」。
現在,除了英偉達、英特爾、高通等傳統通用晶元巨頭,NXP、瑞薩、TI等汽車晶元龍頭,以及類似Recogni、Hailo、地平線等一批初創公司,都在搶佔未知市場份額。
考慮到這個市場還處於早期階段,而且未來車端邊緣計算晶元的需求量及價值將是數據中心級的數倍,市場空間亦有遐想空間。
二、下一個Mobieye?
Recogni公司的定位是為L2以上自動駕駛汽車徹底變革感測器數據處理。
比如,這款晶元能夠識別(檢測、分割、分類)對象,將深度感測器信息融合到對象中,為決策系統提供16ms以內(城區道路)和8ms以內(高速公路)數據處理延遲。
同時,視覺感知可以實時識別200米以外的小物體,比如交通燈,甚至可以告訴系統燈光是紅色、黃色還是綠色。
該公司負責人表示,與競爭對手的解決方案相比,其視覺處理方案使用一組不同的圖像感測器來識別距離較遠並且體積較小的物體,同時功耗控制在合理範圍內。
識別模塊效率高的原因之一是它依賴於被動冷卻,這意味著不需要耗電的風扇。另一個原因是,內置晶元與三個內置攝像頭的物理距離很近,減少了將感測器數據從攝像頭傳輸到處理晶元的電力消耗。
目前,Recogni公司已經拿到了包括豐田、寶馬、佛吉亞在內的多家汽車製造商和零部件廠商的資金。短期目標是量產用於L2自動輔助駕駛,同時開始針對L3/L4進行研發。
Recogni公司曾宣稱,其系統在圖像分類、目標檢測、動作預測和深度推斷等感知任務上比競爭對手高出兩個數量級。
比如,在基準的ResNet 50上,其系統每秒可以對92,105張圖像進行分類;在RetinaNet-101-800上,每秒執行1,750個推論;在R(2 1)D上,可以同時定位833人。在DepthNet上,每秒能分析3500個場景。
按照計劃,Recogni公司將為OEM提供一個完整的感知、晶元集成模塊。目前,該公司正與多家汽車製造商進行洽談,為他們提供從模塊到軟體的全套支持技術。
※沃爾沃、寶馬、賓士、福特要「搞大事」!「GGAI視角」
※突發!中國兩家激光雷達公司成被告,Velodyne發起專利訴訟戰「GGAI視角」
TAG:高工智能汽車 |