在這個很多人為「NPU」而興奮的當下,我這有盆冷水想潑
「專人專事專辦」聽起來是個很誘人的事情,當在某一方面有需要就去找專門對應的人員或是硬體進行快速處理和反饋,這個道理似乎很簡單。然而在當今的移動領域滿足人工智慧運算需求這方面,移動平台製造商們分成了2個派系。其一是「專人專事專辦」的獨立NPU;與之對立的是以「人多力量大」為指導,調用整個晶元不同組件的不同內核進行異構運算。
說實話我們對獨立NPU這東西其實抱著一定的懷疑態度,並且並不認為它絕對能夠大幅度增強一個移動平台整體的人工智慧性能。給移動平台晶元內增加一個NPU專門處理人工智慧運算任務,就好像ZAEKE知客招聘一個全職攝影師專門負責幫編輯們拍攝評測所需配圖一樣,聽起來似乎是各司其職的好想法但實際執行起來卻並不那麼理想。
原因很簡單,因為每個編輯在寫文章的時候都會有自己的想法。所以那位全職攝影師不但要有良好的拍照技術和效率,更要能充分理解每位編輯在寫每一篇文章時的想法,才能做到真正的圖文和諧。而真正有這個本事的攝影師大多不是ZAEKE知客這座小廟容得下的大佛,更別提額外的薪資支出了。
雖然這話有點糙,但道理就是這樣。因為一個專精於某一種應用的單元雖然在處理自己對應的任務時可以兼顧高性能和低功耗,但是在進行其他應用的時候這一單元卻不能發揮作用。如果一個NPU需要跟上快速發展的移動人工智慧的步伐,那麼移動平台的製造方智能無休無止地給這個NPU做加法,導致這個NPU在每次更新換代後變得更大更耗電,新的人工智慧應用也不能被舊的NPU加速,最終背離為移動平台晶元加入NPU的初衷。
所以不管從什麼角度來看,讓寫稿的編輯自己根據自己需要去準備配圖都是最好的方案(笑)。
人工智慧並不是一顆晶元,或是晶元里某一個單元的事情——前面派系2的主推者高通就是這麼認為的。
這就是高通這邊一直很排斥「NPU」這個說法,而不停地強調「高通人工智慧引擎AI Engine」這一概念的原因。高通的理念很簡單,通過一款移動平台內部CPU、GPU和DSP(Hexagon處理器)的協作,或專業點稱之為「異構計算」,將不同的人工智慧運算需求分配到移動平台中不同的部分,最終實現在整個移動平台內部高效且快速地完成人工智慧運算任務。
高通人工智慧引擎AI Engine這個概念最早可以追溯至2015年,當年高通推出了驍龍820。在這款當年的旗艦移動平台上,高通特別將DSP作為整個晶元的一個重要組成部分提及,並且也啟用了新的Hexagon 680命名。Hexagon 680 DSP和高通之前集成於移動平台中的DSP相比新增了「向量擴展(HVX)」單元,讓DSP在移動設備運行的過程中參與到計算和處理裡面去,降低移動平台整體功耗的同時,提升處理速度。
當然,在那個時候「人工智慧」的概念遠不如今天這般火熱,所以高通人工智慧引擎AI Engine這個名字是在稍遲些時候,也就是支持AI Engine的高通驍龍660發布之後才大規模進入我們的視野。
在即將標配於眾多2019旗艦智能手機里的驍龍855中,高通人工智慧引擎發展至了第四代。第四代AI Engine依舊是用著CPU、GPU和DSP處理器多處理內核協作的異構運算策略。得益於技術的發展,第4代AI Engine每秒鐘能夠進行超過7萬億次運算——其性能達到了上一代產品(驍龍845)的3倍以及競爭對手的2倍。
這些性能提升從何而來呢?
從最好理解的開始,是全新的7nm製程工藝帶來的性能密度提升,製程工藝的進步使得移動平台晶元本身的性能比起上一代就上了一個台階。Kryo 485 CPU不僅擁有比上一代產品高45%的性能,還支持全新的點積指令。而且,Adreno 640 GPU的算術邏輯單元(ALU)數量比起上一代產品增加了50%,整體性能提升20%。
至於新一代的Hexagon 690處理器,改變就更多了。
在高通,Hexagon DSP有了簡單易懂的名號,開始「自立門戶」的那天起,搭載了Hexagon DSP的設備在人工智慧領域就有硬體層面的優勢。因為首先和固定功能的「NPU」相比,Hexagon DSP擁有更高的可編程性和客制化能力,並且擁有極為優秀的多線程與平行運算能力,使得設備的機器學習性能更強。
其次,由於高通當時在設計Hexagon DSP之初就堅定了異構計算的策略,於是在驍龍移動平台中的Hexagon DSP擁有一條直接連接至影像感測器的匯流排。如此在進行圖像識別、AR/XR等應用場景下,影像感測器捕捉的圖像可以直接被DSP讀取而不經過設備的內存,大大縮短了影像處理所需要的時間——事實上谷歌在研發出自己的Pixel Visual Core晶元之前,就是利用高通Hexagon DSP來處理HDR+的繁重計算任務。曾經曇花一現,支持的谷歌Project Tango的華碩ZenFone AR也利用了這一特性來加速AR視覺的生成。
在新一代的Hexagon 690處理器裡面,高通直接將內置向量擴展內核(HVX)的數量翻番至4個,以更好地配合同樣集成於Hexagon 690裡面的4個線程標量內核。當然因為製程工藝和架構設計的進步,Hexagon 690 里本身單個HVX的性能就比上一代強了20%。
Hexagon 690裡面的另一個重要創新,在於一個全新設計的Hexagon張量加速器(Hexagon Tensor Accelerator,HTA)的加入,在業界可能會被稱之為NPU、DLA、神經網路引擎等等,這也是張量加速單元首次出現在移動平台晶元當中。對於Hexagon 690處理器以及整個驍龍855移動晶元平台來說,HTA將作為硬體級別的加速器,專門針對高開銷等級的矩陣乘法運算,以及在硬體層級作為非線性功能的加速器。
為啥Hexagon張量加速器(HTA)的加入對於Hexagon 690乃至整個第四代高通AI Engine是非常重要的嘞?因為對於計算機,尤其是智能手機這樣的強調移動性的計算平台來說,進行張量計算,比如大規模乘法運算的代價非常高昂。單純通過CPU或是GPU去進行運算不僅效率偏低,並且所需要的功耗也會直線上升。通過加入HTA張量加速器單元,移動平台就可以在運算效率和所消耗的電能之間取得平衡。
此外,在正式介紹Hexagon 690處理器的同時,高通表示還會在將來升級這個HTA模塊,以便它支持更大規模的張量計算。這一模塊作為Hexagon 690裡面的重要組成部分,會和Hexagon中的標量以及向量運算模塊共同完成所面對的人工智慧運算。
簡單點說,得益於新加入的HTA單元,Hexagon 690擁有更強的語音識別能力、機器學習能力以及圖像識別能力。這一能力將幫助搭載驍龍855移動平台的設備更準確地識別喚醒熱詞、直接在本地進行語音指令分析以及基於人工智慧的通話背景環境音消除;或者是對攝像頭所拍攝到的畫面進行更深度的優化,大幅度提升成片品質。
所以,Hexagon 690如今已經成為了在驍龍855移動平台中一個支持聲音/圖像處理、AI運算、機器學習、語音識別的重要部分。在整個高通人工智慧引擎的架構中,它不僅肩負著低功耗快速處理相對較低精度人工智慧運算需求的重任。還會智能地根據實際需要,以「上帝視角」在高通人工智慧引擎內部分配計算任務——至於開發者所需要做的,只是將人工智慧演算法丟給驍龍855而已。
有意思的是,和獨立的NPU那種類似於「專人專事專辦」的設定相比,由於本身在設計之初就是走著異構計算的思路,所以由Kryo CPU、Adreno GPU以及Hexagon處理器組成的高通 AI Engine有更高的開放程度。由於人工智慧運算任務會在驍龍855移動平台內根據需要對運算任務靈活分配,也使得這套人工智慧引擎系統能夠被更輕鬆地應用到移動平台的其他部位,比如主要負責相機圖像處理的ISP。
「AI相機」是個我們已經聽得耳朵要長繭的營銷辭彙,而智能手機廠商們所推出的「AI相機」大部分指的是相機的場景識別功能。確實隨著移動平台晶元性能的發展,乃至近年來移動平台人工智慧運算能力的加強和獨立NPU單元的加入,「AI相機」們識別場景的速度和準確度都讓人刮目相看。
但是在我們看來,簡單地將一個智能化場景識別功能當做「AI相機」未免有點太過片面了。人工智慧這四個字本該有很多可能,場景識別只是其中一個。與相機結合的時候,人工智慧的能力不該僅限於區分畫面中的花花草草,然後給整個畫面套一個艷麗到有些虛假的濾鏡。
既然人工智慧的應用領域包含有圖像識別,那麼為啥不想想辦法讓移動平台內部的圖像處理器也聰明起來呢?
這就是驍龍855里人工智慧技術另外一個重要的應用領域——計算機視覺ISP(CV-ISP)。驍龍855移動平台裡面集成的Spectra 380 ISP是世界上第一個擁有計算機視覺功能的圖像處理器,並且它在工作時還會和高通人工智慧引擎AI Engine合作,將圖像處理的效率和性能提升到全新的高水準。
在之前的移動平台中,圖像處理器(ISP)的工作是將相機感測器(類似於人眼睛裡的視網膜)獲得的原生RAW信號進行轉換獲得照片,相對來說是個功能非常單一的模塊(類似於人大腦中的視覺中樞)。至於那些聽起來高大上又酷炫得很的場景識別、物體追蹤則是由移動平台晶元中其他部分(類似於人類大腦中負責認知的部分)去觀察、處理和計算由ISP傳來的照片完成的。
而高通Spectra 380之所以能被稱為「CV-ISP」,就是因為這顆ISP本身具有了一定的「認知能力」。或者換句話說,高通將人工智慧中的計算機視覺特性「下放」到了Spectra 380裡面。如此它能夠在處理原生圖像信號的同時「看懂」一部分畫面,從而大幅度減輕晶元里其他參與到人工智慧運算的組件的工作負擔,在驍龍855上就是CPU、GPU和Hexagon處理器這三大件。
得益於計算機視覺特性的幫助,Spectra 380支持原生的,硬體層級的多對象分類、多對象追蹤、背景分割、6DoF人體追蹤和基於計算機視覺的防抖。這就像將已經洗凈揀好的新鮮食材放到大廚面前一般,能大幅度提升運算效率並且降低功耗。使用Spectra 380進行6DoF人體追蹤、對象偵測和對象追蹤的功耗僅有單純使用CPU+DSP+GPU進行運算的1/2、1/4和1/4。為ISP加入計算機視覺技術之後,移除了制約著整個移動平台在進行影像處理任務時的性能瓶頸。
在這顆CV-ISP和第四代高通人工智慧引擎的加持下,高通驍龍855移動平台能夠在記錄4K HDR 60fps視頻的同時分析畫面的同時將拍攝主題和拍攝背景完全分離,進行背景虛化、替換或是生成AR/XR影像。這不僅對於智能手機十分有意義,更讓驍龍855很適合用於新一代的AR/VR/XR頭戴顯示裝置。
將眼光投向驍龍855之外,高通人工智慧引擎AI Engine還催生了一個生機勃勃並且處於迅速發展中的巨大生態系統。
首先得益於與微軟的合作,高通的移動平台如今可被用於打造全天在線的Windows PC,這也意味著高通人工智慧引擎是目前世界上唯一一個覆蓋了Windows、Android和Linux三大操作系統的人工智慧生態。
Windows平台的開發者也能夠利用高通人工智慧引擎打造相關的應用。其次通過廣泛的人工智慧語言支持以及Hexagon神經網路庫,應用開發者能夠直接將人工智慧演算法部署於Hexagon向量處理器,加速人工智慧應用的運行和激活。
最後也是最重要的,因為驍龍處理器被廣泛應用於各個層級的Android智能手機中,所以也為高通人工智慧引擎提供了巨大的用戶基數。這也刺激了更多軟體開發商們進行深入的開發和投入。
比如國內知名的人工智慧開發商商湯與曠視科技,就在驍龍移動平台上提供包括單相機背景虛化、面部解鎖等特性在內的神經網路應用。在拍照領域擁有極高知名度的虹軟則非常積極地在這一平台上開發包含人工智慧特性的用戶體驗。另外,在2018年百度則宣布採用高通人工智慧引擎AI Engine,以加速自己PaddlePaddle深度學習平台的應用。
雖然基於智能手機等移動設備的人工智慧已經發展了1~2年,並且取得了相當的成果。可在放眼全局的時候,其實不難看出整個人工智慧產業依舊處於初級,甚至只是萌芽階段而已。
這也是如今人工智慧行業中各種解決方案百花齊放百家爭鳴的重要原因之一,在這個新興的行業和領域裡面,每家都希望自己的方案能夠迅速搶佔市場並且最終成為行業標準,種競爭則是能夠和市場需求一起促進整個行業的進步。基於智能手機的人工智慧,也從最早單純的系統級語音助手,發展成根植在軟體中和硬體晶元里全面提升設備運行效率和使用體驗的重要工具。
所以從這個角度出發,在打造一台具有人工智慧特性的手機、汽車乃至生產機械的時候,並不只是簡單地塞個「NPU」然後把一切相關的運算都丟過去。因為哪怕是發達如人類大腦這樣的器官,也擁有功能截然不同的分區和神經中樞。
比如我們之所以能認出蘋果是蘋果,是因為我們的視覺中樞認出了蘋果的顏色,或是因為我們的觸覺中樞感受到了蘋果的形狀,也可以是因為我們的味覺中樞嘗出了蘋果的香甜。而不是因為我們的大腦裡頭有個所謂的「NPU」,在從視網膜或指尖神經或味覺細胞處獲得了信息並計算之後告訴我們的意識「這是個蘋果」,這樣速度太慢效率也不夠高。
所以答應我,別再把有沒有「NPU」當做評價人工智慧的唯一標準了,好嗎?
※多了些"旗艦元素"的vivo X27,邁出了時尚手機的新一步
※你以為iQOO只有性價比,可它更是個「遊戲怪獸」
TAG:ZAEKE知客 |