當前位置:
首頁 > 新聞 > Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

打開今日頭條,查看更多圖片

【大咖Live】 人工智慧與晶元專場第一期,我們邀請了知存科技CEO王紹迪,帶來了關於「存算一體AI晶元的架構創新」的主題分享。目前,本期分享音頻及全文實錄已上線,「AI投研邦」會員可進「AI投研邦」頁面免費查看。

本文對本次分享進行部分要點總結及PPT整理,以幫助大家提前清晰地了解本場分享重點。

分享提綱:

  1. AI運算和其瓶頸;

  2. AI存算一體化;

  3. 存算一體化的晶元架構介紹;

  4. 存算一體化晶元的發展和挑戰;

  5. 知存科技簡介。

以下為知存科技CEO王紹迪的部分直播分享實錄,【AI投研邦】在不改變原意的基礎上做了整理和精編。完整分享內容請關注【AI投研邦】會員內容

大家晚上好,我是知存科技CEO王紹迪,今天我來講一下《存算一體AI晶元的架構創新》。非常感謝大家能夠來雷鋒網來參加我的直播課程活動,謝謝大家!

Live回顧:值得你去了解的「存算一體AI晶元技術」

人工智慧晶元是分兩個市場,一個是邊緣市場,一個是雲端市場,雲端晶元主要針對是伺服器類的人工智慧晶元,一般來說它的要求是算力大,然後對成本和功耗是不太在乎的。另外一部分市場就是邊緣市場。比如說像我們手機、可穿戴智能家居,這些市場中用的晶元都是邊緣人工智慧計算的晶元,這類的邊緣晶元它們有多種要求,一個是首先要求晶元的成本必須要足夠低,在邊緣這個場景下,要求功耗要低,另外還是要滿足人工智慧運算所需求的算例。

訓練晶元一般都是在雲端晶元,如果我們看2017年訓練晶元的市場幾乎都是在雲端,而在2023年預計有一部分的端側會有一些訓練的晶元的市場,我認為在端測或者邊緣側,它並不是真正意義訓練,應該只是做一些增強性的訓練應用,而我們看邊緣晶元在2017年也是幾乎大部分都是雲端市場,但是到了2023年在邊緣側晶元的推理側增加的市場是非常大,接近一半了,而且預計在2025年邊緣側的晶元會超過雲端的晶元。在推理市場中,預計在2025年邊緣側的人工智慧晶元的份額將達到200億到300億美元,這是一個非常大的市場。其實在半導體集成電路市場中,這也是一個非常大的一個市場。

Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

接下來講一下人工智慧運算分類,一個是訓練的運算,一個是推理的運算,從功能上來看,訓練的運算就是我們給大量的數據,這個數據都已經標記好了,比如說我標記這張圖他就是一個狗,然後我們經過我們讓我們神經網路進行正向的一個推理運算,然後看神經網路的輸出結果跟我們標記的數據是不是一致,如果不一致,它還會將進行神經網路的反向運算來去修復神經網路中的權重,使得推理運算的結果跟我們標記的一致。比如說訓練的運算,它其實包含兩部分,一部分是正向運算,一步是反向運算,它所包含的計算量是非常大的。

而這種非常大計算量的訓練運算,它就需要晶元首先有很大的算利,它的功耗包括它的體積都很難被控制得住,因此大部分的訓練的晶元都是應用在雲端市場。而推理運算就是完成訓練工作之後,我們已經有一個訓練好的一個神經網路之後,我們就可以用神經網路去進行推理運算,我們可以用它去判斷我們輸入的一張圖片是不是我們是到底是什麼東西,比如說我們給一個狗的圖片,我們經過訓練的過的神經網路推理運算神經網路就可以去判斷這個到底是不是一條狗。

推理運算相比於訓練運算,它所做的計算量是相對少很多的,因為他只做正向的運算,也不需要去反向修復神經網路的權重,因此推理運算有很多的可以放在邊緣側,用一些小型的低成本的低功耗的晶元去完成。這樣的話針對整個雲端一體的這樣的一個市場中,這種邊緣推理的這種一個做法會降低整體成本,同時提升效率。我們就以安防的應用來看邊緣計算和雲端計算在不同場景下對功耗和算力的需求。安防場景下首先最最前邊最右邊就是一個攝像頭,裡邊一般會有一個邊緣的人工智慧推理晶元,功耗一般會要求是在五瓦以下,算力是在1到20Tops之內。

邊緣側的晶元,它需要做的一些事情就是去提取一些他感興趣的行為,做一些簡單的人臉檢測,然後或包括做一些行為識別、車輛檢測,這些運算一般不會太複雜,所以它的算力一般也控制在一個15Tops和20Tops以內。而且在攝像頭裡這種邊緣側的人工智慧晶元,他所接受的信息,就只有大陸的。這一個攝像頭它輸入過來的一路信息,對它的要求就是首先功耗低,攝像頭裡不能放很大的功耗,同時它算力要滿足運算的需求,以及滿足實時性,我要他要做到實時的檢測,去抓拍一些他感興趣的信息。

而從攝像頭提出來有效信息或者感興趣信息之後,他會送到更高一級有更大算力的這樣的一個機器上。一般像現在的情況下,有時候會加一個叫邊緣伺服器,它會收集攝像頭過來的一些信息,邊緣伺服器中會有人工智慧的加速卡,一般它的功耗要小於200瓦,然後他做也是做人工智慧的一些檢測運算,它的算力一般最大有可能會達到200Tops,常見的是100tops以內,這樣的邊緣伺服器的一個應用。

從邊緣伺服器採集到的敏感信息,有的時候會送到雲端上去做,雲端上一般會做一些很複雜的一個運算的,包括對一些非常敏感的信息做一些檢測比對,然後在雲端上面對晶元的要求他算力要大,然後它相當於另外這個單位算力的成本要低,它的功耗要低,因為我們知道在雲端這個數據中心中,一半的錢其實是花在降溫上面,實際上如果晶元的功耗非常大的話,其實需要給它降溫冷卻的成本是非常高的。

Live回顧:值得你去了解的「存算一體AI晶元技術」

接下來講講人工智慧的運算和它的一個瓶頸。我們看深度學習是現在人工智慧中最流行的一種演算法,也是目前商業化落地非常多的一種演算法,就是深度學習。深度學習中其中的一種網路神經網路就叫全連接的神經網路,或者是有一些神經網路中它有一些全連接層,它實際上這種結構是比較簡單,比如說我紅框畫出這個範圍內,全連接層比如說我左邊這邊有M個節點右面N個節點,我左邊這一列的節點和右邊這一列節點,任意兩個節點之間都有這個連線,所以總共有M乘N的連線。

然後他做的運算實際上也是相當於做M乘N的這樣一個矩陣,M乘1這樣一個向量的矩陣乘法運算。M乘N的矩陣裡面有M乘N的權重,比如說M是1000,N是1000的話,這裡邊就有100萬個這樣的權重,這100萬個權重就是神經網路,我們訓練得到的結果它是一個固定的值,就在我們完成訓練之後,這個權重都是已知的。然後輸入,X就是M乘一的這樣一個向量,它裡邊這個值是一些待處理數據,一般是比如說我們輸入的一些語音圖像信息,或者經過神經網路一層輸出之後的這樣的一些臨時數據,這個是一個變數。比如說是經過神經網路訓練之後,我們在做推理運算的時候,M乘N矩陣里的權重都是已知的,然後我們後邊這個向量X個向量是一個變數,就是相當於用一個已知的數去乘一個變數的數。

在之後我們用一個M乘N的矩陣乘一個M乘1的向量,得到的就是一個N乘1的這樣的一個向量,就是這一層神經網路的輸出結果,這層神經網路輸出結果他會繼續放到下一層,繼續做下一層的一個神經網路的一個運算。所以簡單來看神經網路對於全連接層的運算就是一個矩陣乘法運算,矩陣就是有非常多神經網路權重,需要存儲器去存儲下來,同時它輸出運算的結果一般不大,這是一個向量,比如說我們每層一千個節點,它就是1000×1這樣一個數,它權重的需要的數量是非常大的,或者運算量也很大,比如說我M和N都是一千的話,我們矩陣有100萬個權重,它需要完成100萬個乘法和100萬個加法才能去把一層的運算完成。

Live回顧:值得你去了解的「存算一體AI晶元技術」

除去全連接神經網路,神經深度學習中最流行的還有卷積神經網路,這一頁的PPT實際上它本是一個動畫效果,畫了一個如何進行三維卷積的這樣的一個運算。我們這裡一個比較簡單的一個輸入數據,比如說我們正常輸入一個圖像數據,紅黃藍三原色就是RGB值。然後卷積我們這裡假如有一個4×3×3這樣的一個卷積和,這就是一個三維的一個卷積和裡邊總共有4×3×36個這樣的一個權重值,他就會在我們紅黃藍的三成中,在平面上去做平移,然後每當它移動到一個位置,它跟4×3×3卷積和所重合的這些點就是做乘加法運算,它會輸出一個值,然後卷積和就是會在整個的這樣一個區域進行掃描,然後他們每掃描一個點,他做乘加法運算之後就會輸出一個值,掃描完之後就會輸出一層的一個圖像。然後一般不會只有一個卷積和,一般的話我們會有32個64個,然後128、256,甚至有時候達到1024個,就是每個卷積和它會輸出一層的一個圖像,假如我們這個圖像的像素是360×200,它輸出的就是一個300×200這樣一層數據針對每一個卷結合,如果我們有1024個卷積格,就要輸出1024個這麼多的一個數據。因此這個數據量其實是一個非常龐大的一個數。

同時我們比如說1024個卷積和,裡邊所包含的和裡邊這個值,其實他也是神經網路權重,這個值也是一個不小的值,這些都會佔用非常多的一個存儲空間。這一頁就畫了這個當前的一些主流的神經網路中它的所需要的一個存儲權重的一個數量,一般權重的數量會從1兆到200兆佔用這麼大的一個空間,這是針對一個計算,尤其是段元電測計算,這是一個非常大的一個數了。同時除了權重的存儲需要很大的空間,我們在做卷積運算的時候,每層的一個輸出它是一個臨時數據,這個臨時數據所需要佔用的空間更大,有的時候會需會達到甚至上G這麼多的一個臨時數據,也都需要存儲器去把它存儲下來,很多時候晶元片上是很難把這些數據存儲起來,就需要晶元片外去放內存dram去把這些臨時數據給緩存下來。

而從剛才我們卷積運算和全聯接運算,其實可以看到這兩種運算都涉及到非常大的一個存儲空間的使用,像全聯接的運算中神經網路權重值非常多,我們每讀一個權重值過來就只做了一次乘加法運算,但是讀一個權重值所消耗的資源是非常多的,像卷積神經網路,他每完成一層運算,它所需要緩存的臨時數據是非常大的,同時大家做下調預算,還需要把這些緩存的數據在一個個讀出來,再去做下一層的運算,這個也需要做非常多的存儲調用。 這其實是涉及到人工智慧運算中最大的一個瓶頸,就是存儲和運算之間的瓶頸。

Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

Live回顧:值得你去了解的「存算一體AI晶元技術」

部分雷鋒網「AI投研邦」會員問答:

Q: 知存科技的存算一體技術目前是否取得了業內普遍認可?存算一體技術非常複雜,如何保證產品的良率?

A: 首先知存科技得存算一體技術目前並沒有得到業內的普遍認可,其他所有的存算一體公司到目前沒有得到業內的普遍認可,因為目前來看存算一體晶元還沒有進行大規模的量產,但是對於存算一體技術方向以及技術實施方案,目前業內包括大部分的半導體公司以及AI公司都已經認可這種技術方向了。

包括像美國的英特爾、arm、軟銀、微軟、亞馬遜、博世、摩托羅拉等都參與到存算一體技術方向的投資。存算一體技術確實是非常複雜的,這也是為什麼大部分半導體公司AI公司都選擇去投資創業公司去完成這件事情,而不是自己從頭去開發,包括我們公司在存算一體技術上的積累已經也是超過六年才完成,流片已經超過十次,技術本身非常複雜,目前來看良率其實並不是一個問題,因為它本身是一個成熟的工藝,在工藝方面並沒有做調整,所以良率都是可以保證的。

但在晶元不斷的流片設計當中會發現很多新的問題需要去解決,包括一些新的技術優化方式去提高運算效率,在發現這些新的點之後,我們會去改變,優化設計,嘗試提出新的架構,然後去不斷的優化晶元,去把晶元從工作到量產當中這樣去不斷的推進。

Q2: 如果做dram的AI,需要對顆粒做什麼改造,或是對控制器做什麼改造?

A:DRAM做AI我們感覺挑戰難度相對來說是較大一些,DRAM有它的優勢,就是數據量存儲比較多,但劣勢是因為他用電容存儲數據,而且這個電容本身特點一個是存儲的電荷逐漸的減少,它需要經常刷新,然後另外讀出來的數,需要把它區分成一和零,再放到運算單元做相關的運算,所以它首先很難去把存儲和計算結合起來。如果在控制器層角度上去做DRAM的AI運算,大部分控制器也是在DRAM的外邊,所以數據搬運也沒有解決,所以他提升的效率有限。

另外DRAM它如果是做在片內加上乘加法運算單元,再做AI的運算中應該也會有一些效率提升,但是它其實面臨的問題,需要一個比較好的契機,因為在晶元DRAM內部去加運算單元,首先他會把金屬層處提高,把整個的工藝改變,導致晶元的成本提高,另外需要去仔細評估一下這樣的運算方式能夠提高多少倍效率,同時還要再找到一家比較好的一個DRAM廠商去合作,好的DRAM廠商在全球也是少見的。

但是DRAM如果想做比較好的存算一體,其實從單元角度上來說,它可以增大存儲單元,把電容增大,使裡邊電量可以保持較長的時間,同時可以嘗試讓電容保持不同level不同級的電壓,做到一個單元存儲多個電極,然後再去做一些其它類型的運算,不過這個是非常規的一個做法需要做的一個挑戰,也是一個比較大的挑戰,這是我自己隨便想想的一種一個解決方法。

完整內容和PPT查看可進入雷鋒網「AI投研邦」查看

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

華為雲再談尊重數權,意欲普惠AI
進軍邊緣計算,英偉達剛發布的 EGX 平台有何優勢?

TAG:雷鋒網 |