當前位置:
首頁 > 科技 > 重磅!有史以來最大的半導體晶元誕生!1.2萬億晶體管用於AI

重磅!有史以來最大的半導體晶元誕生!1.2萬億晶體管用於AI

引述外媒報道,剛剛,新的人工智慧公司Cerebras Systems推出有史以來最大的半導體晶元。

Cerebras Wafer Scale Engine擁有1.2萬億個晶體管,這是基本的開關電子開關,是硅晶元的構建模塊。1971年英特爾首款4004處理器擁有2,300個晶體管,最近的Advanced Micro Devices處理器擁有320億個晶體管。

大多數晶元實際上是在12英寸硅晶片上創建的晶元集合,並在晶元工廠中批量處理。但Cerebras Systems晶元是在單個晶圓上互連的單晶元。這些互連設計使其全部保持高速運行,因此萬億個晶體管全部一起工作。

通過這種方式,Cerebras Wafer Scale Engine是有史以來最大的處理器,它專門設計用於處理人工智慧應用程序。該公司本周正在加利福尼亞州帕洛阿爾托的斯坦福大學舉行的Hot Chips會議上討論這項設計。

據悉,Cerebras Systems 公司位於加州洛思阿圖斯,公司的聯合創始人及CEO Andrew Feldman此前曾創立伺服器晶元公司SeaMicro,後者在2012年被AMD以3億3400萬美元買下,而此前在這裡工作的四位同事Michael James、 Sean Lie,、Jean-Philippe Fricker、Gary Lauterbach與Feldman共同創立了Cerebras。

目前,這家公司已經完成了1億1200萬美金融資,而PitchBook對其估值8億6000萬美金。

事實上,三星已經製造了一個快閃記憶體晶元,即eUFS,擁有2萬億個晶體管。但Cerebras晶元專為加工而設計,擁有400,000個核心,42,225平方毫米。它比最大的Nvidia圖形處理單元大 56.7倍,該單元的尺寸為815平方毫米和211億個晶體管。

WSE還包含3,000倍的高速片上存儲器,並且具有10,000倍的存儲器帶寬。

該晶元來自Andrew Feldman領導的團隊,後者曾創建微型伺服器公司SeaMicro,並以3.34億美元的價格出售給Advanced Micro Devices。Cerebras Systems的聯合創始人兼首席硬體架構師Sean Lie將概述熱晶元上的Cerebras Wafer Scale Engine。加利福尼亞州Los Altos公司擁有194名員工。

晶元尺寸在AI中非常重要,因為大晶元可以更快地處理信息,在更短的時間內產生答案。減少洞察時間或「培訓時間」,使研究人員能夠測試更多想法,使用更多數據並解決新問題。谷歌,Facebook,OpenAI,騰訊,百度和許多其他人認為,今天人工智慧的基本限制是培訓模型需要很長時間。因此,縮短培訓時間消除了整個行業進步的主要瓶頸。

當然,晶元製造商通常不會製造如此大的晶元。在單個晶片上,在製造過程中通常會發生一些雜質。如果一種雜質會導致晶元發生故障,那麼晶圓上的一些雜質就會擊出一些晶元。實際製造產量僅占實際工作晶元的百分比。如果晶圓上只有一個晶元,它有雜質的幾率是100%,雜質會使晶元失效。但Cerebras設計的晶元是冗餘的,因此一種雜質不會禁用整個晶元。

「腦風雲WSE」專為人工智慧設計而設計,包含了基礎創新,通過解決限制晶元尺寸的數十年的技術挑戰 - 例如交叉光罩連接,良率,功率輸送,推動了最先進技術的發展。和包裝,「在一份聲明中共同創立Cerebras Systems並擔任首席執行官的費爾德曼說。「每個架構決策都是為了優化AI工作的性能。結果是,Cerebras WSE根據工作量提供了數百或數千倍的現有解決方案的性能,只需很小的功耗和空間。「

通過加速神經網路訓練的所有元素來實現這些性能提升。神經網路是多級計算反饋迴路。較快的輸入在循環中移動,循環學習的速度越快,或「訓練」。通過循環更快地移動輸入的方法是加速循環內的計算和通信。

Linley Group首席分析師Linley Gwennap在一份聲明中說:「Cerebras憑藉其晶圓級技術實現了巨大的飛躍,在單片硅上實現了比任何人想像的更多的處理性能。」 「為了實現這一壯舉,該公司已經解決了一系列惡性工程挑戰,這些挑戰幾十年來阻礙了該行業,包括實施高速晶元到晶元通信,解決製造缺陷,封裝如此大的晶元,以及提供高成本 - 密度電源和冷卻。通過將各種學科的頂級工程師聚集在一起,Cerebras在短短几年內創造了新技術並交付了一個產品,這是一項令人印象深刻的成就。「

晶元面積比最大的圖形處理單元多56.7倍,Cerebras WSE提供更多內核進行計算,更多內存靠近內核,因此內核可以高效運行。由於這些大量的內核和內存位於單個晶元上,因此所有通信都保留在晶元上,這意味著它的低延遲通信帶寬是巨大的,因此內核組可以以最高效率進行協作。

Cerebras WSE中的46,225平方毫米的硅包含400,000個AI優化,無緩存,無開銷的計算內核和18千兆位元組的本地,分散式,超高速SRAM內存,作為內存層次結構的唯一級別。內存帶寬為每秒9 PB。這些內核通過細粒度,全硬體,片上網狀連接通信網路連接在一起,可提供每秒100 petabits的總帶寬。更多內核,更多本地內存和低延遲高帶寬結構共同構成了加速AI工作的最佳架構。

「雖然AI在一般意義上使用,但沒有兩個數據集或AI任務是相同的。新的人工智慧工作負載不斷湧現,數據集繼續增長,「Tirias Research首席分析師兼創始人Jim McGregor在一份聲明中表示。「隨著人工智慧的發展,硅和平台解決方案也在不斷發展。Cerebras WSE是半導體和平台設計領域令人驚嘆的工程成就,可在單晶圓級解決方案中提供超級計算機的計算,高性能存儲器和帶寬。

這些公司表示,如果沒有多年與全球最大的半導體代工廠或合約製造商台積電及先進工藝技術的領導者密切合作,那麼Cerebras WSE的創紀錄成就是不可能實現的。WSE由台積電以其先進的16納米工藝技術製造。

台積電運營高級副總裁JK Wang表示:「我們對Cerebras Systems與Cerebras Wafer Scale Engine的製造合作非常滿意,這是晶圓級開發的行業里程碑。」 「台積電的卓越製造和對質量的嚴格關注使我們能夠滿足嚴格的缺陷密度要求,以支持Cerebras創新設計前所未有的晶元尺寸。」

核心和更多核心

WSE包含400,000個AI優化的計算核心。被稱為稀疏線性代數核心的SLAC,計算核心靈活,可編程,並針對支持所有神經網路計算的稀疏線性代數進行了優化。SLAC的可編程性確保內核可以在不斷變化的機器學習領域中運行所有神經網路演算法。

由於稀疏線性代數核心針對神經網路計算基元進行了優化,因此它們可實現業界最佳利用率 - 通常是圖形處理單元的三倍或四倍。此外,WSE核心包括Cerebras發明的稀疏性收集技術,以加速稀疏工作負載(包含零的工作負載)的計算性能,如深度學習。

零在深度學習計算中很普遍。通常,要相乘的向量和矩陣中的大多數元素都是零。然而,乘以零是浪費硅,功率和時間,因為沒有新的信息。

因為圖形處理單元和張量處理單元是密集的執行引擎 - 設計為永不遇到零的引擎 - 它們即使在零時也會乘以每個元素。當50-98%的數據為零時,如深度學習中的情況一樣,大多數乘法都被浪費了。想像一下,當你的大部分步驟沒有讓你走向終點時,試圖快速前進。由於Cerebras稀疏線性代數核不會乘以零,所有零數據都會被濾除,並且可以在硬體中跳過,從而可以在其位置上完成有用的工作。

記憶

內存是每個計算機體系結構的關鍵組件。更接近計算的內存轉換為更快的計算,更低的延遲和更好的數據移動功效。高性能深度學習需要大量計算,並且頻繁訪問數據。這需要計算核心和存儲器之間的緊密接近,這在圖形處理單元中並非如此,其中絕大多數存儲器是緩慢且遠離的(片外)。

Cerebras Wafer Scale Engine包含更多內核,具有比迄今為止任何晶元更多的本地內存,並且在一個時鐘周期內可以通過其核心訪問18 GB的片上內存。WSE上的核心本地內存集合可提供每秒9 PB的內存帶寬 - 比領先的圖形處理單元多3,000倍的片上內存和10,000倍的內存帶寬。

通訊結構

Swarm通信結構是WSE上使用的處理器間通信結構,它以傳統通信技術的功耗的一小部分實現突破性帶寬和低延遲。Swarm提供低延遲,高帶寬的2D網格,可連接WSE上的所有400,000個核心,每秒帶寬為100 petabits。Swarm支持單字活動消息,可以通過接收內核來處理,而無需任何軟體開銷。

路由,可靠的消息傳遞和同步在硬體中處理。消息會自動激活每個到達消息的應用程序處理程序 Swarm為每個神經網路提供獨特的優化通信路徑。軟體根據正在運行的特定用戶定義的神經網路的結構,配置通過400,000個核心的最佳通信路徑以連接處理器。

典型消息遍歷一個具有納秒延遲的硬體鏈路。Cerebras WSE的總帶寬為每秒100 petabits。不需要諸如TCP / IP和MPI之類的通信軟體,因此避免了它們的性能損失。該架構中的通信能量成本遠低於每比特1焦耳,這比圖形處理單元低近兩個數量級。通過結合大量帶寬和極低的延遲,Swarm通信結構使Cerebras WSE能夠比任何當前可用的解決方案更快地學習。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技新鮮匯 的精彩文章:

重要!英國首個5G網路明天將在六個城市上線
蘋果已經在生產10.2寸iPad,16寸MBP將於秋季上市!

TAG:科技新鮮匯 |