雲知聲拿出首款面向物聯網的AI晶元,這是全棧技能與平衡藝術
經過幾年的技術發展,技術服務的趨同需要這些公司從內部結構挖掘差異化競爭的新核心優勢,與此同時,百萬量級的通用模組應用也讓既有方案高成本弊端充分暴露出來。平衡這些訴求,重構架構的專用型晶元似乎成了唯一的選擇。
撰文 | 微胖
「下周就能看到封裝好的晶元了。」在雲知聲位於冠捷大廈辦公室接受採訪的 CEO 黃偉,難掩內心的喜悅。
這是國內首枚面向 AIoT (AI+IoT)的 AI 晶元(UniOne),指令集和微架構均由雲知聲自研,擁有全新的晶元結構。
「三年了,我們花費的精力和時間不比這些公司(寒武紀、地平線等公司)少。」黃偉感嘆道,「而且我要強調一下,這不是語音晶元,是針對深度學習進行架構設計,是對計算本身的加速,而不是演算法加速。」
藉由這枚晶元的流片成功,雲知聲也成為中國語音 AI 公司中,第一家擁有自研 AI 晶元的公司。
採訪結束後不久,筆者終於見到了這枚 AI 晶元。
UniOne 量產版
晶元基於 UniOne 的 AI 指令集和 DSP 指令集,針對語音應用場景,將麥克風陣列信號處理、語音識別及語音合成結為一體。
巧合的是,就在那段時間,晶元領域又接連傳來幾枚重磅消息。
阿里宣布全資收購中國大陸唯一的自主嵌入式 CPU IP Core 公司——中天微系統有限公司。而在此之前,阿里達摩院就曾表示正在自研 Ali-NPU。
最近,阿里又宣布全資收購語音信號處理領域的創業公司——北京先聲互聯,意在布局語音專用晶元。這家公司曾為阿里、百度、小米等多家公司提供遠場語音交互軟硬體的解決方案,
放眼海外,亞馬遜自研 AI 晶元已不是新聞。這枚晶元將用於下一代 Echo 設備,提升 Alexa 的響應時間與搜索速度。
「從 400 多人的研發團隊規模來看,應該很早之前就開始做了。」黃偉說。
最近又有消息指出 Facebook 正在研發智能音箱,LeCun 甚至在社交媒體上貼出了 ASIC 與 FPGA 職位的招募信息。
面對越來越熱鬧的賽道,「這證明我們走的路是對的。」黃偉說。三年前,「我們想到做的時候,地平線還沒有成立。我們決定搭建團隊時,地平線剛成立。」
誰也逃不過漫長的研發周期,至少目前「在工業界,我們是走在前面的。」
Bring up,各項工作都完成,可以投向量產了。左一為公司物聯網事業部副總裁李霄寒,右二為公司CEO黃偉
作為大多數語音交互公司演化邏輯的「雲·端·芯」
國內從事語音交互的公司其實不算多,除了 BAT 巨頭,比較知名的公司就是搜狗、科大訊飛、雲知聲、思必馳、出門問問、聲智科技、驀然認知、三角獸等公司,而且以創業公司為主。
在商業模式上,這些技術見長公司的選擇逐漸趨於共性:做 B 端產品公司的技術服務商,提供軟硬一體的解決方案。(做消費類硬體的出門問問和以 G 端業務為主的科大訊飛是兩個比較明顯的例外。)
其背後邏輯並不難理解:就尚處早期的新技術而言,其核心問題往往是「使能」(enabling technology),而這通常是一個軟硬融合的問題。
歷經十多年市場驗證的 Mobileye 模式就是一個典型案例:演算法距離應用場景非常近,而由此產生的優勢就是可以針對使用場景需求研究最適合的演算法框架,然後將演算法框架實現在晶元方案上。在加速技術落地同時,也不斷滾動數據收集,並與行業深度結合。
不過,雲知聲將這個內在邏輯更加形象地概括為了「雲·端·芯」。
調試用的測試封裝。
具體說來,語音AI公司最初會從演算法團隊轉型為「雲平台」商。
語音識別技術最關鍵的是先要有充足的語料積累,不光是找人去錄語音,更需要用戶真實的數據。儘快實現演算法的雲平台化,能夠在短時間內、很低成本地完成大量語音數據積累。
因此,語音技術公司初創後,通常會向擁有海量用戶產品開放 API,將演算法雲平台化,實現演算法團隊到雲平台服務的轉變。而免費+定製化收費(比如與垂直領域緊密結合的 ASR),亦即 Freemium(免費+增值)模式成為語音技術起家公司的多數選擇。
2012 年,成立後短短三個月內,雲知聲就迅速完成了演算法團隊向雲平台服務的轉變,將基於深度學習的語音識別引擎部署到雲端。並隨著技術的變化,逐步擴展了自己的演算法能力邊界,涵蓋信號處理、NLP 等。
「我們做雲,不是閉門造車。而是在商業化落地過程中,結合具體場景演化雲平台。」黃偉說。
藉由觀察到的平台數據,雲知聲逐漸清晰接下來的具體業務方向: 語音與非手機硬體設備的深度交互是未來的方向,IoT 產業下的語音業務大有可為。
比如一方面,平台數據顯示當時比較熱的手機語音助手「是一個偽命題。」用戶活躍度很低,不足以支撐一個商業模式。
而另外一些應用用戶量規模並不是很高,但是它的場景很明顯,比方說汽車和客廳的電視。應用的運行總量也許不大,但每個用戶每天消費頻次非常高。
接下來,由於語音鏈條比較長,為了實現演算法最優效果,在技術落地過程中,技術服務商也需要考慮硬體問題。
事實上,眾多的語音識別廠商也都有聯合晶元廠商推出自己的語音識別模組,或者推出自己的麥克風陣列方案,以提升語音識別的體驗;同時,這種「Turn-Key」解決方案也更有利於傳統硬體廠商快速將新的產品推向市場。
2014 年 3 月,雲知聲正式提出「雲·端·芯」戰略——即從雲平台到設備語音交互,再到設備語音專用晶元與麥克風陣列的集成式解決方案。
「2014 年我們引入了高通的戰略投資。這一年開始研發通用模組,2015 年投入商用。」雲知聲 IoT 事業部副總裁李霄寒說,他也是這枚晶元研發工作的負責人。
無論如何,「先將晶元做出來再說。」黃偉回憶道。
「雲·端·芯」升級迭代的背後:長出來的需求
當大家都還停留在與通用晶元廠商合作定製自己的硬體方案時,這枚流片成功的 AIoT 晶元已經從一定程度上打破了相對穩定了幾年的競爭格局。
「如果說我專註地來做一些事的話,我一定會專註地死去。」黃偉說。
但是,與從演算法轉型雲平台商、再接著做通用模組相比,一家演算法技術公司上溯至產業鏈上游自研晶元,已經打破了既有的市場分工,跨度不可謂不大,更何況當時國內還沒有寒武紀、深鑒科技這樣的晶元公司。
「四年前下這個決心,還是比較難的。」黃偉坦言。做晶元前前後後砸了幾千萬(如果將兼職等其他人員和時間等成本加上,可能是大幾千萬。)「這也是決定難做的一個重要原因。」他說,「不過,有人因為相信而看到。」
企業的核心競爭力無外乎幾種:產品或服務的差異化;規模效應帶來的成本優勢以及網路效應。
然而,經過幾年的技術發展,目前語音識別行業似乎維持著最大平衡,國內外多數公司的引擎識別率都基本在同一個水平線上,接近當前語音識別技術極限。
服務的同質化,加上多數公司業務都有不少重合(比如車載、智能家居、機器人),誰能贏得客戶很大程度上成了拼商務,這也意味著,價格戰甚至惡性競爭幾乎無法避免,畢竟產品方更替方案的成本低。如果技術服務商的供應鏈砍價能力不夠,自身既有方案價格反而還會高出百分之幾十。
因此,現有業務的升級必須訴諸內部結構的優化。這就像谷歌一定要去做 TPU,才可能把它的 AI 服務做得特別好,同時降本並拉開差異化距離。
公司總部一角
「以前的場景,比如移動端、嵌入式端、PC 端都有各自的一些晶元體系作為支撐。」李霄寒說,
「現在, 我們面臨的是 AIoT 場景,需要引入人工智慧的能力。以前既有晶元產品體系無法滿足當前場景的巨大要求。」
對於雲知聲來說,一枚 AIoT 晶元可以幫助實現技術服務的差異化,形成新的核心競爭力。隨著雲知聲自 主 AI 晶元的落地,通過提供標準化的人機交互產品對接介面,可為合作客戶提供允許在端和雲兩方面均可進行高度定製的解決方案。
事實上,近幾年,雲知聲在家居、智能音箱、兒童機器人等市場已經實現百萬級別的 IVM(通用晶元方案)應用,成功驗證了市場、產品和用戶場景的合理性。而返回的數據進一步打磨了演算法,也為 ASIC 晶元的研發奠定了堅實基礎。
「我們做晶元的邏輯和亞馬遜差不多。」黃偉說。
不過,一個更為現實的開「芯」因素是百萬級別 IVM 規模化應用,也將通用方案的弊端充分暴露出來。
本質上,通用方案是一個雙晶元方案。
一方面,通用方案沒有深度學習能力,而應用需要比較高的主頻,比較強的計算能力晶元。另一方面,需要單獨的降噪晶元去跑對實時性要求很高的降噪演算法。
雙晶元,再加上每一個都配備的相應外圍器件,板子不僅會變大,價格也會上去。賣的越多,生產和維護成本也跟著上漲,很大程度妨礙了服務的規模化。
通用模組方案,個頭比較大。
「(是原有方案價格區間)百這個量級的。」李霄寒說。也就是說,BOM 每增加一塊錢,最終到用戶手裡邊的售價就會增加 3 到 8 塊錢(一般在 6 塊錢左右。)如果成本增加了 100 塊錢,最後售價會增加 600 塊錢。
這意味著你有兩個選擇,要麼改變當前比較低成本的產品形態,原來是 500 塊錢區間,現在變成 1000 多塊錢區間的。不過,用戶範圍馬上變了。或者,只能放在相對對成本不那麼敏感的高端產品上,賣一萬塊錢,這個是可以的。但這又大大局限了產品的應用範圍。
通過把成本降下來,可以在原來可能是金字塔尖上那些產品可以為金字塔的主體所用。而在雲知聲看來,這才是物聯網的本來意義。
重構晶元架構的專用型晶元,成為平衡這些訴求的唯一方案。據介紹,UniOne 能將當前語音 AI 的相關的能力能夠充分的發揮出來。
「從前面的評測數據來講,是綽綽有餘的。可以把當前最先進的語音技術放到我們的晶元上跑,完全沒問題。」李霄寒說。
至於有多麼省錢,黃偉舉了一個例子。
以智能音箱為例。跟聲音相相關的部分,BOM 差不多在 100 快左右(看你用幾個麥克風和什麼晶元,基本上在 100 塊左右)。有了這枚晶元,以我們主推方案為例,BOM 可以控制在 3 美金以內。就是說,以前 100 塊錢做的事情,現在十幾塊人民幣可以搞定。我們 3 美金方案做的事情是同價位通用方案的 40 倍。
UniOne : 全棧能力與平衡藝術
和已經呈現紅海狀態的圖像和視頻深度學習加速晶元領域不同,語音交互領域的晶元正處在上升期,目前玩家也比較少。
一個比較重要的原因在於,語音交互鏈條比較長,全棧打通的少。就此而言,這類晶元的設計,比圖像和視頻深度學習晶元更複雜。
雲知聲能將降噪、語音識別和語音合成結合到 UniOne ,離不開雲知聲修建的「高速公路」 Atlas,「你可以叫它雲知聲版本的 TensorFlow」 黃偉說。
公司將統計學習和深度學習的演算法抽象出來,搭建出一個通用 ML 平台。在這條高速公路的幫助下,雲知聲衍生出語音識別、NLP、TTS 等技術。只需少數的人才即可完成全棧的能力,無需(實際上也不可能)為全鏈條的每個技能建造一支深度學習團隊。
「包括我們的晶元也是從這衍生出來的。」黃偉介紹道,指令集(也是最為重要的部分)就是函數,我們將 Atlas 裡面的深度學習的一些常規演算法、函數硬體化了。由於 Atlas 是與硬體耦合在一起(這一點與TF不同)的,因此研發效率也高很多。
雲知聲 CEO 黃偉講述公司為什麼可以在人數並不多的情況下做了這麼多事情。
全棧能力與研發效率固然是一方面,但是讓李霄寒印象最為深刻的體驗是:AI 晶元在保證高性能、高能效比的同時,兼顧靈活性和通用性。他認為,這是晶元設計中最難把握的事情之一。
「我們曾經追求過極致性能,也追求過極致功耗。但後來發現過了一定程度,超出你的需要之後,真心沒那麼重要。追求極致功耗很容易,但是你的成本會上來,技術挑戰也會上來。」李霄寒說。
「風險加大。一旦你失敗,意味著你這一年來白做了。」窗口期的時間成本,誰都浪費不起。
還有演算法方面的平衡。比如,既要考慮到對演算法要有一定的耦合性,這樣才能最優化,又考慮到要降低它的耦合。
而且做智能家居,光有聲音是不夠的,未來還需要畫面甚至執行能力(比如機器人)。 「我們這枚晶元還可以跑圖像。」黃偉說,我們判斷教育未來也應該是多模態的。
過去三年中,雲知聲花了很多時間在調研,而流片時間其實只有半年。
「其餘時間都是利用各種工具在紙上推演。從當初許多選擇,最後剩下一兩個。」李霄寒說。
雲知聲 IoT 事業部副總裁李霄寒
「如果三年前,現在這些晶元創業公司已經存在,你們會選擇與他們合作嗎?」筆者不禁好奇。
「不會」李霄寒坦言。因為無法確定有限時間裡,是否可以做出晶元。不過,最關鍵的是「不知道最後適不適合我們。」
演算法本身是在演進。「這需要晶元公司對演算法有深刻的了解,而且對這個演算法有一個比較強的抽象能力,你對他未來的演進是有足夠的信心,你才去敢為這個東西為它不變的那部分去設計晶元。」李霄寒說。而這,正是很多晶元公司比較糾結的地方。晶元公司永遠不知道哪個時間點演算法會穩定下來。
所謂指令集,其實就是函數。對於演算法公司來說,他們幾乎不可能將核心演算法的源代碼開放給晶元公司。然而,ASIC 存在的目的就是讓深度學習發揮最大威力,如果沒有深度耦合,彼此不能開誠布公,這也就失去研發這枚晶元的真正意義。黃偉補充道。
公開資料顯示,UniOne 功耗與性能的設計上,通過運算單元之間的可編程互聯矩陣,在保證運算效率的同時,採用多級 - 多組 - 多埠的 Memory 架構以保證片內數據 帶寬的提升及降低晶元功耗。
而在架構靈活性方面,通過 Scratch-Pad 將主控 CPU 與 AI 加速器內部 RAM 相連,提供高效的 CPU 與 AI 加速器之間的數據通道,以便 CPU 對 AI 加速器運算結果進行二次處理。
另外,連接各個運算單元的可編程互聯矩陣架構,提供了擴展運算指令的功能,從而進一步提升硬體架構的靈活性及可擴展性。
此外,晶元架構方面的其餘探索還包括多級多模式喚醒、從能量檢測到人類聲音檢測到喚醒詞檢測、針對語音設備及使用場景的定製化 Power Domain 等技術,將晶元功耗降至最低。
如果將鏡頭從語音交互公司身上離開,拉遠至整個物聯網領域的玩家,幾乎所有的互聯網巨頭都進入到了視野。
今年 4 月,阿里高調進軍物聯網。作為電商和雲計算巨頭,阿里無疑具有成為中國版「Echo」的野心。
即將赴港 IPO 的小米也在說明書中表明所募資金的30%將用於 IoT(物聯網)、生活消費產品及移動互聯網服務(包括人工智慧)等生態鏈建設。
陸奇空降百度後,DuerOS 就上升到了與 Apollo 一樣的戰略高度。目前,已經廣泛賦能智能家居、可穿戴、車載和移動多個行業,並與小魚在家、聯想、美的的多家企業達成生態合作。
什麼類型的公司會有更有勝算?是「從軟到硬」的技術公司,還是「從硬到軟」的玩家?還是互聯網巨頭?這枚 AI 晶元又能為「從軟到硬」的公司贏得多大分量的勝算籌碼?
「百度是先 DuerOS,然後通過投資和併購落地。我們是通過晶元模組植入設備來落地,然後同時去滿足雲端服務需求。」黃偉說,一個是自上而下,一個自下而上。
但是,端落地比雲端複雜地多,也不具有很強的複製性,這可能不是巨頭擅長的。巨頭也要補足自己全棧上的短板。
不過有一點是肯定的,由於 AI 晶元的交叉學科性質,這裡存在一定的技術縱深。
「一年前的技術領先可能被後來的人追趕上了,但是這個基礎上,仍然有我們向前進的空間。」李霄寒說。
所以,對於創業公司也好,或者比較有實力技術公司也好,在一定時間之內,它們可以與後面的公司持續性地拉開距離,並保持這一優勢。
而在黃偉看來,現階段最重要的仍然是數據。
「假如我的晶元成本是 2 美金,給車廠賣 8 美金,6 美金里包含了我的利潤,包含了軟體部分。」他說,
「現階段最重要的是讓中國千萬台車植入我們的晶元,所有的數據和服務內容都連接到我們的雲端,這會是更大的價值。」
※在這場AI佔領客廳的戰役中,愛奇藝的武器居然是一塊「奧利奧」
※國家級無人駕駛路測管理規範終於頒布,技術公司看到風向標了嗎?
TAG:機器之能 |