一家 AI 公司的多模態場景突圍：軟硬結合，端雲互動

科技 01-24

在經歷了 2018 年的商業化洗禮後，國內人工智慧企業愈發重視技術和產品方案的完整性和普適性。

半年前，雲知聲發布了首款面向物聯網的 AI 晶元雨燕（Swift）；半年後，雲知聲宣布了多模態 AI 晶元戰略，曝光了正在研發的三款 AI 晶元：第二代物聯網語音 AI 晶元雨燕 Lite、面向智慧城市的支持圖像與語音計算的多模態 AI 晶元海豚（Dolphin），以及面向智慧出行的車規級多模態 AI 晶元雪豹（Leopard）。

從 2015 年晶元項目確立並搭建團隊「正規軍」，2017 年「造芯」項目進入攻堅階段，再到 2018 年 1 月做出第一個 MPW（多項目晶圓），2018 年 5 月份做了發布首款晶元，6 月份啟動量產，9 月份發布了基於雨燕的開源方案，雲知聲的腳步沒有停歇。緊跟著，晶元設計團隊從語音技術轉戰至圖像 IP 設計。

在經歷了 2018 年的商業化洗禮後，國內人工智慧企業愈發重視技術和產品方案的完整性和普適性。當人工智慧在應用場景的加速落地，AI 晶元的價值毋庸贅言，而「多模態」一詞開始被越來越多地提及。

商業變現更進一竿

隨著技術迭代和場景需求疊加，AI 晶元的邊界發生著微妙變化。2015 年雲知聲決心做硬體時，專門為此在深圳設立分公司。一套完整的晶元開發過程相對漫長，期間不可避免地會涉及演算法迭代，對晶元的研製速率造成影響。雨燕從設計到研發，直至最終量產，時間周期為 3 年。要保證 2015 年立項的晶元，仍適用於時下主流的演算法，雲知聲聯合創始人李霄寒並不否認這項任務的艱巨性。憑經驗對演算法預判之外，團隊還要拿出勇氣和魄力唯此一搏。

作為雲知聲的晶元品牌，「雨燕」是 UniOne 晶元矩陣中的初代產品，它圍繞智能家居和智能音箱等場景，集成 IoT 人機交互的各項技術，雲知聲發布這款晶元時稱讚「雨燕」是以 1／10 的價格挑戰 50 倍的性能。

「第一代 AI 晶元雨燕的架構非常典型。雲知聲做了兩件事情：一是專門設計的具備自主知識產權的高性能 DSP，做音頻數據處理，二是做面向音頻的人工智慧數據/神經處理器。當把這個人工處理器集成進去以後效果是顯而易見的，相對於通用方案提升了 50 倍。在硬體設備方面，因為這個晶元是高度集成的，所以外圍的線路使得很大的成本降低三分之一」，他說。

黃偉表示，雲知聲在晶元上下足了功夫，為 B 端客戶提供了一套完整的解決方案。其不僅利用人工智慧引擎對「雨燕」進行調優，還專門為硬體產品設計 app。客戶即買即用，無需再找其他供應商，這是雲知聲今後晶元提供銷售服務模式。

去年 9 月，雲知聲推出了基於「雨燕」的解決方案，並進行開源，正式推出正對智能家居和智能音箱場景下的解決方案。截至目前，基於「雨燕」的全棧解決方案已導入的各類方案商及合作夥伴已超過 10 家，包括美的、奧克斯、海信、京東、360、中國平安、硬蛋科技等，相關產品有望在今年第一季度上市。

「在 2015 年的這個時間點，我們真心沒有想過 2018 年我們會推出自研晶元，不光做出來而且還賣出去了。」黃偉透露，雲知聲 2018 全年數億元的營收較上年 3 倍的增長，幾乎全部仰仗於晶元的功勞和正確的商業化路徑，預計在 2019 年營收再翻 2-3 倍。而看似幾個億的營業額背後，實則撬動了幾十億甚至上百個億的產值。

另一場革命

在 2012 年公司成立之後，同年 9 月雲知聲就推出了語音識別功能，專門面向端雲互動。經過 6 年多發展，雲知聲已經擁有成面向物聯網單日用量達到 5 億次的雲平台，並為平台開發了 ADPC 模式，它是雲知聲 AI 深度處理的核心。

2014 年初，團隊把語音識別技術分別切入到「AI 生活」和「AI 服務」兩個場景中。很快，演算法平台化的雛形初現，創始團隊很快意識到，光有能力是不夠的。「算力和演算法的融合，同理於技術與場景結合」，於是雲知聲便有了「雲端芯一體化」的產品技術架構。

當雲、端、芯被認作物聯網產品端的三要素，雲知聲立即展開對 IDM 產品的開發，並於在 2015 正式量產，出貨量呈規模性增長。

與此同時，2015 年，雲知聲遭遇來自業務端的「戰術端的挑戰」，主要有兩方面：

第一是來自數據處理的挑戰。在跟用戶打交道的過程中，註定有大量新數據的導入，語音、頭像、手勢等數據需要處理，深度互聯對算力的要求更高。追求高效就要採用基於深度神經網路的演算法，這意味著雲知聲需要在終端提供更加充分的算力。

另外一個約束來自成本。為解決算力問題，雲知聲不得不採用更好的演算法，導致了成本大幅提升，這對於硬體來說十分敏感。成本之外，更強的算力還意味著更多的功耗。非插電產品的「續航焦慮」指望電池性能得到提升顯然不現實。

那麼主要矛盾如何化解？雲知聲認為，基於深度學習的新硬體，即「邊緣側的人工智慧晶元」勢在必行，這場「自我革命」是 2015 年晶元項目的整體思路。

眼下，只強調演算法優勢的 AI 企業，很難再滿足 B 端客戶的場景需求，致使企業的市場競爭力和話語權逐步衰減。儘管雲知聲創始人兼 CEO 黃偉接受採訪時沒有明確表態「不做晶元就會被淘汰」，但必須承認，軟硬結合才是 AI 企業未來立足之根本。

在產品落地的過程中，演算法和晶元二者不可或缺。「如果市面上有適用的晶元還好，如果沒有我們就要造」，黃偉指出，「造芯」是雲知聲的自我選擇。這不是它擅長的事，但云知聲還是做出來了。去年 5 月 16 日，雲知聲把第一代 AI 晶元雨燕（Swift）擺在眾人面前。黃偉放言，即便是現在，「雨燕」的各項指標仍保持業內領先。

多模態的進擊

新年伊始，雲知聲正在開發的 3 款晶元，會在年內投產上市。一款是面向語音場景的第二代 AI 晶元雨燕（Swift）-Lite，其主要特點是更加輕薄；另一款是面向智慧城市場景的多模態 AI 晶元海豚（Dolphin），這款晶元是雲知聲在 2019 年非常大的投入，繼承雲知聲的 DeepNet2.0，它不僅僅支持雨燕的功能，還支持攝像頭、ISP、OD 和人臉識別；第三款是雲知聲與億咖通科技合作推行的車載多模態 AI 晶元雪豹（Leopard），它更加著重本地算力，提供本地語音搜索，無網路的狀況下也可通過語音導航選址，並具備一定的圖像處理能力。

作為一家靠語音技術做強的公司，雲知聲看到多模態場景的大勢所趨。2018 年，雲知聲進入圖像領域，並投入了不少資源。李霄寒解釋，雲知聲已經完全具備硬體平台能力和分散式機器學習能力，以及數據高速處理和迭代能力。做這些事情不是興趣始然，而是為了滿足物聯網場景下，晶元設計的需要。

當前，雲知聲圖像識別的準確率高達 99.8%。除人臉識別外，雲知聲還有物體識別、表情分析、顏值分析、標籤化能力，這背後得益於 DeepNet2.0 的算力加持。

DeepNet 是雲知聲開發的深度神經網路處理器，DeepNet 1.0 面向語音技術，DeepNet 2.0 面向多模態，後者既支持圖像處理，同時支持語音處理。目前雲知聲 DeepNet2.0 已在 FPGA 上得到驗證，其算力將在 AI 晶元海豚 Leopard 上得以體現。

較 1.0 版本相比，DeepNet 2.0 首先是兼容性更好，可支持 LSTM、CNN、RNN、TDN 等網路；其次是支持可重構計算，DeepNet2.0 計算單元可以拼接應對計算模式，模式切換也可以快速組合，用單條指令來計算公式；第三是支持 Winograd，晶元做乘法的耗時遠遠高於加法，基於這一點，Winograd 把乘法耗時降低為原來的 1/2，進一步提升效率。

此外，李霄寒介紹了 AI 晶元在演算法應用方面取得的新進展——「超聽限同向降噪技術」。所謂「超聽限」顧名思義，就是讓機器識別到人類聽覺範圍以外的聲音，而「同相降噪」可滿足在嘈雜的遠場環境下，保證晶元靈敏精準地捕捉到人聲。

雲知聲現階段的目標明確，就是在物聯網技術面前，選擇某個重點場景切入，將算力和應用服務更好地結合。而李霄寒篤信，物聯網時代的重要命題，是將「能力下沉到設備端」。

展望未來的物聯網 AI 晶元的發展路徑，雲知聲團隊一致認為，連接方式、安全性、PPA（Power，Performance，Area）是核心。但 AI 物聯網晶元僅僅考慮這三要素還不夠，場景化、多模態、端雲互動這三大方面將深刻地影響 AI 晶元的設計、定位、成本、功耗和晶元需求。

頭圖來源：視覺中國

掃描二維碼詳細了解 thinkplus 高效能方案

我們將那些改變了世界和歷史的商業勢力稱之為「酷」，而我們更願意相信那些即將決定未來世界的公司一定會做到「更酷」。極客公園同 ThinkPad 一起，推出酷公司 100 計劃，並提供給未來的「酷公司」們 thinkplus 高效能方案，助力企業高效成長。讓「酷公司」更加有力，讓他們成為我們對未來世界不可或缺的美好想像。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 極客公園 的精彩文章:

※在賀建奎的道歉與驕傲之後，我們來弄清關於事件本身的幾個問題
※微軟將數據中心放在海底，這會是未來么？

TAG:極客公園 |