當前位置:
首頁 > 科技 > 對話雲知聲AI晶元負責人:開源全棧語音交互方案,未來會進入圖像領域

對話雲知聲AI晶元負責人:開源全棧語音交互方案,未來會進入圖像領域

作者/趙子瀟

編輯/尹天琦

品途解讀:可以肯定的一點是,雲知聲肯定不止專註語音領域,圖像領域一定會涉及。李宵寒說:「人工智慧設備是讓機器更像人,這樣的話就必須提供多種感知能力,圖像是必不可少的環節。」

成立六年的雲知聲,開始在AI晶元領域發力了。

先是發布了旗下UniOne系列第一代AI晶元「雨燕」,隨後公布6億元C+輪融資,近日,雲知聲聯合創始人、晶元技術負責人李宵寒正式宣布開源全棧語音交互方案。

作為一家專註於語音領域的人工智慧公司,雲知聲早在2015年就有了打造晶元的想法,並且開始組建團隊。2016年,雲知聲正式宣布研發晶元,今年5月份,雨燕發布。

李宵寒也表示,雲知聲的新一輪融資很大部分比例會投入到晶元上。晶元開源語音交互方案,則是為了更快地將合作夥伴範圍擴大。

開源到底為雲知聲帶來怎樣的效果?品途商業評論採訪到李宵寒,帶來他對於AI晶元領域的思考。

UniOne系列AI晶元

李宵寒認為,由於先進的EDA工具、FPGA模擬工具、成熟的IP商業生態、眾多優秀的的設計服務公司的因素,數字晶元設計流程正變得越來越成熟;而眾多開源設計框架以及演算法,使晶元門檻大大降低,但做得好的門檻依舊很高。

同時,對應用場景的理解將超過數字電路設計能力,將成為晶元能否成功的決定性因素。這裡對應用場景的理解包括對應用的理解以及對業務的理解兩部分,也是在晶元之間產生明顯差異化的部分。

在李宵寒看來,雲知聲同時具備演算法、場景以及晶元設計方面的三個關鍵要素,因此有條件產出物聯網場景下最好的AI晶元。

雨燕由雲知聲自主設計研發,同時包含了通用CPU、AI加速器(DeepNet)以及數字信號處理器(uDSP)架構,採用自主AI 指令,面向語音AI場景,支持6個模擬/數字麥克風接入。李宵寒特意提到,深度神經網路性能較通用方案提升超50倍。

雨燕屬於UniOne第一代晶元,在之前的晶元發布會上,雲知聲方面提到,UniOne還要推出第二代晶元「雪豹」和第三代「旗魚」,面向智能車載和智慧城市場景進行升級。

從當前來看,雨燕在智能家居方向分為兩種方案,分別對應智能音箱和智能家居。

向客戶提供軟硬體雲+端一體化的解決方案是雲知聲最常見的合作方式。此前,在白電領域大規模出貨的智能硬體模組就是以這種方式為不少大公司服務,諸如美的、格力等等。

在雨燕發布後,雲知聲提供的方案更加立體,從晶元到解決方案形成一套完整的解決方案提供給客戶,並且不僅限於空調、智能音箱等設備。所有智能家居硬體產品都可以嘗試接入雲知聲的人工智慧技術。

除此之外,雲知聲還想玩點不一樣的。

開源全棧語音交互方案

在智能家居行業中,無論是品牌廠商或供應商,都會遇到各種各樣的困難。

以智能音箱舉例,如果一個廠家要打造一款智能音箱產品,首先遇到的困難是供應商選擇。

因為涉及到語音的各個環節,降噪、識別、合成等等,更不用說音箱的設計,聲音調校……一款音箱上市必須要經過長時間的測試,尋找多家供應商「攢」出來產品,如果某一家供應商沒有達到最好的效果,那麼音箱的體驗也就大打折扣。

作為智能音箱,就意味著必須和AI有緊密聯繫,而當前大多數人對AI產品還不具備太多經驗,研發過程中必然有很多不確定性事件,在產品的打磨上很耗費時間精力。

「希望有一家供應商把這些事情全搞定。」這是雲知聲調研了許多合作夥伴之後得出的結論。

相對應的,由於繁雜的客戶類型以及產品形態,方案提供商不可能同時支持很多客戶,雲知聲也由此想到了一個新的方案:開源。

「外面好多合作夥伴都說我們特別『獨』。」李宵寒表示。雲知聲提供的一站式解決方案讓很多希望與其合作的方案商感覺雲知聲不願意和大家一起玩。但李宵寒認為「獨」是對合作夥伴的負責。

因為面向智能家居實現 AI 落地,牽涉到非常多的環節,比如需要積累可以量產化的結構經驗;比如需要通過引擎、硬體平台選型以及系統優化,滿足家電廠商整體的功耗要求;再比如適配雲知聲引擎,並在價格和性能方面達到最佳配置的通用晶元選型。

這些都需要經過團隊之間日常的緊密的合作,有時候甚至需要針對某些硬體特點做相應的引擎代碼級別修改,才能真正實現最佳效果。

「如果僅僅提供一個引擎給自己的合作夥伴,再提供一些 SDK 層面的適配和支持,其實對自己的合作夥伴,包括對自己的團隊,都是不負責任的。因為大家資源都是有限而寶貴的,引擎原廠沒有足夠的硬體、系統和產品經驗,是無法高效支撐合作夥伴,最終大家做了很多合作,可能只是一場熱鬧,而無法做到量產出貨。」

雲知聲將自己在 IVM 實際落地場景下積累的經驗和參數,落實到自有 AI 晶元 UniOne 的設計中,期望通過晶元,最大可能地把家居場景下的關鍵部分進行固化,再將該晶元之上的全棧語音交互進行開源,大大降低技術門檻、縮短上市時間,從而確保合作夥伴與雲知聲的合作都有收穫。

李宵寒用聯發科手機方案用做對比:聯發科提供基於MTK手機晶元的全部方案,如果不做修改外面套一個手機外殼可以直接出貨,要修改的話也只需要做簡單的改動。「有最佳體驗、可高度定製、能迅速出貨是我們的三大優勢。」他說到。

AI晶元時代保證效率

「Turnkey方案的開源,必將大大促進整體智能硬體產品的開發」,談及這點,李霄寒信心滿滿,原因主要來源於以下三個方面:

一、 智能硬體的產品經理非常稀缺,尤其是懂語音交互設計的產品經理。語音交互(VUI)與之前屏幕為主要展示的圖形界面交互(GUI)差別非常大,前者是扁平結構,一句話直達系統任何一個圖形界面,可以做任何一個操作。而後者是樹形結構,需要一步步點擊。

這兩種交互各有優勢,而 VUI 目前市面上人才不多,又由於其扁平結構的特性,在設計的時候,需要從系統整體層面來考慮,而不是簡簡單單一個 App 層面。如此總總,都大大增加了 VUI 設計難度。

「產品交互設計如果都不好,最終開發的產品效果就可想而知了。」而作為雲知聲創始團隊的李霄寒有著十多年的人機交互相關研究經驗,從 Motorola 手機上的語音交互到雲知聲車載到格力空調、斐訊音箱,雲知聲團隊積累了豐富的 VUI 設計和開發經驗,整體語音交互方案隨著 UniOne 一起作為 Turnkey 方案整體開源,這一切將大大降低行業門檻。

二、 語音交互方案開源將大大縮短開發周期。作為一個系統級的功能,語音交互方案將處理音頻驅動,處理與系統其他應用的交互,處理各個案件和喚醒事件,而且必須足夠健壯穩定,這些都隨著雲知聲開源方案得到解決。

合作夥伴可以只做淺層次的定製化改造,比如喚醒詞修改;也可以做深層次開發,可以在看懂整體方案情況下,完全重寫。

三、 雲知聲經過考驗的實施團隊。在「芯時代」,這支團隊將為願意採用雲知聲 UniOne 的合作夥伴提供整體開源方案的技術支持,包括代碼培訓、工具開發等,盡一切可能降低合作夥伴熟悉整體開源方案的學習曲線陡峭度。

雲知聲方面透露,Turnkey方案預計將於9月15日正式開源。

在談到競爭問題時,李宵寒也告訴品途商業評論,當前語音開放平台很多,但是大多針對雲端服務功能,雲端能力對於開發者來說幫助並不大,關鍵路徑在於邊緣側。而和品牌廠商的關係屬於上下游,並不會產生競爭。

這一套方案不僅是面向之前錯過的合作夥伴,而是希望將此前沒有類似想法的公司吸納進來,讓他們了解到產品變成智能硬體的門檻有多低。

此次AI晶元的發布,也讓雲知聲的定位發生變化:從前是技術提供商,現在變為AI雲服務商、軟體方案商和晶元原廠。

至於未來雲知聲會是怎樣的定位,誰也無法預測。李宵寒告訴品途商業評論,可以肯定的一點是,雲知聲肯定不止專註語音領域,圖像領域一定會涉及。「人工智慧設備是讓機器更像人,這樣的話就必須提供多種感知能力,圖像是必不可少的環節。」

李宵寒表示,物聯網在快速發展的階段,未來發展有很多可能性,在大幅加強晶元投入的同時,雲知聲團隊也會一邊做一邊尋找新的創新機會,而不論語音或圖像,都是從物聯網角度出發。

當前來看,雲知聲在幾年前就開始規劃未來,可以為未來的成果或風險買單。「只要堅定往前走就可以了,這是保證效率上的優勢。」在形態、機會激烈演變的過程中,效率對於雲知聲來說尤為重要。

品途精彩活動:

【轉載須知】

1.文章為品途商業評論原創作品,歡迎轉載。

2.轉載時請在文章開頭註明「文章轉自品途商業評論,ID:pintu360」,作者標註原文作者。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 品途商業評論 的精彩文章:

許家印視察美國FF總部,中興通訊解除禁售令後全面恢復全球業務
市值曾達8293億美元、排全球第一,126歲的通用電氣正走向末路窮途?

TAG:品途商業評論 |