搜狗AI進化之路：從應用為王，到顛覆式創新

科技 05-29

雷剛發自凹非寺

量子位報道 | 公眾號 QbitAI

5月25日，成都，「高曉松」聲音響徹會場，歡迎聽眾參會：

大家好，歡迎來到極客公園2019年現場和大家一起分享人和機器的共創未來。

但實際站在舞台中央的人，卻是王小川。

王小川，搜狗CEO，成都七中知名校友，中國互聯網進程里最知名的川娃子，中學時代就打響了IT天才名氣，後來又在歷史際會創造出一方天地。

現在，因一場活動，王小川帶著一項全球領先的技術再次回到成都，沒錯，就是那一聲「高曉松」的歡迎。

因為它在秒秒鐘經過手機App前，還是王小川的原聲。

搜狗「變聲」，顛覆性進展

通過計算機合成某一個人的「聲音」，自然在AI江湖裡算不上什麼。

但如果真正實現「千人千聲」也能瞬間「遷移」，並且在小小手機上實現，那確實得豎大拇指。

因為全球AI第一大廠，Google，也還沒做到。

就在一年一度亮肌肉的Google I/O上，也有「變聲」方面的進展演示，但體現的是一種語料輸入到另一種語料輸出的「平行遷移」。

更AI的方式來說，one to one，從指定A到指定B.

但像王小川展示，無論說話者是誰，無論說什麼，不用考慮說話人的特點（如王小川的「川普」），最後能夠將「任意說話人」音色實時高逼真度變換到「指定說話人」音色，則是 Any to one.

該過程中，不光是輸入輸出兩端的映射關係變化，更是技術實現難度上指數級提升。

因為核心問題在於，每一個人的音調、音色和語言節奏都不盡相同，正如同世上沒有兩片相同的樹葉一樣，世上也沒有兩個完全相同的說話人。

如何將「千人千聲」通過技術處理，變為同一種指定聲音，同時還不丟失原說話人的語言習慣？

離不開展現真正技術的語音表徵學習和遷移學習的突破，簡要來說三步：

首先，使用表徵學習技術學習到源端說話人語音的音色、內容和韻律(講話節奏、情感語氣等信息)三大特徵。

其次，將學習到的源端說話人音色特徵替換成目標說話人。

最後，基於新的語音變聲技術，使用內容(源端)、韻律(源端)、音色(目標端)三類特徵，合成最終生成變聲音頻。

所以大會現場，王小川的「說」到高曉松的「聲」，實際經歷了這樣的過程。

然而，這樣一短句，實現背後也有數千層深度學習網路的努力。

如表徵學習使用，上圖所示，A部分對目標音色語料進行聲紋特徵編碼，提取說話人的音色embedding。

B和C分別從輸入音頻中學習內容和韻律embedding，通過「說話人歸一化」模塊對內容embedding進行統一規整，去除音色信息，通過對音頻特徵的壓縮編碼及特徵抽取，學習表徵韻律的風格特徵。

而語音變聲，基於表徵學習得到的特徵，通過Attention和Decoder模塊進行加權特徵編碼，並利用WaveRNN神經網路聲碼器恢復成波形，最終得到帶有目標音色的音頻。

當然，最具現實意義也最具技術挑戰的還是落地。

這也是搜狗突破稱得上顛覆性的原因——這是全球首次將如此難度的變聲能力落實到消費級產品中。

並且還不是自家用軟體專門定義打造的終端硬體，而是融會貫通到小小「搜狗輸入法」App中。

通過App，無論安卓還是iOS，無論什麼品牌、何種價位的手機，都能實現「變聲」，實時遷移成「表情語音包」。

未來應用自然不止於此。

語音屆的「換臉」術

之前，Deepfakes帶動的「換臉」已經實現了風靡，嗶哩嗶哩就出現了不少楊冪主演的《射鵰英雄傳》，惟妙惟肖，真假難辨。

但相比換臉的道德問題和法律危機，「變聲」卻能立竿見影創造價值。

凡有音頻處，皆能讓AI變聲發揮效用。

比如在線教育、景點導遊、電商廣告等等場景的音頻製作。

一個有口音的老師，一個普通話不標準的地方導遊，以及各種流量奶生。

特別是實力待豐的流量偶像們，僱傭一個熟練掌握「換臉」和「變聲」技術的AI團隊，就完全能靠臉吃飯，人在家中坐，錢源源不斷來。

總之，只要有音頻的需求，變聲就能降低成本、提高效率。

王小川還想藉此應用表明，我們正在身處一個怎樣的技術時代。

跟技術結合，人類才能更強大。不要狂妄心懷碾壓排斥，而是接受技術的變革和改造，成為新人類，真正人與機器協同，變得更強大，創造更迷人的未來。

搜狗CEO毫無疑問想推動這樣的未來。

AlphaGo洗禮，搜狗進化

在活動上，王小川也再次從AlphaGo講起。

他認為這是這個時代的文藝復興、啟蒙運動，讓我們開始換另外的世界觀看待技術和未來。

對於他自己，這種進化更是顯著。

在AlphaGo期間，他就是「機器必勝」的篤定支持者。而AlphaGo獲勝後，搜狗CEO更是直接為此開闢了一天「狗勝節」的帶薪假。

很多人都說搜狗會借勢，但少有人了解王小川的遺憾。

因為在AlphaGo宣布挑戰李世石之時，王小川就感嘆過，搜狗內部其實也認真討論過深度學習下圍棋的可能性和可行性。

但後來不少工程師認為需要太多資源、小公司更該務實……最終沒有真正展開，直到AlphaGo在Nature上的論文發表，才慨嘆思路和技術所見略同。

這讓搜狗CEO學到一課：光有務實主義不夠，工程師也得展現出敢想敢上的「浪漫主義」那一面。

所以「狗勝節」與其說是慶祝，不如說警醒。

這也是搜狗蛻變和進化的開始。

之前搜狗是產品力突出的形象，從瀏覽器、搜索到輸入法，江湖享有名氣，特別是輸入法，在國內堪稱「國民應用」。

但現在，搜狗的旗幟也越來越多出現在全球AI的「華山論劍」中。

全球CoQA機器閱讀理解大賽奪冠；

世界MegaFace百萬級人臉識別競賽中奪冠；

WMT2017機器翻譯頂級評測大賽中英和英中第一；

國際頂級口語機器翻譯大賽IWSLT決賽第一；

《基於模態注意力的端到端音視覺語音識別》中標國際頂級學術會議ICASSP；

……

此外，還有人工智慧應用領域的引領性創新。

比如全球首個AI合成主播上崗新華社、CCTV，以及剛剛取得突破的「千人千聲」變聲落地輸入法。

還需要提及的是，這只不過王小川和搜狗將自己的技術底色更鮮明地亮出來而已。

對於技術、AI的投入，更早之前就能從兩件公益大於其他的「投資」事件中窺見一斑。

清華學子的年度AI「華山論劍」——智能體大賽，創辦21年的搜狗連續贊助15年，至今都是王小川必會參加的活動。

另一件也跟清華有關。2016年，搜狗向清華捐資1.8億元用於成立「清華大學天工智能計算研究院」，集中研究AI等前沿領域技術。

值得一提的是，最近發表於全球頂會的端到端音視覺語音識別論文，正是搜狗和清華天工研究院的聯手之作。

中國AI創新縮影

最後，也是時候借搜狗重新認知中國AI的發展現狀和未來了。

談論中國AI的時候，恐怕你依然會有這樣的印象：中國應用有優勢，但基礎研究方面差距太大。

但從搜狗「變聲」突破和應用來看，一種越來越明顯的趨勢正在展現。

圖靈獎唯一華人得主、清華姚班創始人姚期智教授更是有準確概況，在接受《人民日報》採訪時，姚院士這樣說：

中國的人工智慧在應用上絕對是傑出的，相對來講對於演算法基礎研究沒有那麼強，但是對於這個問題從長期的觀點來看，我還是相當樂觀的。

姚期智教授認為，AI正在變得熱門，受到越來越多重視，也有越來越人才投身其中，基礎演算法和理論研究也都被更集中攻堅。

我覺得我們現在沒那麼強，但是以後的幾年我們能夠追上。

所以結合王小川和搜狗的種種努力及其結果，姚期智教授之言，並非單純樂觀而已。

雖要戒驕戒躁，但也沒必要妄自菲薄。

如今局勢，我們希望更多創新誕生，既要有信心、也要給耐心，同時也要給予更多關注，不吝給每一次突破獻上掌聲。

—完—

AI內參|關注行業發展

AI社群|與優秀的人交流

喜歡就點「好看」吧 !

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 量子位 的精彩文章:

※AI技術紅利，究竟被誰吃掉？

TAG:量子位 |