從幕後走向舞台中央,微軟NLP有何新進展?
春節期間,央視新聞新媒體推出了一款交互產品《你的生活,AI為你唱作》,該款產品是央視新聞聯合微軟平台全新打造的H5交互產品。《你的生活,AI為你唱作》融媒體交互產品利用了三種AI技術,分別是計算機視覺CV、智能歌詞創作系統、定製語音技術。
打開今日頭條,查看更多圖片以計算機視覺CV為出發點,用戶通過上傳不同的照片,系統對照片環境、人物、顏色、表情、主題進行分析;通過對照片的綜合理解,進入智能歌詞創作系統,生成不同的歌詞;最後,歌詞內容結合定製語音技術,將央視主持人康輝的聲音進行合成,並與配樂伴奏混音處理。用戶就這樣,得到了自己專屬定製的MP3歌曲。
根據官方數據統計結果,該產品在央視新聞新媒體各平台上線僅2小時,用戶參與量就超過了300萬人次。截至2019年2月8日,《你的生活 AI為你唱作》融媒體交互產品在各平台閱讀量3800萬,利用AI聲音創作視頻閱讀量3500萬,微博相關話題閱讀量2700萬,AI相關產品在央視新聞各賬號總閱讀量已超過1億。以上數據直觀的顯示出,該融媒體產品的受歡迎程度。
AI應用產品大規模爆發,正值新舊媒體交替,融合發展。藉此節點,近日,雷鋒網與其它兩家媒體,一同對微軟基礎研究部門、語音產品部門、智能雲產品部門和市場部門的四位受訪者進行採訪。
受訪人:
韋福如:微軟亞洲研究院自然語言計算組資深研究員韋福如
李冕:微軟(中國)資深產品市場經理
李迎彤:微軟亞太研發集團雲計算與人工智慧(中國)微軟新視界事業部 創新總監
劉越穎:微軟亞洲互聯網工程院產品經理
張碩:微軟亞太研發集團公關總監
AI唱作交互產品,背後的「故事」
在《你的生活,AI為你唱作》融媒體交互產品中,無論是央視主持人康輝,還是微軟智能女聲曉曉,均採用了微軟深度神經網路語音合成技術,具有更自然的音色和更豐富的情感。其中,康輝的聲音用到了定製化語音技術,可以利用少量數據,製作出逼真、具有不同風格的智能語音。
而微軟智能女聲曉曉搭載了微軟Azure雲服務,為用戶提供標準的語音合成API調用介面,滿足用戶實時調用語音的需求。 可以直接用於智能助理、智能客服、智能汽車、智能朗讀等領域。雷鋒網了解到,其技術特點為:
語音合成系統是業界率先產品化基於神經網路的模型,接近人聲
定製語音合成所需訓練數據量更少 (康輝的數據不到一個小時)
深度神經網路的語音合成模型讓聲音更逼真和自然
語音合成可以擴展到多種說話的風格(比如這次的rap)
平台化的定製語音讓開發周期更短
上升到微軟整體的深度神經網路語音合成服務,即基於端到端的神經網路聲學模型和聲音合成系統。通過優化發音和韻律,更逼真的還原發音人的音色和情感。生成更逼真、更自然的人工智慧聲音。
微軟深度神經網路語音合成服務定製方面:
語料數量定製:從幾百句到幾千句不等,微軟均可以支持。可以根據能提供的語料數量和模型複雜度定製不同的語音。
模型定製:具有多個可選的定製語音模型,包括參數合成、單元拼接、深度神經網路等
場景定製:微軟的定製服務可以針對不同的應用場景進行優化。
風格定製:微軟定製聲音可以在性別,年齡,風格等方面有很好區分度。
其它方面:
靈活的部署方案:公有雲部署;私有化部署;離線部署
多語言國際化支持:微軟語音合成支持全球49個語言,近80個聲音。深度神經網路支持中文和英文。
工業雲計算平台:微軟語音合成支持全球8個數據中心;深度神經網路可以達到產品級的實時率;支持高並發。
全系列語音支持:微軟語音可以提供整套的語音識別,翻譯,語音合成等解決方案,可以支持智能客服,翻譯等場景。利用微軟語音解決方已經落地的場景如ROBOO智能機器人、智能會議系統,微軟翻譯,微軟聽聽文檔等。
正如,微軟雲+AI部門的李迎彤所說,應用要瞬間觸達到很多人的手機上。高並發且巨量的網路和計算需求,背後需要強大的雲端基礎設施做支持,同時,微軟更多偏向後台方面。據微軟TTS團隊介紹,一個有趣的現象是,曉曉聲音的調用次數超過了康輝老師的次數。也體現出,大家對微軟智能女聲曉曉聲音的喜愛。
其實,微軟與央視新聞的合作,源於CCTV團隊在微軟新技術展示中心的一次參觀。此次,深度合作偶然中帶著必然,一方面,AI技術不斷出現重大突破。例如,微軟亞洲互聯網工程院產品經理劉越穎介紹,去年9月份,微軟率先發布了企業級的定製語音合成的平台,企業可以根據自己想要的音色來微軟的平台上定製聲音。去年12月份,微軟又有了一個語音方面的重大的技術突破,即深度神經網路語音合成技術。突然之間,讓原來的語音合成不能做到的都能做到了,具體而言,自然度方面可以更加像人,語氣、情感方面,包括模型的穩定度得到很大的提升。
另一方面,行業「轉型」的大環境下,傳統媒體向新媒體融合發展。傳統企業也需要與新興技術、新興產業結合,順應時代的潮流,承接未來的要求。其實,無論是,小米9王源定製版聲音、央視主持人康輝定製版聲音、Roobo機器人定製語音,以及呼叫中心、教育類AI在線老師。還是去年微軟小冰團隊與小米、華為智能音箱的合作。均應用到微軟全方位的能力,視覺、聽覺、雲處理、語音類等等。
特別是,此次與央視新聞合作的融媒體產品,是微軟多個部門協力合作的最終結果。劉越穎稱,微軟基礎研究部門、工程部門、雲產品部門、市場部門,還有語音產品部門,各個部門有一個組,在一塊以一個非常短的時間與央視共同合作。相當於輸入一張圖片,出一首歌曲,唱出來,中間串聯了好多不同的技術。而這種跨部門合作模式,於微軟而言並不陌生,微軟亞太研發集團公關總監張碩表示,類似於hackathon等等,有各種不同的形式。每年7月下旬進入高潮,微軟全球都會做一個一個hackathon。大家自己命題,然後自己找跨部門的夥伴和技術能力的方式,這次其實也相當於微軟內部的一個創新創業。
對於此次合作產品的意義,微軟亞洲研究院自然語言計算組資深研究員韋福如解釋說,以翻譯來說,華為手機集成了微軟技術。用戶買到手機以後,開箱體驗的翻譯就是通過微軟的技術來實現的。像小米生態鏈的物聯網設備,包括小米的音響,也在跟微軟小冰合作。所以,微軟本身相對來說比較低調。更為主要的是,微軟的策略與定位是一個平台,微軟更願意看到微軟的生態,以及合作夥伴在微軟平台上能夠獲得成功,而不是去講微軟自己有多成功,微軟更願意講的是合作夥伴的成功。
(雷鋒網註:微軟亞洲研究院自然語言計算機組韋福如)
從幕後走到台前,很多「Highligh」提問:微軟與央視新聞合作,背後有著怎樣的考量?李冕:當時做這個項目,當對方提出來合作時候我們考慮過幾個方向。一是,用戶的一些體驗,包括微軟的定位和形象。做得簡單一點,比如說做一個圖象識別的東西,或者把人臉改一改,把衣服穿一穿,換一件衣服,換一個窗花紙。這種純換換圖像類,噱頭型的,其實微軟完全可以做得到。
但是當時我們想,既然微軟是一個全棧型,各個方面都有技術積累的IT企業,可以做得更廣一點。其實這個Cener One(項目名稱)裡面用到了很多的不同方向,如圖像識別、雲的理解,到定製語音、語音合成等語音技術。包括微軟雲支撐、高並發能力。
甚至當時還提出,時間很短,任務很重,需要支撐做多少並發等的問題。這並不算一個最終的互聯網產品,更像是一次聯合推廣。在某個時間節日節點,我們推出來給廣大的用戶、網民們一些比較好玩的東西。同時,對於微軟而言也是檢閱內部AI能力的機會,所以當時我們也有出於自己的目的去做這個項目。
提問:整個合作過程有哪些難點?韋福如:從難點上來講,用戶對歌詞的要求是什麼,有一些不同的地方。因為歌詞與詩相比,講究接地氣,接近生活,朗朗上口。輸入部分,只能從圖像里獲得一些信息。微軟技術能知曉圖片中有沒有人臉,有沒有笑臉,有幾個人,大概年齡等等。還有一些更細緻的內容。比如,男女合照,笑得很開心……基於關鍵詞,生成第一句,有了第一句才能有後續生成。
同時,還需要基於很多數據。數據方面大家很容易想到的是歌詞,我們抓取了很多歌詞。用戶看到生成的歌詞具有文化氣息,這其中也應用到很多宋詞。另外一個難點,大家熟悉的歌詞或者宋詞,整體上的感情基調可能比較低沉傷感。但因為是春節期間,我們希望大家開開心心,高興一些。所以需要大概要識別一下用戶的情感,傳遞更多正能量。細節方面,包括有一些多音字,在前期會做一些相應處理。所以從技術上來講,一個是長期的積累,第二個是針對這樣特殊的應用,做一些細節上的改進。
當然,人類的創造能力是很強的,目前還沒有完全理解清楚。機器也有自己的優勢,擅長記憶、擅長模仿。另外的角度來講,技術研究上還有很多很長的路要走,人類的能力還是有限的。
提問:不管TTS也好,還是圖象識別也好,遇到的最大困難是什麼,怎樣解決的?韋福如:比較難的是,圖像輸出,要給出歌詞來講還是太抽象了。比如。它只知道裡面有人臉,只知道裡面有人,或者只知道裡面有幾個人。這種情況下,去寫歌詞非常難,所以我們需要把這些信息處理到更細緻的關鍵詞上去,然後從這些關鍵詞再生成歌詞。歌詞有十來句,甚至一二十句,實際上要做更多的處理。
李冕:我們的場景有點像是小學語文考試裡面的看圖作文,給你一張圖,當然我們這個是彩色圖,它那是一張圖或者是兩張圖,然後讓你編一個東西出來。我們做的有點像看圖做詩,整條鏈路下來,中間的坑點其實是挺多的。
提問:可以重點介紹一下微軟在閱讀理解方面的優勢嗎?韋福如:我們SQuAD的數據集,在最近兩年特別火。包括國內也做的很好,像訊飛和阿里等等。我們在這上面,第一個做到的就是,它有兩個測試集,我們是最早達到人類水平的系統。包括現在文本理解上,我們系統也是最好的結果。
NLP領域的研發進展微軟居於全球領先位置:閱讀理解(英文簡稱 MRC):在SQuAD文本理解挑戰賽的最新榜單上,在EM值上以82.650的最高分領先 (持續優化提升),並率先超越人類分數82.304。機器翻譯系統:在通用新聞報道測試集newstest2017的中-英測試集上,達到了可與人工翻譯媲美的水平。這是首個在新聞報道的翻譯質量和準確率上可以比肩人工翻譯的翻譯系統。
提問:人工智慧的「表達方式」,畢竟不同於人類。人類具有感情、思維,在說話的過程中兼具情感的表達,同時也是一個自然人性格、個性的重要體現方式。情感的表達體現在演算法上,是怎樣一個過程?微軟TTS在機器情感輸出方面有何看法?團隊總結:機器的情感主要由兩方面決定:數據和演算法。微軟TTS在數據採集時,與以往不同,更注重情感和意思的表達。同時,基於深度神經網路TTS的演算法具有更強的學習能力,可以更好的還原情感,具有更高的自然度。最後,我們加入了多情感和多風格的聲學建模,並在合成中進行精確控制。
提問:中文表達與英文等存在語種差異。對於人類而言,換氣、停頓、同音字、斷句的判斷,是很容易的過程,對於NLP就比較難。請問,微軟在「仿人類」語言的細節處理方面有什麼經驗以及進展?劉越穎:微軟一直在做語音,很多年。包括從最開始的音速合成,到單元拼接,到這次的深度神經網路的合成,都是一步步積累下來的。此次的深度神經網路,跟原來不一樣。原來可以理解為單元拼接,就是說一段話,每個音都拆成不同的單元,說多了之後,就可以把不同的單元拼接起來拼成一句話,那種合成是比較機械,容易出來一些不穩定的。
拼接過程中不圓順的地方就會有機器感,或者是不太自然的地方。但是深度神經網路這種語音合成,它就是一個從端到端的,然後把這種韻律模型和聲學模型,還有前端的這些處理,文字處理,都是統一到一個大的模型裡面。然後整體的輸出,所以它是一個端到端的模型。能夠讓合成結果更平滑,更自然。
具體來講,可以分為兩個部分。一個是關於斷句,還有發音準確性,有點像NLP範圍內的,我們統稱為NLP。語音部分也是包含這兩部分,一個是NLP,另外一個是語音模型,像剛剛提到的深度神經網路。這個既可以讓它校正一部分發音問題,包括斷句、喘氣、情感問題,還有音頻解碼器,讓他更加自然。
其實不管是從前面的語義分析、斷句、斷詞,以及這種展開,到後面我們需要這種音頻解碼器把它再去合成。現在每一個小點,微軟都有相應的論文不斷地做。所以現在可以看到深度神經網路的語音,具有很自然的喘氣聲,這也是微軟很不一樣的特點,聽起來會非常自然。
團隊總結:中文表達主要涉及停連、重音、語氣、節奏,以及對內容的理解。微軟深度神經網路TTS可以逼真地還原人類的換氣聲音,使得語音合成更具有人類的特徵。對於斷句,停頓,多音字,微軟針對不同語言要素,進行有針對性的建模,然後利用端到端的聲學建模,從真實語音中學到最適當的表達方式。
提問:除了語音技術,還用到其它哪方面的能力?韋福如:我們會用很多不同的圖象識別的技術,有數十萬個標籤和一百多個類。有幾張人臉時,能知道這個人是開心的還是處於怎樣的狀態。以及圖像中人物的性別,我們需要拿這些信息去創作歌詞。到拿到圖象識別信息之後,首先要把這些信息,大概歸類到一些歌詞的關鍵詞上。第二步是再把歌詞一句一句生成出來,這個時候就用到序列對序列的生成的模型。
提問:此次合作中,存在的商業潛力是什麼?劉越穎:首先,我們有這種定製化的能力,最後可以滿足不同企業或個人對聲音的需求。其實現在都是多元化、個性化的時代,每個產品或者是公司都希望有一個自己的形象。這個形象不僅僅是基於圖像層面的,同時也是基於一個專屬於他們自己的聲音,一個三維的形象。所以,在這種數據量變小的情況下,也使得給明星做定製,給知名人士做定製成為可能,這是一個很好的合作點。
提問:此次合作,微軟在雲計算方面有哪些部署?韋福如:從雲計算的角度來講,應該說對用戶來說是不可見的。像現在的電一樣,大家都用電,但是實際上並不會真正接觸到電。存在的意義更多是讓大家感覺不到我們,讓大家有最好的性能,最好的體驗。目前,微軟在中國有大量雲計算的基礎設施投入,我們更多是通過網路的服務。比如,現在微軟有四個數據中心,北京、上海等不同的地方。通過一些技術,對不同地域的請求可以選一個正確的數據中心進行響應,即更近的數據中心進行響應。
另外,我們有覆蓋全中國的內容分發網路,這樣可以保證這些用戶在使用或者是體驗的時候,不會受到網路帶寬的影響。所以,我們確實存在非常高的並發,上線兩個小時就有300萬的請求。實際上,這對於我們而言,並不是特別大的挑戰。因為微軟企業級服務,對於兩個小時300萬的並發,能夠輕鬆應對。
但是這次的體驗,因為是央視的推廣,它的受眾是全國範圍的,甚至更寬。所以我們能夠保證這些受眾都能夠有一個好的、快速、高效的體驗。一定是因為我們在基礎設施上做了大量的投入,才能做到這樣的保障。
李冕:我們做了很多CDN的加速,我們的機房離主要的節點都很近,總體的速度還是很快的。內部測試下來,還是對這個效果挺滿意的。沒有需要工程團隊太多的特別調用什麼。只是把資源開起來,然後擺在那。從上傳的速度,包括並發的響應上,在後台看CPU跳躍的數字,我們覺得還是非常安心的。
走過青銅、白銀,迎來「黃金時代」比爾·蓋茨曾說過,「語言理解是人工智慧皇冠上的明珠」。NLP的歷史幾乎與計算機和人工智慧AI的歷史一樣長。換句話說,計算機誕生那一刻,人工智慧AI也應運而生。人工智慧AI研究最早的領域就是機器翻譯以及自然語言理解。
微軟亞洲研究院自1998年創建以來,就給予NLP足夠的重視。微軟亞洲研究院官方數據顯示,截止2018年11月,共計發表100餘篇ACL大會文章,出版《機器翻譯》和《智能問答》兩部著作,培養了500名實習生、20名博士和20名博士後。
微軟開發的NLP技術,包括輸入法、分詞、句法/語義分析、文摘、情感分析、問答、跨語言檢索、機器翻譯、知識圖譜、聊天機器人、用戶畫像和推薦等,已經廣泛應用於Windows、Office、Bing、微軟認知服務、小冰、小娜等微軟產品中。與創新技術組合作研發的微軟對聯和必應詞典,也已經為成千上萬的用戶提供服務。
21年的時間裡,無論是微軟亞洲研究院,還是AI行業。走過荒蕪、貧瘠的土地,逐漸迎來辛苦耕種後的種種「收穫」。那麼,對於現在抑或將來,微軟TTS正在做著哪些努力?
提問:微軟近期在TTS領域有什麼新論文或者新突破,可以介紹一下,突破點以及對行業的影響?團隊總結:2018年12月,微軟語音在微軟Azure雲上發布了創新性技術突破——端到端的深度神經網路語音模型,將語音合成帶入一個高保真的新階段(參考英文版blog)。深度神經網路語音合成技術讓語音合成的的質量以及語音模型的製作又上了一個新的台階。我們可以感受到語音更自然;訓練模型需要的數據量更少;支持語音模型也快速擴展到多種說話的風格。
微軟語音合成技術已經在世界頂級期刊和會議發表了多篇論文。
LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.
Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.
A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.
提問:TTS是否存在技術、產品周期長、落地比較難的情況,從TTS實際的落地情況來看,微軟在這方面有什麼進展?韋福如:語音和文本不一樣,這個問題很大。我自己不覺得NLP落地有多麼難,或者說落地的不好。我覺得是反過來的,大家每天都在用,比如說你現在用的輸入法,是不是自然語音處理的技術,要用翻譯,不管是哪家的翻譯,這是自然語音處理最核心的幾個問題。你每天會用搜索,你會用今日頭條,這全是用了很多自然語音處理。
像圖像那種,比如說就一個人臉識別,就能做下游的應用,比如說安防這些類的,自然語音處理這塊好像難一點,我有一個單點的技術能夠做很多這樣特別好的,特別清楚的,因為市場有很多的應用,這個比較難。我覺得落地的話,NLP現在每天都使用。
另外,反過來看,現在機會在NLP,不管是從研究上還是外部的市場機會。包括很多VC,現在想投。CV的獨角獸,NLP也開始做,包括資本市場也在關注。從研究上來講,2018年大家說是NLP之年,就是自然語音處理之年。還是有很好的一些進展,包括像谷歌,很大一部分幾乎就是類似於通用的自然語音理解的一個題目,把它從有可能變成可能了。所以在這個基礎之上,有很多研究方面的機會。
落地的機會也很多,在通用的理解之後,能夠比較快速地去適配到一些特定的領域。然後在一些比較少量的情況下,可以做到不錯的結果,這都是在實際中遇到的問題。我認為接下來NLP不管是研究上,落地上,還是從市場上都應該是有非常多機會的。
團隊總結:傳統的TTS技術存在產品周期長的問題。因為聲音採集的數量大,時間久,成本高。經過微軟語音團隊多年來的研究和技術更新,目前已經率先實現了平台化、產品化的語音合成服務。首先,深度神經網路模型可以大大降低聲音採集的數量和成本,並且在自然度和保真度上很好的還原人聲。同時,微軟提供了平台化的定製語音服務,用戶可以自定義語音合成數據和模型,讓開發周期更短,適合更多的個性化應用場景。所以,未來TTS會有更多的落地場景,也為用戶帶來更豐富的體驗。
目前,微軟語音產品已經被應用於微軟的各類人工智慧產品和平台上,包括了微軟小冰,微軟小娜(Cortana),Windows,Skype,認知服務(Cognitive Service),微軟翻譯等。
此外,微軟語音產品也積極與第三方企業在更多場景上合作,包括智能助理、智能客服、智能汽車、智能朗讀等領域。除了這次CCTV的項目外,微軟語音和小米手機合作,在最新的小米旗艦機Mi9的手機內,定製了王源的明星聲音。通過語音的橋樑,拉近了粉絲與愛豆的距離。未來聲音定製會是一個趨勢。每個企業,設備,個人都會有一個獨特的人工智慧定製聲音,讓語音融入生活的更多角落。
提問:未來AI方向有哪些機會?
李冕:跳出央視產品的話題,我覺得AI的方向有三個機會。一個是,各位講的注入AI,或者是像央視的這種應用。第二個點,我們覺得有很大機會的是知識挖掘,像百度或者是谷歌這種是全網的扒數據。剛才提到,現在內部有很多的數據孤島沒有打通。所以我們認為AI技術裡面的NLP現在有能夠落地的點。第三個,從微軟的角度來看,我們跟機器學習的工具和平台相關的東西。比如,一些服務,可能模型本身。幾個人攢個小團隊,也能做出人臉識別的產品。但是只是一次性的,算出來的這個產品之後,需要一個7×24小時的跟蹤。例如,高鐵的閘機,需要7×24小時要響應閘機上的數據。響應的部分叫做推理部分,屬於是服務的一部分。無論是訓練還是拖拉拽等所謂的工具,也是我們覺得能夠給市場帶來價值,給企業用戶能夠落地,甚至能夠商業化的點。
※使用卡爾曼濾波器和路標實現機器人定位
※智能門鎖走向而立之年
TAG:雷鋒網 |