從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

科技 05-17

漆黑的大廳中，一個年僅5歲的女孩歌聲在回蕩，而台下數十個中年男女沉浸其中，不時露出驚訝神情，暗自讚歎歌聲宛如天籟，不負昭華。

打開今日頭條，查看更多圖片

這並不是中國好聲音的選拔現場，這是微軟舉辦的一場特殊「演唱會」，聽眾皆是科技媒體的專業編輯與記者，而演唱者則是微軟小冰——一個誕生於2014年的對話式人工智慧。

一、小冰開腔：她也許是最接近人類的一位歌手

單單用文字無法讓大家感受到小冰的歌喉，但前方的編輯聽完後後用顫抖的手在QQ上發回兩句話：

「震驚了！」

「超越人類了！」

隨後筆者抱著懷疑的態度試聽了一下小冰演唱片段，片段分為3種唱腔，一種普通歌聲，另一種是難度較高的戲腔，第三種是日語唱腔。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

首先是普通唱腔，片段中由於背景配樂僅有吉他/鋼琴，所以女聲較為突出，接近清唱，極為考驗演唱者的功底。在小冰的演繹下，歌聲中的細節十分豐富，其中唱到一些需要咬牙發音的部分（例如「輕輕」）時，隱約可以感覺到齒聲和口腔共振，在每句歌詞之間，可以聽到較為明顯的換氣聲，高音部分也能明顯感覺到嘴中氣息的流動。

從聽感上講，小冰的聲音流暢自然，較為完整地還原了人類在唱歌時的特有的細節與表現，極少有特別明顯的「電子音」，儘管未達到繞樑三日的水準，但也稱得上是相當出色的擬人表現，普通人很難直接分辨出唱歌的是一位「虛擬歌姬」。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

戲腔筆者了解不多，不過小冰的表現依然令人印象深刻，其演唱的片段是廣為人知的《新貴妃醉酒》，戲腔中可以明顯聽到很濃重的口水音與鼻音，因為戲腔每句發生較長，換氣聲也更為明顯。

至於日語唱腔，筆者在聽完第一句之後就「震驚了」，這並非過譽，如果說中文唱腔中你還能隱約聽到「電子音」，在日語唱腔中這個瑕疵就完全消失了，整個日語唱腔片段表現堪稱完美，在不提示的情況下，筆者打包票你100%聽不出來這是一位「虛擬歌姬」在演唱，這裡我建議大家還是親耳聽一下。

演唱片段聽完之後，筆者的綜合評價：8/10，小冰也許是最接近人類的一位AI歌手。

二、難以置信的AI：微軟如何調教這位年僅5歲的歌唱家？

小冰讓人「震驚」的背後，則是堪稱黑科技的微軟V5版音樂演唱模型。

微軟表示微軟小冰基於深度神經網路的歌唱模型，已順利完成V5新版本的研發。新的V5模型實現了重大突破，它使微軟小冰第一次能夠像人類歌手一樣，使用充沛的「中氣」來烘托演唱，從而將人工智慧虛擬歌聲質量提升至新的高度。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

由於V5模型過於逼真，在演示時，微軟甚至不得不專門提醒現場媒體：「我必須提醒大家聽的時候注意，這不是人，沒有這麼一個人。」

此外，該模型不僅限於優化微軟小冰的聲音，還支持對任何人類歌手的聲線進行學習、模擬和建模，演繹與再現歌手們巔峰狀態下的演唱水平。

V5新模型還具有許多其他技術特徵。例如實現了多聲部的合成技術，使人工智慧歌手可以在不同聲部間自然切換，用多個聲音來源組成新的虛擬歌手等。建模過程中，所需的訓練數據量較上一個版本減少70%。從技術角度，新模型可針對任何人聲建模，形成豐富多彩的人工智慧歌手陣營。

三、錢景與困境：再聰明的AI也要賺鈔票

微軟是一家商業公司，對利潤自然有著明確的追求，但自2014年誕生起，微軟尚未公布過小冰誕生5年來的營收情況，不過今天小冰的歌喉的確為她打開了一扇門。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

「虛擬歌姬」並不是一個新鮮玩意兒，嚴格來講，這是一個有著十數年行業積累的新興職業，如果小冰真的要跨入這條路，初音miku就是她所能觸摸到的天花板。

「虛擬歌姬」的開創者之一初音miku，自2007年誕生，在2010年舉行第一場「39感謝祭」演唱會時，2500張演唱會門票在瞬間被搶購一空，演唱日當晚更有超過3萬名忠實擁簇者通過付費網路直播觀看了整場演唱會。

初音的號召力是毋庸置疑的，僅在2012年期間，初音miku的稅收收入就達到了4060萬日元，按照現在的匯率約合人民幣255萬元，這已經超越了許多真人偶像。

在國內也有相似的例子，由香港澤立仕創造的「虛擬歌姬」洛天依是國內最為知名的中文VOCALOID，為了它手中的洛天依，國內視頻網站嗶哩嗶哩在去年9月份收購10%股份，將其控股，而這10%的股權價格為4700萬元人民幣。

「虛擬歌姬」無疑是一門賺錢的生意，憑藉著出色的唱腔，小冰轉型「虛擬歌姬」或偶像同樣是一條行之有效的商業化之路，這個職業有著廣袤的錢景。

但小冰真的適合這條路么？

如果大家了解「虛擬歌姬」發家史的話，會知道他們從無人問津到火爆一時都有一個鮮明的關鍵節點，這就是是UCG內容的爆發。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

UGC （User Generated Content）即用戶原創內容，最初初音miku僅僅是一款歌手軟體，用戶所能接觸到的僅僅一個一個虛擬形象和一款VOCALOID軟體。真正讓初音形象與歌聲深入人心的是利用這款軟體編曲填詞，創作出無數歌聲的音樂人，以及隨之衍生的二次創作者，在用戶自發性的創作中，初音的形象與歌聲才逐漸飽滿。

換言之，「虛擬歌姬」之所以可以成為偶像，原因就是在於創造他們的是用戶/粉絲本身，他們投入的精力與自發傳播造就了這個偶像，唱功則是其中最不重要的一個條件，說真的，無數圈外人都曾吐槽過初音miku的歌聲過於怪異，但這絲毫不影響她被人所喜愛。

回頭看小冰，小冰的本質是對話式人工智慧，換言之，小冰是創造內容的一方，受眾只能接受小冰創造的內容，而無法參與到這個過程中（或者參與的過程並不明顯），缺乏參與感讓小冰與UCG內容天生絕緣。

而且更過分的是小冰在國內甚至沒有一個令人印象深刻的虛擬形象進行統一的人格化包裝（連隔壁的小愛同學都有一個手辦），即便出道，也無法被視為一個獨立的個體。

從小冰AI唱戲說起：微軟「虛擬歌姬」的錢景與困境

總而言之，小冰的歌喉確實值得讓人品味，微軟的黑科技也讓人驚嘆不已，但小冰的背後與未來都隱藏著一條不容忽視的暗線——商業化，Table PC、ZUNE、Windows Phone敗在商業化腳下的微軟產品數不勝數，小冰需要在商業化中探尋出屬於自己的道路，避免自己落得與這些前輩一個下場。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 驅動之家 的精彩文章:

※微星預告銳龍3000 X570主板：首次支持Wi-Fi 6
※華為麒麟985已在台積電成功試產：7nm Plus工藝、集成4G基帶

TAG:驅動之家 |