只用音頻,讓25年前的奧巴馬「穿越」到現在?
真假奧巴馬,傻傻分不清。
上面兩個人,其實都是奧巴馬。左邊是1990年還在劍橋讀書時的他,另外一個則是20多年之後已經當上總統的「他」。最關鍵的是,這兩個奧巴馬實際上都在講著一樣的東西,因為右邊的「假」奧巴馬,而且是利用左邊20多年前奧巴馬音頻生成的。
這個魔術般的「表演」,實際上是來自華盛頓大學的3位學者Supasorn、Steven、Ira的最新成果。他們在7月中旬發布了相關的演示視頻,其中一位成員Ira在上周洛杉磯的SIGGRAPH上對這一成果進行了詳細的介紹和解析,雷鋒網也在SIGGRAPH現場聆聽了這次分享。
如何實現輸入語音,輸出圖像?
看完這個演示第一個想到的問題必然是:這個「魔術」究竟是如何實現的?究竟如何將語音轉化為一個人的面部表情呢?
在現場分享的開始階段,Ira就直接指出了這一研究的兩大難點:
音頻只是一個一維信息,但最終我們要的是二維的圖像畫面;
人類本身對於嘴部運動的感知非常敏感,高清畫質下小的瑕疵將更加明顯。
舉個例子,目前電影和遊戲中有很多人物的細節片段,他們說話時整個臉部的細微動作,實際上都是由真人演員,通過在臉上貼滿了各種標記之後在攝像機面前一對一模擬的結果。但很明顯這種方法並不能應用到所有應用場景當中。
既然不能明著來,那就只能「取巧」了,我們引用正式論文中的一張圖,來看一下他們實際的處理過程。
簡單歸納一下:
輸入音頻,進行利用一個神經網路循環將語音轉化一個大致的嘴型;
利用大致的嘴型重新轉化為嘴、牙齒、相關臉部的圖像;
尋找到適合的視頻片段,並且將嘴型的時間點與視頻片段對應;
將嘴型覆蓋在目標的視頻片段上;
得到最終視頻片段。
整個過程中最重要的還是對現有數據的使用。除了從現有的圖像數據中學會嘴型變化之外,他們實際上真正生成的只有嘴部的變化,剩下的頭部變化以及背景實際上也來自於現有的素材。
這種「通過AI技術將真實資料結合到一起,再生成虛擬內容」的思路是他們成功的關鍵。
讓AI模仿奧巴馬的嘴因為會利用很多現有的素材,所以第一個問題變成了「如何模仿奧巴馬的嘴部運動」。因為嘴型其實並不與發音完全一一對應,它同時也會受到前後發音、語氣等因素的同時作用。
如果你直接把音頻分成無數個片段,對應嘴型之後再拼起來。你就會得到一個說話時候像在抽搐的奧巴馬。對此,Ira他們想出了一套「循環神經網路(recurrent neural network)」:神經網路循環對25毫秒的音頻進行分析,然後結合前後的發音來確定面部表情。最關鍵的是:這個25毫秒的窗口期並不是一個一個分隔的,而是隨著時間不斷推進的。這也讓最終生成的奧巴馬非常流暢。
確定這種檢測方法之後,他們就利用機器學習對所有奧巴馬片段進行分析,並且最終將他們轉化為包含上下嘴唇的18個標記點的二維模型。
在正式論文中,他們也詳細介紹了自己如何使用「循環神經網路」,感興趣的可以下載下來詳細看看。
造臉:弄假成真雖然有了單獨生成的嘴,但距離完成奧巴馬的整個臉,甚至是整個片段還相差很遠,首先需要尋找到一個能夠作為「背景」的現有片段。他們選擇了以語音的間隔作為參考:首先分析輸入語音的間隔,然後在現有的片段中尋找直接相似的片段。甚至是將現有的片段進行50%幅度以內的縮放。
緊接著他們構建出一個假定的奧巴馬3D模型,並且以此對選中的片段進行頭部位置的分析。同時根據目標片段的數據生成虛擬的下半部分臉部。為了讓最終畫面看起來更加真實,他們甚至單獨對牙齒進行了高清化處理。
最後他們再將現有片段中的臉、襯衫抽出來,並且將生成的下半部分臉部模型分成臉部和頸部。最終將幾個圖層進行整合,成為最終片段。
由於沒有進行完全的三維化處理,所以在效果上他們也遇到了一些「小問題」。比如在奧巴馬頭部左右轉向比較大的時候,生成的嘴部模型不能很好適應下巴,進而出現諸如雙下巴等貼圖錯誤。
但即便如此,在不告知是生成片段的情況下,相信並沒有多少人會發現是假的。
局限:現在能模仿的可能只有總統們不過在現場,雷鋒網注意到Ira也坦言了這一方法的兩個主要局限:
模仿的對象只能面向鏡頭(側臉、其他角度不行,因為沒有使用完全的3D渲染技術);
必須要有大量的高清視頻數據供以分析。
這也是他們最終將奧巴馬選做第一位「實驗者」的關鍵,因為美國總統在任期之上都會發表每周電視講話。而奧巴馬在自己任職的8年間累積了超過800個高清電視講話。其他人想要有這麼多素材並不太容易。
另外一方面,目前整體的製作過程還是比較慢,在使用NVIDIA TitanX、Intel i7-5820K的情況下,生成66秒的實際視頻大致需要3分鐘。而為了對整體時長達到17小時的視頻進行學習,他們大概用10組Xeon E5530伺服器跑了兩周。
Ira對於這項技術的應用前景也表示了充分的樂觀,他在現場也舉了幾個具體的例子:可以實現高質量的畫面傳輸,同時大幅度減小帶寬需求;可以實現各種語言下的讀唇能力;可以實現各種娛樂能力,諸如電影、遊戲中的特效,讓像Siri這樣的虛擬助手「長」出一張臉。
Ira最後在現場對雷鋒網以及其他觀眾表示:
這個應用在奧巴馬上的處理實際上也能夠應用在符合條件的其他對象上。但從結果來看,在利用AI的時候結合現有真實數據是一種更加「可靠」的做法。對於他們來說,下一步的挑戰是嘗試結合除了臉部以外的更多奧巴馬素材。
※在 Mac OS X 裝不上 TensorFlow?看了這篇就會裝
※「老婆,開門」,如果隔壁老王對你的聲音模仿到出神入化
※AI+教育系統如何顛覆學習?這有三類應用幫你詳解
※RoboMaster 2017:機器人版的「王者農藥」,工程師們的競技時代
※一改現況,洛克希德·馬丁公司將發布微型太空望遠鏡
TAG:雷鋒網 |
※3.5mm音頻介面:現在是時候說再見了
※藍牙音頻的未來:今年晚些時候將迎來又一次革命
※5G對音頻的賦能到底是怎麼發生的?
※一段「詭異」的音頻,每個人聽到的聲音不一樣…...網上又炸開鍋了!
※1~12年級要背誦的208篇古詩文(附音頻,旅途中給孩子聽吧,聽著聽著就會背了),值得收藏
※最近有個音頻節目,姑娘聽完後打同事,揍爸媽,還扇自己耳光 | 夜行實錄0071
※索尼曾經威震音頻圈最霸道耳機,現在花錢都買不到
※還不會大舌音?122個帶「rr」的單詞讓你舌頭彈到天荒地老!(含音頻)
※索尼PS5來襲,8K顯卡+3D音頻+全固態,或2020年上市
※阿波羅11號幕後19000小時音頻曝光:回顧首次登月的輝煌時刻
※一段「詭異」的音頻,每個人聽到的聲音不一樣……網友又吵起來了!
※沈月生日感慨30歲會是什麼樣子,五月天隔空送音頻祝福,網友:胡一天呢,不會忘了吧
※喜馬拉雅狂歡節3天銷售破4.35億,音頻知識付費年末爆發
※190210 飯剪輯朱一龍早上叫起床音頻 每天都沉浸在甜蜜愛情里被喚醒
※【享讀】20年前的動畫片也超級好看啊!(附滬語音頻)
※趕快收藏!1~12年級要背誦的208篇古詩文(附音頻)全在這裡了
※怎麼樣通過利用音頻賺錢 真實日賺500元的路子
※白白星座電台 |摩羯座:假如你,年少有為(昨天沒插音頻)
※索尼WH-H800這款耳機太女性化?看看音頻大神們怎麼說!
※5G跟音頻,有關係嗎?