AI 換臉技術——DeepFakes 概述二
儘管DeepFakes所呈現出的結果讓人很驚訝,但就現在來說,它的局限性還是很明顯的:
首先,DeepFakes演算法只有在擁有大量目標圖片作為數據的情況下才能達到相對較好的效果。如果要用另外一個人的臉替換視頻中的臉,那麼你需要300到2000張這個人的人臉圖片。所需圖片的數量取決於人臉的變化程度,以及它們與原始視頻的匹配程度。因此視頻換臉比較適用於藝人,或者是那些在網上有大量照片的人。所以很明顯,並不是任何人的人臉交換都是這麼簡單的。
其次,訓練的數據必須要選擇非常有代表性的圖片。上述案例中的DeepFakes演算法雖然能夠還原出Oliver的照片,但並不能還原出Oliver的證件照,因為它所接收的數據中缺少Oliver各個角度的照片。因此,訓練數據需要非常貼近你希望達到的目標。舉例來說,如果你希望生成的某種面部表情,那麼你的數據圖片中就必須要有大量這種表情的圖片。所以,如果你想要開發一個針對大眾的人臉交換軟體,那麼你最後合成的視頻主要是人臉的正面朝前的,因為網上的人臉圖片大多都是正面朝前的,像Instagram上的人物自拍。而如果是針對一個名人的人臉交換,生成的視頻會相對更自然、逼真,因為你能比較輕鬆地獲取這個名人各個角度的照片。
由於沒有足夠多Oliver的側面照,所以網路無法通過觀察學習,生成Oliver證件照。
DeepFakes的另一局限性在於,建立一個換臉模型會消耗大量的時間和金錢。一般的換臉效果大概需要48小時的訓練,而一個相對不錯的換臉則需要大約72小時的訓練才能達到。一個GPU小時大約花費0.5美元,所以僅僅是把人物A和人物B進行人臉交換就會花費36美元,這還不包括數據訓練所需的寬頻費用以及數據預處理的CPU和I/O費用。最大的問題是,一對進行人臉交換的人物需要一個模型,所以在一個模型上的所有投資不能夠解決其他的人臉交換。模型開發的高成本意味著人臉交換的App也不會便宜到哪兒去,更不可能是免費的。當然了,如果消費者願意花錢投資開發這一模型的話,這些就都不是問題了。
另外,模型的運行費用雖然比開發模型要低,但也還是要收費的。在一個GPU上完成一個人臉交換所需的時間大約是輸出視頻時長的5到20倍,比如生成一個時長為一分鐘的1080P的視頻大概需要18分鐘。GPU不僅能夠加速核心模型的運行,還能加速人臉代碼的識別(比如識別出這一幀中有沒有需要交換的人臉)。我還沒有嘗試過僅在一個CPU上進行人臉交換,但我敢說僅在CPU上進行的速度肯定要慢得多。在現在的人臉交換過程中仍然存在著很多低效的因素,比如視頻幀不是成批地傳至GPU的;視頻的操作沒有同步運行,等等。如果這些因素能夠被克服,那麼人臉交換就會更加高效;這樣一來,CPU實現人臉交換也可能會成為不錯的選擇
重複使用模型能夠縮短訓練的時間,從而減少花銷。如果你使用Jimmy和Oliver人臉訓練得到的模型,嘗試將Kimmel的臉換成Oliver的臉,結果通常都是不樂觀的。然而,如果你先從Jimmy和Oliver的訓練模型開始,用Kimmel和Oliver的圖片訓練一個新模型,那麼演算法學會人臉交換的時間只需要原本訓練時間的20%到50%,也就是說完成人臉轉換的時間可以從72小時以上縮短至12到36小時。
人臉交換工具能夠用於收集一些在線渠道的圖像;當訓練數據不足或不匹配時,DeepFakes演算法能夠幫助標記;使用優化的模型,或重複使用已經訓練好的模型能夠縮短訓練的時間;一個設計良好的系統能夠讓整個人臉交換的過程都自動化進行。
好萊塢在電影製作時其實已經使用了這種技術,但是使用的成本並不是這麼低的。如果好萊塢能夠用這一技術製作出非常不錯的電影或者視頻,那麼隨著時間的推移,他們對專業視頻剪輯師的需求一定會慢慢減少的。
這一技術同樣能帶來新的機遇,例如,讓一些不知名的演員來拍電影,然後用大牌演員的臉來替換他們的臉。這可以用於製作YouTube視頻或是普通民眾拍攝的新聞節目。
在更多情況下,電影公司可以根據目標市場的需求來更換演員,Netflix能在拍攝前讓觀眾自行選擇演員。更有可能的是,這一技術能夠讓那些長時間沒有動態的演員重新回到觀眾的視線。
YouTube上一些關於DeepFakes視頻的評論帖子都在討論這個技術會打造出一個怎樣的惡搞圖片軟體。Jib Jab是一家銷售視頻賀卡的公司,多年來一直都在使用簡單的人臉交換;但現在,它迎來了一個巨大的機遇。照片濾鏡已經為Instagram和Snapchat吸引了大量的用戶,而人臉交換App也已經有了很大的發展,Jib Jab有望引領下一個人臉交換的潮流。
這樣的社交軟體將會非常有趣,所以人臉交換的App完全有可能興起一個潮流,前提是開發這些模型的成本足夠低。
StarGAN這篇調研論文介紹了如何使用一個演算法生成不同發色、性別、年齡甚至是表情。我敢打賭,一款能夠讓你擁有精緻小臉的App絕對會火。
想像一下,有了這項技術以後,Target只需要給藝人支付一筆費用,使用該藝人的一些大頭照,再簡單地點擊一個按鈕,就能讓這名藝人連續一個月展示他們家的衣服。這不僅可以為藝人、網紅和社交網路上任何有影響力的人創造一個新的收入來源,還能為商家企業提供了一種品牌推廣的新途徑。但同時,這也引發了一些有趣的法律問題,比如所有權的歸屬問題,以及關於如何分割和使用其價格權利的商業問題。
Loolet會讓成衣公司在人體模特上拍攝他們的服裝,選擇配套的衣服,挑選一張模特的臉和一個姿勢,然後就能製作出一張可以投放市場的照片了。更重要的是,他們可以在沒有模特或攝影師的情況下隨意改變照片的風格。
總結
DeepFakes的原始用戶像是開啟了一個「潘多拉的盒子」,他們首先引起了人們關於假視頻製作對社會的影響的討論。現在,大多數人都已經接受了照片造假的現象,所以我希望在將來,我們也能夠以同樣的方式適應視頻的虛假和不確定性。
DeepFakes還讓人們真正地了解了這項技術的有趣之處。「深度生成模型」(比如DeepFakes使用的自動編碼器)僅僅給演算法輸入了大量的數據案例,就能夠幫我們創建一些看起來非常逼真的合成數據(包括圖像和視頻)。這意味著,一旦這些演算法被轉化成實際的產品,這個強大的工具將進一步激發普通人的創造力。
現在,這項技術已經有了很多有趣的應用,比如那些照片風格轉換的App,只需簡單的步驟就能讓你的照片看起來像一幅名畫。但是目前,這一領域的研究尚未成熟,技術的應用還有很大的潛力。
我非常熱衷於從AI的最新研究中創造價值,所以如果你有興趣將這項技術推向市場,進而解決現實中的問題,請給我留言。
※惠普在英國因起火原因召回多個型號筆記本產品
※5G網路每年能為每戶英國家庭省450英鎊
TAG:科技無處不在 |