順滑如絲解密英偉達慢動作視頻技術

科技 07-03

英偉達曾經發布過一段視頻，演示了通過人工智慧如何將一段普通視頻轉化為平滑自然的慢動作視頻，效果就像是電影上展示的慢動作特效，觀眾可以清楚看到一系列連續的慢動作。那麼這個特效是怎樣實現的呢？就讓我們一探其背後的技術支撐。

慢動作，沒你相像的那麼簡單

相信大家在各種影視作品中都看到過慢動作特效，比如在剛剛結束的世界盃就有許多球員進球，射門，身體接觸的慢動作回放，通過VAR逐幀回看，這些慢動作可以清晰看到一瞬間發生的事情。

對於電影里的慢動作特效，實際上是藉助設備進行高速攝影，比如拍攝速度達到50幀/秒、100幀/秒甚至更高，然後在回放時候仍然選擇24幀/秒常規速度播放，這就相當於把實際1秒鐘拍攝的圖像用2秒多到4秒多時間回放，從而實現慢動作效果。

當然對於普通用戶來說，我們沒有高速攝影設備，那麼怎麼實現慢動作效果？英偉達近日推出基於cuDNN 加速的PyTorch 深度學習框架實現任意視頻慢動作，通過這個這個人工智慧框架，結合NVIDIA Tesla V100 GPU強大處理能力，它可以將任意一段視頻拉長，從而實現類似電影特效里的慢動作（圖2）。

圖2 英偉達演示網球拍擊打有顏色的墨水瞬間

視頻拉長的背後——人工智慧慢動作技術

通過上面介紹我們知道，常規的慢動作是將高速攝影的視頻低速播放實現。那麼對於普通的視頻（已經是低速攝影成品了），英偉達又是怎樣實現慢動作效果的呢？

慢動作的核心是將原來的視頻拉長而實現慢速效果，但是如果將普通的視頻直接使用低速效果播放，實際效果則會變為卡頓、幀與幀之間動作變得不連貫。因此將普通的視頻拉長後還要實現平滑的慢動作效果，此時就需要對視頻物體進行定位和補幀。

比如一段汽車漂移的視頻，如果要實現漂移的慢動作演示，我們首先需要對視頻中的汽車進行定位，只有對汽車進行準確定位後，比如精確定位汽車每一秒的漂移位置，這樣才可以對汽車後續整個漂移動作進行全程的展示（圖3）。

圖3 漂移汽車

實現對展示物體的定位後，因為展示的是慢動作效果，我們還需要對視頻進行補幀。因為原來視頻本身就是低速攝影拍攝的，現在將視頻拉長後，為了讓拉長的視頻不出現卡頓（掉幀），此時就需要進行精確的補幀，使得視頻拉長後播放仍然非常順滑（圖4）。

圖4 英偉達展示舞蹈演員跳舞的慢動作視頻

這樣通過視頻定位和補幀，英偉達的人工智慧框架技術就實現將任意視頻慢動作化。那麼這樣的效果是怎樣實現？

英偉達的這項技術是藉助NVIDIA Tesla V100 GPU強大視頻處理能力人工智慧學習框架實現的。英偉達搭建好人工智慧學習框架後，通過預先準備的約1.1萬段的視頻素材作為數據源給人工智慧進行學習，讓它從這些視頻素材中學習定位和補幀。比如上述跳舞視頻，人工智慧技術可以對視頻中的舞者進行定位，並且可以對舞者每一幀動作進行學習，知道下一幀的人物是怎樣的狀態顯示。這樣通過一定的演算法和學習模型，並且通過人工智慧的深度學習和自我學習，這個人工智慧框架就可以對其他視頻進行同樣的定位和分解，從而通過完美的定位和補幀技術，實現將普通視頻慢動作化（圖5）。