快手科技多媒體內容理解部李岩:AI技術貫穿於快手的產品骨髓之中
「AI技術貫穿於整個快手產品的骨髓之中,通過AI技術進行多維賦能,讓更多人有機會被世界看見,也能看到更廣闊的世界。」5月25日,在2019全球人工智慧技術大會(2019 GAITC)上,快手科技多媒體內容理解部負責人李岩如是表示。
大會在南京舉行,李岩在「人工智慧與媒體融合前沿論壇」作了演講。李岩作為快手科技的代表,講述了快手如何用AI技術去賦能每一個普通用戶,讓每一個人的記錄形式更豐富、有趣、高質量。
李岩說,快手在AI技術上的深耕,降低了短視頻的創作門檻,使用戶儘可能地接近專業水準。而在理解內容、理解用戶中實現視頻和用戶的精準匹配,讓每位用戶獲得更大的展現空間,同時看到了更大的世界。
他認為,通過短視頻實現的記錄,讓人與人以及人與世界連接起來,是很有意義的,從整體來看,提升了網民之間的信任。
以下為演講內容實錄(有刪節):
非常高興有機會介紹在快手這樣一個短視頻社區,AI是如何應用的,具體會產生什麼樣好玩的AI應用。
我的分享分為三部分。第一部分簡單介紹一下快手;第二部分介紹AI技術如何幫助用戶提升視頻創作質量,降低創作門檻;第三部分介紹AI技術如何理解視頻,理解用戶,並做好分發。
快手是什麼
快手把自己定位成普通人記錄生活和分享生活的社區型產品,通過短視頻、照片以及直播的形式,幫助人們記錄自己的生活,使每一個人都有機會被世界看到,也能看到更廣闊的世界。
快手在2011年誕生,今年成立8周年,目前DAU已達到2億。2011年,GIF快手是做動圖的工具,2013年移動互聯網興起,我們看到了短視頻的重要影響和作用,2013年7月,工具型產品轉型為短視頻社區。轉型短視頻社區之後,快手的數據實現了指數級增長,2015年1月,快手日活用戶超過1000萬,截止到現在,快手的日活已經到達2億。在中國的互聯網市場,日活2億量級的APP非常少。憑藉數億用戶幾年的積累,現在有超過100億條短視頻記錄在我們的社區里,並以每天新增1500萬條短視頻的速度增加,4年前這個數字只有幾十萬。
在快手裡,用戶記錄了大千世界裡的方方面面,在這裡我們可以看到很多種真實有力量的生活,有些畫面是我們在大眾媒體看不到的。比如這個視頻,鴨綠江的放排人在運輸木材,把高山上的木材順著水流運到山下,這種古老的水運方式已經很少被人知曉,在快手這群人被數百萬人關注到。還有這個視頻,這是城市工地上的「水鬼」,這個職業很小眾,但一二線城市的每一座高樓大廈都需要他們,在用建高樓大廈打地基的時候,需要用電鑽挖幾十米的深坑,電鑽頭掉了需要他們潛到幾十米深的渾濁泥水中,把電鑽恢復原位。
普通用戶記錄的生活,涵蓋的內容超越了之前的記者或者專業人士記錄、調研的範圍。有數億人在快手記錄自己的生活,這裡有當代的百工圖,有全球各地的田野風俗,還有用戶記錄的各式各樣的旅行生活,也有清華、人大等高校教授講解知識進行知識傳播,這些畫面聚集起來就是一幅我們當代生活的清明上河圖。
AI幫助用戶用更低成本創作出更高水平的視頻
接下來,我重點講一下AI技術如何幫助這款短視頻產品做得更好。我希望幫助各位媒體的朋友們了解到,AI技術其實是貫穿於快手的產品骨髓之中,應用在視頻生產、視頻理解、用戶理解到視頻推薦的整個環節。
視頻創作環節,我們希望每個人都能成為自己生活的導演,用手機去記錄生活,而且生成相對較高質量的視頻。如何幫助每個人成為自己的導演呢?在視頻創作環節快手廣泛應用了AI技術,用科技去賦能普通用戶,使他們儘可能接近專業製作視頻的水準。
我們希望讓用戶用更低的成本創作出更高水平的視頻,這就需要讓AI助力於內容生產。
比如,快手之前上線的一款魔法表情叫「快手時光機」,用戶可以在幾十秒鐘內看到自己容顏變老的過程。一個人拍自己的視頻是很乏味的,我們希望用戶能夠體驗到自己變老以後的樣子。
又比如,把AR技術應用在用戶拍攝視頻的環節,給現實生活的畫面加入一些虛擬的元素,這屬於增強現實,使虛擬世界和現實世界更好的互動,使人們在記錄自己生活的時候有更多的新奇的體驗。
再比如,我們會運用圖像相關的演算法,幫助用戶去矯正拍攝中出現問題的視頻,比如臟鏡頭導致的視頻畫面模糊,光線問題導致的畫面昏暗及畫面偏色的問題。
這些玩法和功能的背後是快手對前沿 AI技術的開發,涉及人體姿態估計、手勢識別、背景分割等多個技術模塊。這些都是快手努力將記錄形式變得更加有趣的新嘗試。
這裡有一個挑戰,上述技術都要在手機本地實時地進行計算與渲染。快手擁有數億用戶,用戶的手機機型千差萬別的,這要求我們的演算法必須在所有的機型上都能流暢運行,這對我們AI能力的要求是非常高的,非常消耗計算資源。為了解決這個問題快手自研了YCNN深度推理學習引擎,解決了AI技術運行受限於用戶設備計算量的問題。
音頻方面,我們也做了非常多的工作。比如之前專業的人在創作視頻時,編輯字幕是非常痛苦的事情。現在我們通過語音識別技術,可以幫視頻製作者自動添加、編輯字幕,而且還可以以各種各樣的形式展示字幕,藉助AI的技術極大地降低了生成字幕的成本。
在短視頻場景里音樂起了非常重要的作用。據統計,快手的視頻中,有60%-80%的視頻用背景音樂烘托氣氛。如何選擇恰當的音樂表達心情,其實是不容易事情。讓用戶盡量貼合音樂的節奏創作動作,對於用戶的要求也是非常高的,具備很強樂感的人其實非常少。
為了降低用戶創作視頻時選擇音樂的門檻,我們開發了智能配樂及AI生成音樂的技術。智能配樂可以根據視頻畫面及用戶畫像為用戶推薦適合視頻畫面,並被用戶喜歡的背景音樂供用戶選擇。AI生成音樂通過AI的分析演算法,可以感知到視頻畫面中人的動作,然後讓生成的音樂節奏匹配人的動作,這樣是極大地降低了用戶創作視頻時選擇音樂的門檻,讓大家更願意創作自己的視頻。
用AI理解視頻,理解用戶,做好分發
上面分享的是AI技術如何降低人工創作短視頻的門檻,使普通用戶都可以創作出質量還不錯的短視頻。用戶創作並上傳到我們的社區後,我們又做了哪些事情更好的分發這些視頻呢?
理解視頻其實非常複雜,對人臉緯度的解析、場景類的解析、音樂類的解析等等,這些都是從單個角度進行建模,其實視頻需要多模態的解析。我們需要做到讓機器高效的判斷用戶上傳的視頻是不是符合規則的,判斷視頻內容是不是原創的,以及要做到把視頻精準的匹配給對他感興趣的用戶。
我們讓機器能夠幫助我們管理好上傳的海量視頻,同時幫我們做好視頻的推薦,而且推薦給用戶的視頻是能激發用戶興趣的。這裡還涉及用戶理解,指的是讓機器理解我們的用戶,其中包括理解用戶在社會學上的特徵,以及用戶的興趣,包括他的短期興趣愛好以及中長期興趣愛好,以及海量的能夠代表用戶特徵的更小的向量。
在視頻的分發上,快手上有一個非常有意思的現象,我們不希望頭部的視頻內容佔據太多的曝光,我們用經濟學上的基尼係數控制平台上用戶之間的「貧富差距」。互聯網上的注意力資源是非常寶貴的資源,我們希望這種寶貴的資源也能分給普通人,而不是像聚光燈一樣聚集在少量的頭部用戶身上。所以我們設計了快手的推薦機制,無論是明星還是普通人在快手都是一樣的。快手重視生產者的利益,重視長尾視頻內容的分發。我們希望注意力資源可以向陽光一樣撒給所有生產視頻的用戶,這樣普通人就有機會被更多人關注,能夠感受到被關注被認可的幸福感。
通過短視頻實現的記錄,讓人與人以及人與世界連接起來。我們認為,建立這種連接是非常有意義的事情。我們每個人的內心深處都是寂寞的,都希望通過連接去獲得關注、認可,並且能結交朋友。因此,快手用戶之間的關係會粘性更高,更穩固。從整體來看,這可以提升網民之間的信任。
我今天的分享就是這些,謝謝大家。
※服務消費者場景化需求,「圈圈科技」為商家提供運營中台
※台北電腦展上的晶元廠商沒有驚喜
TAG:36氪 |