快手宿華:我們7年累計50億條視頻,靠AI 提升長尾用戶的幸福感
快手創始人兼CEO 宿華
鈦媒體注:上周,快手上的視頻總數已經超過了50億,如何讓這50億視頻與觀看視頻的用戶進行匹配是一個前所未有的挑戰。在過去,業內常規的做法是運營好長尾曲線中頭部的「爆款」視頻,但快手表示,希望尾部視頻同樣能被感興趣的人觀看。
在本周一,2018年中國圖靈大會上,快手創始人兼CEO宿華出席,分享了以「AI 如何提升幸福感」的主題演講,分享了快手在人工智慧最新的探索與應用。
大約12年前,宿華加入了谷歌,開始接觸、學習和應用機器學習技術。在谷歌,他一直在研究如何嘗試利用AI和機器學習,解決信息匹配和信息分發的問題。
宿華認為,之前的視頻平台不是那麼需要 AI,是因為視頻的數量沒有達到一個量級。如果每年只新增兩百部電影、三百部電視劇,可以通過人工標註的方式把它分析和理解的特別清楚。但是,假如每天新增千萬級的視頻,面對50億的生活片段,是不可能去依靠人工編輯和傳統的媒體板塊去分發,也無法照顧到長尾的用戶。
宿華認為,「記錄」本身是能夠提升幸福感的。每個人心中都有一個渴望——看見別人和被別人看見。幸福感需要讓我們每一個人都可以看見,被這個世界發現,能夠讓自己的情緒情感被別人知道,被人感知,被別人看到和理解。
他表示,快手最想做的事情,是要構建一整套的以 AI 技術為核心的基礎設施,能夠用科技的力量提升每一個人獨特的幸福感,能夠讓每一個人更多更好的感受這個世界,也能夠更好的被這個世界所感受到。
當要照顧每一個人的需求,尤其是長尾用戶的需求時,就需要依靠人工智慧。快手將 AI 主要應用在四個環節:內容生產,內容理解,用戶理解和視頻分發。
今年4、5月份,快手上線了一個魔法表情、肢體識別舞蹈遊戲以及 AR 模型特效。這些特效背後,涵蓋了人臉關鍵點、背景分割、人體姿態估計、視覺慣性里程計等人工智慧技術。為了支撐這些技術,快手自主研發了 3D 引擎及 YCNN 深度學習推理引擎。即便使用低配置的手機,演算法與模型依然可以高效快速運轉,讓更多用戶的記錄過程體驗更加豐富有趣的玩法。
快手會通過大數據去理解每一位用戶的興趣偏好,同時,得益於快手是一個分享社區,快手的用戶理解不僅基於內容,還基於行為數據。每天有上億的用戶在進行「數據標註」,包括點擊點贊、關注轉發、播放時長、用戶關係等,交織成了網狀的關係,幫助快手來更好的理解用戶,除了用戶興趣偏好,更理解用戶潛在的興趣,幫助用戶挖掘探索更大的未知領域。
在未來,快手還將探索 AI 諸多方向,例如,通過多模態信息融合的視頻理解器能夠像人類一樣理解一個視頻,理解人類複雜的情緒。
「如何把用戶的行為數據和內容清晰組合在一起,特別是把內容裡面的視覺,加上時間軸以後進行連續的視頻分析,再加上深度的分析,用戶的行為分析,整個多模的集成組合在一起,也是一個非常有意思的課題。」宿華說。(本文首發鈦媒體,作者/李程程)
以下是宿華的演講全文,略經鈦媒體編輯:
大概12年前,我剛加入谷歌,開始接觸、學習和應用機器學習的技術,主要為解決搜索引擎當中的一些問題,學了很多前人的推導公式,學了很多的模型、思想。後來我思考,AI應該用來解決什麼樣的問題,不是數學上的問題,而是說為社會、為人類應該解決什麼問題?
想了很長時間,有了一個答案。在這些年實踐的領域中,我想明白了,不管我們做什麼樣的技術,最後都應該用於提升人類的幸福感,或者是做到幸福感的改善。AI當然是當下最火最熱的技術,下面我給大家分享的就是,我這些年是怎樣去用AI解決幸福感的問題。
「記錄」可以提升幸福感
首先,我們發現「記錄」是可以提升人們幸福感的。因為每一份記錄都有兩類人:一個是記錄的產生者、記錄者,一個是記錄的觀察者。
對於觀察者來講,通過別人的記錄可以看到更廣闊的世界。在城市裡可以看到鄉村農產品生產,在鄉村裡可以看到國外的世界,土耳其的熱氣球。非洲的小孩可以和中國人交朋友,在日本的留學生可以和自己在中國的家人、朋友交流。
我們想每個人心中都有一個渴望,一個是看見別人,一個是被別人看見。我們希望自己的狀態,自己的情感,自己的靈感,能夠被更多的人看見,被更多的人理解。我想,記錄是其中最關鍵的一環,是能夠使得每個人幸福感都得到提升的可能的方案。
快手是2011年成立的,我們幹了7年的時間,一路上經歷了非常多的挑戰,經歷了日活在1億量的網路社區。我們怎麼做的呢?
我們在用科技的力量去提升每一個人的幸福感。我們在嘗試讓每一個人都能夠記錄自己的生活狀態,每個人都有機會留下自己的記錄呈現給這個世界,每個人都能夠讓世界發現自己,每個人都能夠因此消減一點點的孤獨感,提升一點點的幸福感,從而能夠提升整個社會幸福感的總和。
我們在這條路上已經走了七年的時間,直到上周,我們大概累計有50億條視頻。50億條視頻是什麼概念?
這裡面是快手用戶,平均每天能夠產生一千萬到兩千萬條視頻。中國有兩千多個縣,我們能夠拍到每個縣,在座的各位你們的家鄉每個縣都能夠看到數千條量級的視頻。用戶在任何時刻打開快手,都可以看到任何一個地方。這50億條視頻,幾乎都不重複。並非某些視頻的庫雖然很大,但是大體是同一個電影、或者綜藝的剪輯。在快手產生的、留下來的50億條視頻,都是生活中活生生的、新鮮的生活狀態,形形色色的人,形形色色的事。
AI 如何理解長尾用戶生活片段
我們剛才講,其實幸福感需要讓我們每一個人都可以看見,被這個世界發現,能夠讓自己的情緒情感被別人知道,被人感知,被別人看到,被別人理解。但是,50億的量級是非常龐大的量級,我們過去的視頻平台,庫里每天新增的視頻從來沒有突破過千萬量級的,這在歷史上都是沒有過的。
所以在座的這些內容、這些視頻,和那些觀察者之間匹配的時候,實際上以前說照顧好頭部就可以了,可是面對50億的生活片段,我們怎麼把長尾的用戶照顧好,真的能夠讓每一個人都得到一些關注,每個人都消減自己的孤獨感,這實際上是非常艱難的課題。
我在十幾年前,在谷歌的時候就研究這個問題,我們做很好的匹配,做很好的信息的分發。實際上我們整體是在用AI,用機器學習的技術在嘗試去解決。
歷史上的其他的視頻平台不是那麼需要,特別是每個視頻數量沒有那麼多的時候。如果每年只新增兩百部電影,三百部電視劇。每一個電影、每一個電視劇,或者每一個綜藝節目,我們都可以用人工標註的方式把它分析、理解的特別清楚。但是,每天新增千萬量級視頻,不可能找人標出來,也不能找編輯去像傳統的媒體按板塊分發。我們想要去照顧長尾用戶、想要去照顧每一個人,這樣的平台,我們更加無法挑選那些頭部的,極少數的熱的視頻給大家看。
那麼我們的解決方法是什麼?是用AI,應用在四個環節。第一個環節內容的生產,是記錄的產生環境。第二個環節,如何讓這些人去理解視頻。
我是80後。80後從小就喊理解萬歲,我相信理解也是機器今天能夠做的一個主要的方向之一。讓機器像我們人類一樣能夠理解這個世界,能夠理解每一個人,讓機器理解每一個生活的片斷,這也是快手公司在做的事情。
基於這樣的理解,我們後面才會有整個很好的分發,有一個更好的平台去照顧到每一個人。我們理解每一段視頻,每一個視頻片斷,我們要理解每一個用戶的偏好,理解每一個用戶潛在的偏好,最後才能做一個很好的分發視頻。
第一個模塊在記錄,今年4月份、5月份快手上線的一個魔法表情,能夠快速模擬一個人,從年輕到老去的過程。第二個是整體的姿態檢測,裡面還有AR的玩法,實際上他背後是基於我們自己研發的一套3D系統的AR系統,我們YCNN的深度學習系統,這個深度學習系統它的核心優勢就是能夠在非常低端的手機上,跟我們一起實現跨平台,不止在安卓、iPhone上運行的效率提高,同時能夠把模型做得非常小,速度做得非常快。最重要的是做了非常多的視頻中的記錄的玩法,解決人體姿態識別的問題,人臉關鍵點檢索問題,視覺慣性里程計,還有手勢識別。
讓機器理解這些視頻是什麼內容,當一個生活的片斷上傳過來以後,我們立即會將一系列的信息拿掉,比如檢測有幾個人,進一步需要檢測是男人還是女人,是老人還是小孩,是中國人還是外國人,能夠把之間的關係理解,就變得越來越難。
我們除了跟人有關的識別,還做了大量圖像方面的,有場景的識別,是在會場還是在操場,是在家裡或辦公室,我們做了很多的場景識別。更進一步、更難一點的,在做飯、做菜,還是在釣魚,各方面場景的場所,還有他正在做的事,是在賽車,還是在大馬路上騎自行車,還是卡車、轎車,有更多的更高級的識別。當然我們還做了顏值識別,比較好玩,目前線上還沒有這個應用。
這其中還有和語音有關的理解,就是我們經常發現一個視頻,他裡面很多信息是包含在音頻裡面,特別是傳遞情緒,人類的很多情緒是在聲音裡面,再轉化為語速、語調起伏,或者他用得配樂,就是音樂本身的情感屬性,我們做了大量的音樂的結構化的理解。
我們最高的並發大概是20萬,在快速的語言裡面,有幾十萬的並發的、實時的語音識別的需求,我們到現在為止,還是僅用自己自研的,因為20萬的並發率,對機器的要求特別高,找第三方的話,不願意投入機器。
另外,快速的語音識別還有一個難點,我們的場景是生活場景,它不是收音乾淨的。在生活中可能有兩個人在說話,可能有汽車在叫,可能在操場裡面,或者在教室,整個是一個複雜的場景,這裡面我們怎樣能夠做到最好的,速度要最快的語音識別,幾十萬部的並發識別,對我們來說也是一個非常大的挑戰。
從全球板塊來講,我們會接受一定程度上的識別率的下降,但是要讓性能和讓場景的適應性更好,這是快手目前面臨的問題之一。在底層,我們有自己研發的,一個大規模並行的機器學習的平台,是做模擬訓練和推理,也包括做一些數據的標註。
當然對快手來講,我們做視頻內容的理解,很大程度上得益於我們是一個社區,社區裡面每天有上億的人在幫我們標註,他們的點擊點贊行為,他們的關注行為,他們的轉發行為,他們的播放時長,他們人和人之間相互的關係,網狀的關係,就在幫助我們更好的理解用戶。我們不是純粹從內容出發的,我們還有行為數據。
但是,如何把用戶的行為數據和內容清晰組合在一起,特別是把內容裡面的視覺加上時間軸以後進行連續的視頻分析,再加上深度的分析,再加上用戶的行為分析,整個多模的集成組合在一起,也是一個非常有意思的課題。
AI 如何探索社區用戶的興趣邊界
第三個部分是理解用戶,當然這裡面的用戶並不是內容的記錄者,是指看內容,當你拿出你的手機,打開一個APP的時候,我們希望幫助你發現這個世界,這時候對平台來講,我們需要理解你的興趣偏好,更主要的我們還需要理解你潛在的興趣,就是你過去還沒有探索過,但是你可能會喜歡的方向和領域把它挖掘出來,才能幫你探索更大的未知領域。
在快手,我們也是得益於我們做的是一個社區,舉個例子,其實在日常生活中,我們怎麼去擴展自己的興趣偏好,一個是隨機的,不小心看到的、很好玩的。比如我當年為什麼會選擇做AI,真的是不小心碰到了有一個團隊在做機器學習的應用,我跟他們聊了以後很感興趣,從此走上了這個路,這是一個非常隨機的狀態。
還有一個做法是問朋友,比如在你的朋友圈裡面,或者你的室友、你的同學,到處說我昨天打了棒球,很好玩,你要不要一起來玩一下,我剛學了一個C++語言不錯,要不要一起來學一起,朋友告訴你,幫助你擴展你的興趣偏好。
在快手我們利用類似的邏輯去做,就是在一個大的社區裡面,總有那麼一些人跟你很相似,但又不完全一樣,跟你相似又關注他們喜歡的東西,他們喜歡的那些跟你偏好不一樣的東西,你極大的可能會喜歡,我們嘗試去擴展興趣的時候,去理解一個用戶群偏好的時候,我們會應用到裡面,盡心去做,這樣可以幫助每一個人,你不是一個人在探索,是有社區裡面成千上萬的人跟你相似又不同的人在探索,同時你幫助其他一些跟你相似而不同的人去探索,這樣我們可以更好的理解一個人的潛力。
接下來就是視頻分發,我們的記錄能夠更好的產生,在內容、視頻、生活片斷中會最好的理解,在用戶的偏好,潛在的興趣,能夠可以更好的挖掘的基礎之上,我們才能做一個更好的分發系統。這個分發系統可以真正照顧長尾,能夠讓更多的人找到自己喜歡的人,找到喜歡自己的人,能夠讓更多的人被看見,讓我們看見更大的世界。
我們現在已經進化到的用實時的方法做整個的日誌系統,可能有同行知道,早年我們都是用一些偏Linux的方法去做,到現在線上已經能夠實時的運行深度學習的方法,並且還不是一個模型,可能是一個層疊的組合的複雜的模型。但是,事實上能夠做到標值的響定,用戶的每次行為,事實上在一秒鐘以後,就能夠反應到視頻中去,能夠給用戶更好、更准、更廣闊的世界,等待用戶去發現。
未來我們還有很多想要研究的方向,這裡面列了其中一些,我自己最感興趣的是多模態信息融合的視頻理解,我覺得總有一天我們的機器能夠像人類一樣理解一個視頻。我自己有一次看到一個特別有意思的視頻,那個視頻很短,是一個男生和一個女生走在一起,擁抱,然後分開。看到那個視頻的時候,我是能夠理解他們是一對情侶,他們應該是最後一個擁抱,不清楚什麼原因分開了。
我當時就想說,是不是機器有一天也能夠理解到這一層,我在理解這個視頻的時候,我發現有兩個人,我發現他們擁抱了之後,發出的聲音是包含了非常悲傷的情緒,他們分開的時候又很決絕,我們就得到了這樣一個結論。也許有一天我們做的人工智慧系統,能夠像我一樣,像人類一樣去理解生活中的片斷,能夠更好的理解人類的情緒、情感,甚至是靈感。我很期待那一天的到來。
對快手來講,我們是要構建一整套的以AI技術為核心的基礎設施,能夠用科技的力量提升每一個人獨特的幸福感覺,能夠讓每一個人更多更好的感受這個世界,也能夠更好的被這個世界所感受到,這是快手最想做的事情。
謝謝大家。
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App
※北郵展示 3D 懸浮光場顯示系統,實現用手與圖像交流
※區塊鏈手機說到底還是偽命題
TAG:鈦媒體APP |