數學和編程能力,馬維英說這是位元組跳動AI Lab招人的首要準則
位元組跳動 AI Lab 近日組織了 AI 開放日,他們展示了各種視覺和語言方面的炫酷應用,這些應用很多都已經嵌入了位元組跳動的產品中,例如今日頭條、抖音和西瓜視頻等。此外,位元組跳動 AI Lab 主任馬維英還重點分享了實驗室的招人準則,躍躍欲試的小夥伴們,你們準備好了么。
在開放日上,現場 Demo 展現了很多熟悉而又炫酷的應用。你知道怎樣利用聚類演算法和 CNN 從短視頻從抽取最好看的小姐姐么?你知道怎樣用單攝手機拍出柔順的背景虛化圖么?這些可能用耳熟能詳的演算法就能完成,只不過實驗室會將它們做到極致並嵌入到 APP 中。
逛完 Demo 展示後,馬維英介紹了很多實驗室的具體信息,包括實驗室的目標、發展情況和突出成果等。馬維英表示 AI Lab 的目標是為今日頭條和抖音等產品提供核心技術支持,並滿足現在到未來 2-5 年的產品和業務發展需要。
有這麼優秀的科學家和資源,你想不想來場面試?馬維英隨後就介紹了 AI 實驗室的招人經驗,所以你的數學和代碼都準備好了么?
數學足夠好是做 AI 研究的基礎
從微軟到今日頭條,馬維英的「看人」技能非常純熟,他會比較特別地觀察應聘者的各項素質。在開放日上,他也分享了 AI Lab 及個人面試的擇人準則。馬維英表示首先會考慮應聘者的數學基礎是不是非常好,是不是能深入了解問題的本質。因此應聘者的數學功底要好,對數學模型有比較好的直覺和理解。也就是說應聘者不能只是會簡簡單單地應用,把模型或演算法當作一個黑箱進行調參,而不了解具體過程。如果有比較好的數學基礎,那麼模型的理論過程、最優化方法、損失函數調優等都可以結合實際問題進行修正,從而獲得更好的性能。
其次馬維英會比較看重工程實踐能力,所以 AI Lab 這邊也會考慮應聘者的編程能力。馬維英表示我們常常會有非常好的想法,但很可能沒有實踐能力,這是不夠的。最後,馬維英還會考察應聘者的態度,比如說團隊合作、人際溝通和表達能力等,這是一些和軟素質比較相關的東西。
而從個人角度來看,馬維英說:「其實我這麼多年招了這麼多人,在面試中會非常重視眼神的交流。在面試過程中,我大概通過十多分鐘就能判斷面試者的思維是不是比較敏捷、回答過程中是不是比較坦誠等。因為有大量的經驗,我通過對話可以看到面試者不太容易看到的一面。」
炫酷的演算法應用
有數學還不夠,你需要把它做成產品,所以你可以先看看 AI Lab 做出來的 Demo。其實它們很多都已經應用到實際產品中,例如 2018 年世界盃期間接入了今日頭條直播間的視頻分析、接入抖音的視頻內容審核、嵌入西瓜視頻的封面生成等,不過這裡只重點介紹了視頻理解與背景虛化兩種應用。
曾經背景虛化只是單反的專利,通過大光圈獲得像奶油般柔滑的背景。當然現在手機也可以藉助雙攝像頭完成背景虛化,但如果只有單攝像頭或單張圖片,又如何藉助演算法實現背景虛化呢。位元組跳動 AI 實驗室展示了這樣一種演算法,它可以預測高清圖像的「深度信息」,也就是從近到遠區分前景與背景。有了這種深度信息,我們就能很自然地生成對應的背景虛化圖像。
如下所示,直觀而言模型首先會將高清圖壓縮為低清輸入圖,然後使用深度殘差網路抽取到深度圖,這裡先壓縮為低清圖再做卷積運算可以大大降低計算力。然後我們可以根據深度圖和低清輸入圖渲染低清背景虛化圖,並在最後利用高清原圖、低清輸入圖、深度圖和低清背景虛化圖構建高清背景虛化圖。這裡在訓練過程中起到監督作用的是深度圖,模型會儘可能正確預測整張圖的深度信息,後面根據深度信息和原圖生成背景虛化圖就只是合成過程了。
打開今日頭條,查看更多精彩圖片
其實預測深度圖有點類似於圖像分割任務,只不過這種逐像素的分類問題預測的是所有像素離鏡頭的距離。具體而言如上圖綠色的 Depth Prediction 模塊所示,模型不僅會使用全連接網路直接預測深度,同時還會使用額外的前景分割任務獲得更準確的分割邊界線。位元組跳動 AI 實驗室在現場展示了這一方法的實際效果,雖然不能說完美,但一般人是看不出問題的。
除了圖像,視頻處理也有非常有意思的應用。一般在上傳視頻到抖音或西瓜視頻後,我們希望能有一張好看的封面,因為漂亮的事物總是能吸引別人點開視頻。但是機器學習系統能幫我們挑選出最漂亮的封面嗎?答案是可以的,位元組跳動實驗室展示的這個應用甚至可以從視頻中選出最好看的視頻幀,並裁剪為合適的大小。
下圖展示了挑選封面的主要做法,當我們上傳一段視頻後,模型首先會對不同的視頻幀做一個聚類處理。因為視頻是連續的圖像,聚類過程能將類似的視頻幀都聚在一起,因此從不同的集群採樣一些視頻幀就能挑選出有代表性的圖像。然後把這些圖像饋送到深度卷積神經網路並度量每一張圖像的質量,這樣就能挑選出最「漂亮」的圖像。最後只要進行適當地裁剪就行了,當然這樣的裁剪也會儘可能保留主體。
在現場 Demo 展示中,應用可以快速推斷出短視頻中質量最高的圖像,它會給出評分前三的視頻幀。除此之外,位元組跳動 AI 實驗室還能利用深度卷積神經網路抽取關鍵視頻片段,並總結為更精簡的短視頻。
現場 Demo 展示還有很多炫酷的應用與方法,例如在足球直播中,實驗室構建的系統能追蹤球員與足球,並估計相機所在的位置及拍攝的球場區域。這一系統在 2018 年世界盃期間接入了今日頭條客戶端的直播間,它還能檢測精彩片段,並為 Xiaoming Bot 寫作機器人提供圖像素材。
其實 Demo 中的很多應用都需要部署到移動端,例如給人臉加各種特效的激萌或抖音等。為此,實驗室展示了一種快速輕量級的人臉識別方法。他們會使用經量化的修正版 MobileNet V2,並採用知識蒸餾方法從預訓練的大模型中學習更優秀的精鍊模型。因此在實際應用中能以毫秒級的延遲完成人臉識別任務,而對人臉再加特效也就非常迅速了。
經過這麼多的展示,總的而言位元組跳動有非常多優秀的產品,而這些產品正需要新興的機器學習乃至深度學習技術提供更多「炫酷」的功能。
※專欄 | 香儂科技獨家對話Facebook人工智慧研究院首席科學家Devi Parikh
※CoNLL 2018 | 最佳論文揭曉:詞嵌入獲得的信息遠比我們想像中的要多得多
TAG:機器之心 |