Facebook 的智能聊天設備「撲街」了,但它背後的 AI 不容小覷
承認吧,每次開啟視頻聊天,我們總得花上至少一分鐘調整設備位置,才能確保大家不是在盯著對方的雙下巴和大鼻孔。
從這個角度來看,Facebook 在去年 10 月發布的智能聊天設備 Portal Plus 提供的解決方案不乏創新。
簡單來說,Portal Plus 採用的智能攝像頭可自動追蹤用戶,確保你不會走出可視範圍,而且還會根據用戶離設備的實際距離來調整音量。也就是說,即使你聊天聊到一半,忽然起身去房間另一端拿個東西,對方也不會因此看不到或聽不清你講話。
▲ 圖片來自 Gizmodo
這種體驗,就跟面前有個專人為你拍攝一般。實際上,為了做到這個效果,Facebook 的工程師們的確找來了好萊塢的專業攝影師做諮詢學習。
和很多智能手機的相機演算法不同,Portal 背後的演算法追蹤的不是人臉,而是人的姿勢和動作。
早在 2017 年,Facebook 的人工智慧團隊就已經建立了一套名為 Mask R-CNN 的計算機視覺模型,可追蹤人類 2D 動作姿態。Portal 將這套演算法精簡優化至小型移動設備晶元也能跑起來的 R-CNN2Go 模型。
在這個階段,雖然鏡頭已經懂得跟人走,但視頻看起來還是「僵硬又死板」。於是乎,Portal 團隊找來了好萊塢外援——攝影師、電影攝影技師和紀錄片製作人,一方面學習被廣泛接受的攝影「基本功」,另一方面,則是拋出在家庭聊天情景下可能遇到的刁鑽角度,並看專業人士們會如何處理。
▲ 圖片來自 lovevfx
我覺得團隊算是成功讓鏡頭拍出比較成熟的構圖,就是那種得有點技術,以及對人的行為有所了解才能做出的決策。
Rafa Camargo 說道,她是 Facebook 硬體業務副總裁,同時也是 Portal 項目的負責人。在加入 Facebook 前,Camargo 是 Google 的創新部門 ATAP(Advanced Technologies and Projects)的成員。
對於發展人工智慧來說,「自然」這一標準的門檻其實很高,因為那意味著機器(或者是背後的工程師)找到了讓模擬成果「像人」的關鍵。
2018 年的 Google I/O 大會上,打電話到理髮店預約的 Google Assistant 曾以語氣詞「Mm-Hmm」驚艷全場,而現在 Portal,則借用了好萊塢在觀眾身上培養出的觀影習慣來打造「自然」感。
它給人的感覺很自然。其實他們在電視和電影中採用這種構圖,也是因為在這些年裡,大家發現這就是人類大腦喜歡的方式。
除了要做到「自然」,Portal 團隊在設計模型時還做了一些很有意思的選擇題。
譬如:一家人在和奶奶視頻聊天,突然間,孩子突然從媽媽的懷抱里跳了起來,開始到處跑,最後還去了房間里很暗的角落。這樣的情況下,Portal 要不要繼續追蹤孩子呢?
有人從偏理性的角度出發,覺得,如果小孩跑得太快,追蹤他會讓畫面效果不好,所以還是別跟拍小孩了。但當 Portal 團隊奶奶類用戶諮詢這個問題時,大部分人都說,用視頻聊天大多都只為了見見鏡頭另一邊的人,尤其是孩子。
▲ 圖片來自 Facebook
Portal 團隊最後還是為用戶留下了手動控制權,他們既可以用自動模式,跟拍所有進入鏡頭的人,或者,選擇專註在特定人身上,忽略其他人。
雖然在這裡,Portal 將選擇權交給了用戶,但我們不能忽視的是,現在一些智能手機的相機甚至視頻聊天會默認「美顏」,用戶看不到「原始模樣」;而 Netflix 這類流媒體服務也默認只提供「推薦內容」,想看「原始」的完整列表還要 「秘密代碼」。
這些演算法服務的本質,是用戶「繳械」了選擇權,很多時候這不止於決策權,同時還有獲取「原始」內容的權利。
也許這也是為什麼,當談論到人工智慧服務,「信任」是用戶選擇服務方的關鍵之一。
這不僅牽涉了隱私權,還關乎我們在讓誰幫我們做選擇。經過過去兩年的種種醜聞,Facebook 這個的名字成為 Portal「撲街」其中一個主要原因,同時,這個名字也讓一般人對安全性特別敏感。
無可否認的是,Facebook 在 Portal 背後的演算法對視頻聊天體驗的確帶來了全新的提升,或者只需換個名字,它就能火起來。Facebook 團隊也有計劃將 R-CNN2Go 這套模型推廣到手機應用等產品上。
多個調查指出,大部分美國人都不知道 Instagram 和 WhatsApp 是 Facebook。
題圖來自 Slash Gear
※美國人在 App Store 花錢越來越多,訂閱制功勞不小
※更新後的 AirPods,或將會成為重要的健康檢測工具
TAG:愛范兒 |