Airbnb中國成立數據科學部,中國有望成為其最大客源國
採訪嘉賓 | 朱濤 Airbnb 中國數據科學部負責人
撰稿 | Debra
作為「共享經濟」的典型代表和一家數據驅動型企業,全球旅行短租平台 Airbnb 已經成為不少人出行住宿的首選。除了商業模式、運營成熟之外,該平台獲得用戶青睞還在與其給用戶帶來較高的體驗密切相關,比如個性化的推薦和搜索結果、智能的定價策略、安全的交易環境等。而這一切,離不開 Airbnb 背後的數據科學團隊所做的工作。2018 年,民宿市場規模越來越大,競爭對手紛紛入局。Airbnb 是如何靠數據和技術留住用戶,脫穎而出受到用戶的青睞,保持共享民宿「老大」的位置?通過 Airbnb 數據科學團隊,AI 前線全面了解了 Airbnb 平台如何以技術為支撐,用數據和機器學習為用戶帶來更好的體驗,並為 Airbnb 帶來商業化效益。
Airbnb 中國成立數據科學部門
2018 年 2 月,Airbnb 中國(愛彼迎)宣布成立數據科學部門,由 17 年底加入的朱濤負責。朱濤此前曾在沃爾瑪擔任全球電子商務增長部門數據科學總監,擁有多項機器學習與演算法方面的專利。
朱濤告訴 AI 前線,Airbnb 數據科學部門負責利用分析、演算法和推理,為戰略和業務部門提供決策幫助,為用戶提供智能解決方案。Airbnb 作為一家數據驅動的公司,數據科學部門在該公司扮演重要的角色。在每一個 Airbnb 全球的四個事業群下,都有一個數據科學部門直接彙報給事業群的負責人,並參與高層決策。
此前,Airbnb 已經吸引了不少中國用戶的青睞,中國已成為 Airbnb 營收的重要貢獻市場,以下是關於 Airbnb 的一組最新數據:
國外遊客在成都、重慶、武漢等國內內陸城市的房源預訂量增長超過 100%;
非一線城市房源預定量同比增長 170%;
愛彼迎境內游市場已超過總業務量的 50%。
可以看到,Airbnb 這一次是真正準備深入中國腹地搶奪最本土化的那片市場了。
Airbnb 在此時成立中國數據科學部,以及 2017 年底,Airbnb 中國區主席,同時也是該公司聯合創始人兼首席戰略官 Nathan Blecharczyk 通過郵件表示,「Airbnb 非常重視中國市場,並認為中國在 2020 年有望成為 Airbnb 最大的客源國」,都表明了 Airbnb 對中國市場的重視和關注。
備受期望的 Airbnb 中國
2017 年底,Airbnb 中國區主席,同時也是該公司聯合創始人兼首席戰略官 Nathan Blecharczyk 表示,Airbnb 非常重視中國市場,並認為中國在 2020 年有望成為 Airbnb 最大的客源國。
不過,民宿短租行業的市場巨大,Airbnb 中國也面臨激烈的競爭局面,不但湧現了一大批創業公司,酒旅巨頭也瞄準了這一市場,紛紛布局。要想贏得市場競爭,達成目標,技術也是 Airbnb 傲視其它公司的一個重要武器,中國區數據科學部門正是在這樣的情況下應運而生。
(Airbnb 中國北京辦公室)
據朱濤介紹,Airbnb 中國數據科學團隊分布在舊金山和北京兩個辦公室,保持與總部密切聯繫,主要負責 Airbnb 中國本土以及境外游業務的數據科學支持。
Airbnb 中國數據科學部的不同之處,在於其身處中國,生長在這個市場巨大但情況複雜的土地上,該團隊的工作需要應對中國用戶與其他市場迥異的使用習慣,需要接受很多對其他市場用戶有效果的功能,在中國可能會出現截然不同效果的事實,並提出適應中國國情的解決方案。因此,數據科學團隊在處理中國業務或數據模型時會區別於其他市場,Airbnb 的技術手段會基於總部,但在某些領域會更加深入。另外,中國的互聯網環境和其他市場是完全不同的,Airbnb 也需要針對中國的互聯網環境開發相應的技術。
Airbnb 與數據科學
Airbnb 是一家數據驅動型公司,數據之於 Airbnb 的重要性不言而喻。2008 年成立之初到現在,Airbnb 十分重視數據的作用,將數據視為最重要的聲音之一,數據科學團隊規模迅速成長。
Airbnb 之所以注重數據科學的原因,在朱濤的理解中,是因為數據科學不同於傳統的 BA(商業分析方法)、BI(商業智能),它更加註重方法,知識積累和科學依據,而傳統的 BA 和 BI 則更加偏重於經驗。
例如,Airbnb 內部是有一個類似於文獻系統的發布系統 Knowledge Repo,Airbnb 的數據科學家通過實驗或者科學推理得出的一些結論,以及最新開發出來的新模型都會被總結並發布在此系統中。公司內部任何一個人都可以檢索到過去的研究,如果大家遇到類似的問題都可以在這裡面找到之前的研究成果,這樣,即便是沒有任何經驗的數據科學家,也可以避免從 0 開始摸索,而且已有的結論可以作為基礎支撐進行更進一步的研究。
最近幾年,因為計算能力以及訓練方法的進度,深度學習在語言、視覺以及最優決策領域取得了顯著的進步,成為一個獨立的流行領域。機器學習本身則是數據科學中對於預測問題常用一大類演算法的集合。
很多人只對 ML/DeepLearning 感興趣,其實這些領域只是數據科學中的一部分,是一個非常深入的垂直領域,數據科學還有非常多很重要的學科,深度學習是機器學習的一種模型。
Airbnb 的數據科學部門集合了包括數據分析、機器學習、深度學習、統計推斷、經濟學等多個領域,主要從業務問題入手,尋找最合適的方法來解決問題。機器學習在 Airbnb 也只是演算法數據科學方向的一個領域,演算法數據科學還包括像最優決策這樣的演算法問題。像前面提到的實時搜索排序是機器學習演算法問題,而對於一個用戶支持電話應該分配給哪個工作人員接聽處理,則是一個典型的最優決策演算法問題。
從 2010 年數據科學團隊人數寥寥無幾,到 2018 年將近 140 人,Airbnb 的數據科學團隊成長速度很快。
獲獎、開源,Airbnb 數據科學部都做了些什麼?
在逐漸壯大過程中,Airbnb 數據科學部做出了很多亮眼的成績,最近的一次是在 KDD2018 ADS track Best Paper Award 中獲獎,獲獎論文包括:
Real-time Personalization using Embeddings for Search Ranking at Airbnb( http://www.kdd.org/kdd2018/accepted-papers/view/real-time-personalization-using-embeddings-for-search-ranking-at-Airbnb)
Customized Regression Model for Airbnb Dynamic Pricing(http://www.kdd.org/kdd2018/accepted-papers/view/customized-regression-model-for-Airbnb-dynamic-pricing)
Winner』s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments( http://www.kdd.org/kdd2018/accepted-papers/view/winners-curse-bias-estimation-for-total-effects-of-features-in-online-contr)。
其中,獲得最佳論文的 Real-time Personalization using Embeddings for Search Ranking at Airbnb 中的演算法原理,是首先通過大量用戶歷史行為訓練出房源高維的 embedding 模型,再加上房源其他的基礎特徵作為房源的綜合特徵集。當一個新用戶來到搜索頁面後,隨著他(她)點擊不同的房源,Airbnb 通過分散式系統實時對用戶接下來看到的房源進行基於 learn-to-rank 的演算法重新排序,以優化用戶看到房源的相關性。經過 AB test 發現,通過這種新的 embedding 模型所找到的房源的相關性要明顯高於其他基於相似性的模型(基於 embedding 模型的相關房源推薦實例如下圖)。
在分析和推理方面,例如 Airbnb 需要了解一個觀察到的結果(比如最近交易量增長了,或者出現了更多的短途旅行)主要是由什麼原因導致的,就可以使用計量經濟學、統計學、社會科學找到這個問題的答案,其中最為常見的方法可能就是對比試驗。
在互聯網領域,頁面 SEO 的方法一般都是基於經驗的迭代出來,很難通過實驗的方法測量出來。在最新發布的博客中,Airbnb 介紹了常用到的一個較複雜的實驗方法——Difference-in-difference (DID, or DD) 方法。通過這個方法,Airbnb 能夠準確地知道其對一個頁面改版以後會對 SEO 引流產生怎樣的影響,以便加速迭代過程,少走彎路。
此外,Airbnb 還是一家具有分享精神的公司,樂於分享技術。在其技術博客上開源了 26 個項目,在數據科學領域的開源項目包括:
Airflow:一個程序化的簽名、安排、監控數據管道的平台,Apache 基金會孵化項目。
Aerosolve:人類友好的機器學習庫,讓用戶(房東)也能看懂模型給出的結果。
Airpal:PrestoDB 的 Web UI 界面。
knowledge repo:給數據科學家和其它專家的下一代知識分享平台。
Superset:一個現代的、企業級 BI Web 應用,Apache 基金會孵化項目。
Bighead:Airbnb 的線上機器學習系統
關於生產環境中機器學習系統,Airbnb 有多個架構應用在不同的生產環境下。下圖所示的『大頭架構』就是其生產中用到的一個解決方案。這個架構主要分線下和線上兩部分組成,主要組件包括:
負責特徵提取的 Zipline(Zipline 內的特徵也能被其他模型利用)
模型訓練以及預測的 ML Automator(ML Automator 也包括 scheduler 在內,能識別並按步奏來執行相互關聯的模型訓練任務)
模型交互界面
基於 jupyter 的模型開發工具 -Redspot
線上的 DeepThought 服務。DeepThought 能夠 cache 住訓練好的模型實時進行預測
Airbnb 中國數據科學的人才觀
Airbnb 中國正在快速發展當中,剛成立的數據科學部門也求賢若渴,希望招募到實力強勁的人才加入團隊共同奮鬥。而作為負責人,朱濤對人才也有自己的看法。
隨著智能時代的到來,數據成為所有企業和組織搶佔競爭優勢的基礎,所謂的數據者得天下。在此背景下,人才的爭奪也近白熱化,數據科學家成為一個炙手可熱、備受追捧的職業。
然而,雖然數據科學家現在是備受追捧的熱門高薪職業,但同時也是全球離職率最高的職業之一,這一現象不可忽略。
數據顯示,在收入 Top 5 的公司中的 Pinterest,數據科學家平均年薪為 $212K ,其中包括 $145K 的底薪、$12K 的年終獎和每年 $55K 美元的股權。
在高薪背後,仍有很多數據科學家每周花費 2 小時尋找新的工作機會。據一份基於 Stack Overflow 對於 64000 位開發人員的調查得出結論,在開發者中表示自己正在找一份新工作的比例在機器學習專家中名列前茅,為 14.3%,而數據科學家緊隨其後,為 13.2%。據分析,數據科學家離職率高的原因包括期望值與現實不符等。
對此,朱濤認為,數據科學家現在是一個非常熱門的高薪職業,這類職業的熱門程度從一定程度上反映了它對數字化商業的貢獻以及重要性。一個好的數據科學家確實可以為企業省去不少試錯成本,快速提高產品體驗。但是過於頻繁的換工作也會限制一個數據科學家深入思考和理解一個領域的機會。另外,數據科學在中國是一個新興行業,行業內還沒有形成有效的相對標準化的人才評估考核體系,這個問題也需要對數據科學感興趣的人來一起交流並共同建立這個新興行業。
朱濤說道:「成為一名優秀的數據科學家,一是需要有紮實的統計、數學建模、經濟學,以及計算科學基礎知識,並善於邏輯思維與推理,二是善於從解決實際問題中積累數據科學的方法和經驗。一般具備以上背景的人都很適合做數據科學。」
採訪嘉賓
朱濤,Airbnb 中國數據科學部負責人,曾任沃爾瑪全球電子商務增長部門數據科學總監,本科畢業於北京航空航天大學,並獲得美國伊利諾伊大學香檳分校運籌學博士學位。朱濤擁有 5 部出版作品,4 項搜索、消費者生命周期、營銷演算法、個性化推薦系統和方法相關專利。
如果你喜歡這篇文章,或希望看到更多類似優質報道,記得給我留言和點贊哦!
※區塊鏈「拉勾」,求職還能賺錢?
※產品經理必修課——用戶細分與產品定位 | QCon上海
TAG:InfoQ |