為什麼巨頭們都在搞演算法大賽?一個移動營銷公司道出了同樣的故事
AdTiming首席科學家張文濤
2月阿里媽媽聯合國際人工智慧聯合會議(IJCAI-18),以及阿里雲天池平台啟動了「IJCAI 2018阿里媽媽國際廣告演算法大賽」。據了解,比賽直指數字廣告中的核心問題——轉化率預估。
無獨有偶,2017年騰訊也曾舉辦高校演算法大賽,大賽的命題是「移動APP廣告轉化率預估」,也一樣落在了非常實際的問題上:轉化率優化。
他們一致的將演算法大賽指向「轉化率」!
近兩年,「廣告」成為互聯網平台、開發者越來越重要的變現方式。他們對於在效率、效果、系統化和精細化層度的要求越來越高。
而其中決定廣告變現效率很重要的方面,就是「廣告平台的技術底層架構和應用方式」,「演算法」則是其中關鍵,這也是巨頭們紛紛開啟各種演算法大賽最本質的原因。
然而,相對於巨頭來講,第三方廣告變現平台更加靈活和快速,他們不斷進行演算法模型的創新,以及探索一些實際應用的可能性。
移動營銷行業公司AdTiming專為出海開發者服務,他們認為:當進入全球移動互聯網爆發期,在討論出海產品形態,全球化趨勢以及渠道資源的同時,有關增量、獲取優質用戶和出海變現等話題備受關注。
而如何高效實現流量變現成為了移動開發者亟待解決的問題。
AdTiming首席科學家張文濤,進入ICT(Information and Communication Technology 信息、通信和技術)行業多年,一直都有自己的想法。或是對成熟模型優化創新,以技術帶來增長點;或是前沿模型探索,尋找到實際應用的可能性。
在接受Morketing的專訪過程中,張文濤以科學實用的原則,分享了AdTiming在廣告產品模型的優化心得,由此也能窺見他們和巨頭們一樣的效率追求。
跨行業技術之路:
變的是數據和需求,不變的是原理
「他是一個很自信的人!」
這是初次見面時,張文濤給我們的第一印象。他態度和善,舉止沉毅。語速有些略快,帶有技術人員一貫的嚴謹作風。音調雖然不高,卻能讓人聽得分外清楚。或許同為理工男的原因,談話時有種踏實的親切感。
張文濤坦然告訴Morketing,在進入移動營銷行業前,他其實是在電信行業工作,專註於大數據、人工智慧等方向的研究。
「由電信行業轉到營銷行業,剛開始時還是有一些不習慣的,兩個所面對的數據和需求完全不一樣」,張文濤說。
「在電信行業做分析,主要是基於用戶的通信行為,比如通話,發簡訊,活躍時間等等,對離網用戶進行預測。或者通過數據挖掘分析的方式,為用戶推薦新業務。這些數據可能包括通話數據、社交行為、地理位置等等。像移動公司甚至可以根據這些已挖掘的數據,分析人群中的水客。」
不過,儘管兩個行業之間跨度非常大,數據和需求等反面的變數非常多,但是運用數據分析和挖掘原理是不變的,無非是應該用哪種方式、哪種模型建模會更合適而已。這在同一數據、同一個需求的時候,也同樣適用,畢竟行業內也會像將效果進一步提升。
「切入到一個新的業務領域並非十分困難,行業裡面有很多成熟的研究,包括AI的基礎利用、基礎狀態模型,我們可以一眼看出來。另外,這兩年間大數據的十分火熱,這其中很大一部分大數據就是營銷行業的流量數據。比如,通過分析用戶的流量的流向做用戶定向,可以知道用戶經常訪問的網站、APP等,從而去做精準營銷,這都是營銷行業所能利用的東西。」
演算法模型:
從邏輯回歸到深度學習
眾所周知,廣告向精細化發展並不是一個新問題,國內許多公司也一直在做,包括對大數據的分析,人群畫像,標籤制定等等。如果要從技術層面上來談的話,主要都是圍繞AI或者機器學習的方式來實現這一目的。
在騰訊社交廣告的體系中,最早應用人工智慧理念和方法的就包括轉化率預估、點擊率預估和廣告審核等多個方面。在數據挖掘中,也會利用到AI,例如對用戶商業興趣、行為和生活狀態等進行判斷時,機器學習是最好的選擇,可以避免人工參與導致的隱私問題。
像AdTiming,目前便是通過AI實現點擊率、預測、轉化預測、分享等的捕捉。
「現在行業內普遍是先用統一模型建模(包括廣告、用戶以及上下文等等),在這一前提下,為模型提供歷史數據,使用深度學習,統一的訓練演算法,提升預測分析能力,這也是我們整體的發展方向」,張文濤說道。
談及精細化或者精準度,無論如何都要涉及到一個非常重要的問題,那就是數據量級。在傳統的認知中,當數據量不夠大時,最終計算結果必然會有偏差。然而,在廣告這一領域,情況會有些許不同。
「在廣告領域,即便數據量很多,也是一種稀疏的數據。比如有很多流量是長尾流量,尤其像邊緣性廣告類,點擊率比較低」,張文濤說。
「我們現階段做的事情,其實就在數據稀疏的情況下,用技術手段將這一缺陷彌補起來,比如通過AI和演算法模型解決這個事情。」
從整個行業大環境來看,這兩年,AI發展非常快,同時,出現了多種多樣的模型,包括經常看到的,通過深度學習構建的神經網路模型。
很多大公司,像Google、阿里、Facebook等等,正嘗試將深度學習引導應用到廣告領域中來。試圖將到更多的長尾流量或者弱信號在數據特徵較少或者沒有數據的情況下,把用戶特徵或者其他深層關係,通過學習挖掘出來。
1.已經成熟的線性模型——邏輯回歸
現在來看,通過邏輯回歸來預測點擊率在行業內已經很成熟,很公司都在用,效果比較明顯。展開來說,邏輯回歸屬於廣義的線性模型,比如現在非常成熟的ARMA模型,就是一種線性模型。
人們希望識別特徵間的強關聯關係,不過在廣告領域,特徵非常多,尤其是長尾流量中弱特徵更多,想要利用人工特徵工程的方法完全找到這些特徵非常困難,且工作量極大,線性模型就不再適用。
2.日漸成熟的非線性模型——深度學習
此時,人們想起了機器學習中的非線性模型。這一類模型能夠將特徵進行自動合成,即自動的特徵組合和交叉,以此解決上述問題。
就目前行業現狀來看,傳統非線性模型正逐漸成熟。隨著技術的發展,許多人轉而研究深度學習構建的神經網路,因為深度神經網路具有很強的非線性擬合能力,對高階的特徵交互挖掘能力非常可觀。
不過,話說回來,深度學習模型其實早在多年前就已經被研究出來,但是為什麼行業近幾年才開始嘗試使用?張文濤告訴Morketing,深度模型自身的特點,決定其在廣告行業里大規模的工業化應用和推廣還存在很大的挑戰,還需要進行更多的理論創新和工程實踐與優化工作。
首先,深度學習對數據量要求比較大,只有在大數據量的情況下才能發揮優勢。
其次,針對廣告領域的大規模稀疏數據,適合應用和推廣的網路結構還需要探索。最後,其複雜度比較高、計算量大,在實際應用中需要解決迭代周期長和實時性的問題,同時軟硬體成本也會大幅增加。
此外,據了解,從目前發布的深度學習在CTR預估領域的研究情況來看,其效果的提升並不像DNN(深度神經網演算法)在其他領域(如語音識別、圖像識別等)所取得的結果那樣驚人。但是採用DNN來構建CTR模型肯定是趨勢,這裡還有很大的潛力可挖掘。
現在國內外大型互聯網公司,如Google、Facebook、微軟、阿里等,對深度學習模型在廣告推薦應用的研究都很有熱情,每年都有不少的論文面世,相關研究主要集中在多模型融合以及網路結構改進等方面,以找到更加適合廣告數據集和CTR預估的演算法模型。
如谷歌提出的寬度&深度學習模型,同時考慮低階和高階特徵交互,比單一考慮一個方面可以帶來更好的效果;以及在此模型基礎上改進而來的深度交叉網路DCN和DeepFM,DCN在提示性能的同時卻需要更少的參數和計算資源要求,而DeepFM則用FM替換寬度學習部分的LR,省去了繁瑣的人工特徵過程。
移動廣告演算法模型的三個階段探索
AdTiming成立時間還不到兩年,在技術上有一些後發優勢或者說站在別人的肩膀上。行業內有很多成熟的、歷經驗證的模型可以直接使用,而且基礎創意不是很複雜,適合在工業化裡面大量的運用。
不過,AdTiming更加追求自己的創新。
張文濤說,「大家所使用的基礎理論和工具模型是一樣的,想要效果更好,必然需要一些創新和訓練優化的小技巧。比如說,影響廣告點擊率的特徵很多,不同的特徵和特徵交互其對預測的能力是不一樣的,如果對所有的特徵和特徵交互一視同仁,那麼模型的預測能力就會受到阻礙,可能導致不理想的結果。因此,需要給予特徵交互不同的權重以表達其對預測結果的影響能力,具有較多有用特徵的交互應被指定較高的權重,因為它們對預測的貢獻較大。」
一路走來,AdTiming團隊歷經3個階段。
1.從最初應用最簡單的邏輯回歸LR模型;
2.發展到現在使用傳統的非線性模型,在做GBDT+FM這兩種模型的組合,在實際應用中取得了很好的效果;
3.同時在深度學習領域投入了大量精力進行研究與實驗工作,嘗試了多種DNN模型,也提出了一些思路和想法,尋找結構簡單、性能可觀、更適合應用和推廣的網路結構。
其實在廣告裡面,多種模型的融合已經是常態。比較經典的是Facebook提出的GBDT+LR的組合模型,解決了LR需要人工特徵工程的問題,並在當時做出了客觀的效果提升。行業不斷的在試不同模型,然後不斷調整參數和結構,從而更加完善。而AdTiming的做法也並不令人意外。
以目前現狀來說,AdTiming也在積極探索前沿模型,比如最新出現的深度森林,這是一種可以與深度神經網路相媲美的,基於樹的模型。
深度森林,一方面提供了強大的非線性擬合能力,可以挖掘高階的特徵以及隱藏屬性;另一方面,模型要比神經網路要簡單,也沒有很多的超參數要去調整,並且天生就支持並行處理。深度森林在小數據量也能獲得較好效果,優化後也更容易達到更高效果,並且在性能上絕不會弱於DNN,可以較容易滿足廣告系統的實時性要求。
「深度學習本身是一個基本的理論和基礎,在廣告的點擊率預估領域還有更多的應用,比如利用它在圖像識別、自然語言處理的獨特優勢,可以對廣告素材進行識別,將素材中的圖片、視頻、描述文字等也作為特徵加入到CTR模型中,會帶來更全面的預測能力,從而提升整體廣告變現效率」,張文濤最後說道。
※官網也抄襲!移動營銷行業背後亂象揭秘
※新世相營銷課刷屏,一次「傳銷」邊緣的試探
TAG:Morketing |