馬蜂窩的投資人們連數據盡職調查都不做?
虎嗅註:周末,一篇名為《估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》送馬蜂窩上了頭條。本篇文章將列舉互聯網行業的三個典型場景,以及針對行業新的變化趨勢,如何有效通過數據挖掘、機器學習演算法看清數據背後所隱藏的交易風險。
本文
轉自「Career In 投行PEVC」(ID:CareerInIBPEVC)。
10月21日,一篇名為《估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》在社交網路廣為流傳,該篇文章作者乎睿數據團隊直指在線旅遊網站馬蜂窩存在點評大量造假的情況,包括從其他網站如大眾點評、攜程等抓取相關點評,及自建團隊撰寫虛擬點評。
根據馬蜂窩官網提供的數據,目前,馬蜂窩全站擁有超過2100萬條點評,是馬蜂窩對外展示的核心競爭力之一。如果乎睿數據團隊的指控被坐實,馬蜂窩一直以來強調的用戶PGC神話將被打破,或將嚴重影響這隻旅遊獨角獸的估值。
馬蜂窩官網提供的數據
馬蜂窩成立於2006年,創辦初期,馬蜂窩是一家讓旅行者分享遊記感受的旅遊攻略社區;2012年開始,馬蜂窩對積累下的旅遊數據進行結構化處理;2015年初,馬蜂窩發布自由行戰略,開始嘗試「內容+交易」的商業閉環。
回顧馬蜂窩的發展歷程,無論是最初的旅遊攻略社區定位,還是如今正在打造的商業閉環,內容都是馬蜂窩區別於其他在線旅遊網站最大的競爭優勢之一。而馬蜂窩背後集聚了市場上最牛逼的一線PE和VC基金們。
2006年01月:螞蜂窩網站上線;
2010年03月:正式成立公司投入運營,註冊用戶數15萬;
2011年04月:上線首款APP客戶端旅行翻譯官;
2011年10月:獲得今日資本500萬美元A輪融資和200萬美元無息貸款;
2012年06月:開始商業化,半年收入超千萬,主要來自廣告及傭金分成;
2012年10月:註冊用戶數超過400萬,PC端用戶數在3年內增長40倍;攻略累計下載量6000萬次;
2013年04月:獲得啟明創投領投的1500萬美元B輪融資;
2014年06月:註冊會員數突破5000萬;
2015年02月:獲得高瓴資本、Coatue、CoBuilder、啟明創投的C輪融資,累計融資逾億美金。
2015年09月:螞蜂窩用戶數1億,其中80%的用戶來自移動端(螞蜂窩自由行APP);月活躍用戶數達8000萬。
2017年12月:獲得鷗翎投資、美國泛大西洋資本集團、淡馬錫、元鈦長青基金、厚朴基金共同投資1.33億美元。
2018年8月17日:外媒報道稱,兩位知情人士透露,螞蜂窩希望在新一輪融資中籌集至多3億美元,此輪融資對該公司的估值定為20億至25億美元。
馬蜂窩醜聞事件不禁讓CareerIn君想起了前不久的紅芯瀏覽器事件。
在今年上半年的博鰲亞洲論壇期間,馬蜂窩聯合創始人、COO呂剛在接受騰訊《一線》專訪時便曾表態,在從內容切入交易的過程中,馬蜂窩的最大優勢在於之前幾年對社區的運營積累了大量數據,數據的積累非常重要,因為「內容是決策的依據」。對數據結構化的處理幫助馬蜂窩推出交易平台奠定了基礎,讓馬蜂窩擁有了更大的商業想像空間。
以旅遊攻略起家的馬蜂窩站內用戶PGC內容可以分為如下幾大類:旅遊攻略(多為長圖文形式)、用戶對旅遊目的地(包括景點、酒店、飯店、商場等旅行常見POI)的點評及問答、交易類點評(對馬蜂窩商城內具體商品的評價)等。
此次乎睿數據團隊指控的對象主要指馬蜂窩用戶對旅遊目的地點評的真實性。
在馬蜂窩現行的商業邏輯下,經過前幾年對站內數據的結構化處理,目前,馬蜂窩能夠將旅行相關產品與內容進行較為細顆粒度的關聯,而內容在用戶做交易決策的過程中擁有很大影響力。
正因如此,高質量的內容生產者及內容是馬蜂窩的核心資產之一,馬蜂窩也在官網上列出了其擁有超過一億的旅行者及超2100萬的真實點評等數據。
但根據乎睿數據團隊提供的信息,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人從點評、攜程等競爭對手那裡抄襲過來的;其在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評,1221萬條酒店點評,佔到馬蜂窩官網聲稱總點評數的85%。
另外,乎睿數據團隊表示,
其
在馬蜂窩的所有賬號中,刨除了7554個賬號後,選擇了1萬5千個最活躍賬號,發現這些賬號的活躍時間一致,與點評及攜程等網站相比,存在嚴重的不合理。
乎睿數據團隊總結稱,馬蜂窩的主流用戶是一群每天朝九晚五、在午晚飯以及周末干正事、能夠同時出現在地球的不同地點,且可隨意切換身份的人。暗指馬蜂窩賬號造假。近兩年,馬蜂窩由單純的旅遊攻略社區,轉變為一家集數據處理及交易服務於一體的在線旅遊公司,成功從內容環節切入交易。這一商業模式的建立,讓馬蜂窩獲得了資本青睞,去年年底,馬蜂窩完成了1.33億美元的D輪融資。隨後在春節假期及今年世界盃期間,馬蜂窩投放了大量廣告。呂剛曾對《一線》表示,馬蜂窩今年的主要任務是做大規模,年內暫不考慮上市問題。
然而此次乎睿數據團隊的公開指控直擊馬蜂窩要害,對此有旅遊行業資深人士認為,點評數據造假的真實狀況,關係著馬蜂窩這家公司到底是靠傳統商業模式——
賣廣告活得好,還是因為交易做得好,抑或是因為點評數量引來的融資花不完活得好,這才是重點。
目前乎睿數據團隊對馬蜂窩點評造假的指控已經引發行業的廣泛關注,對於相關指控,馬蜂窩一位市場經理稱,「我們現在正在核實相關情況。我們正在等結果,然後將對媒體反饋。」
根據普華永道的數據盡職調查經驗顯示:在不斷演進的網路和數據技術背景下,應運而生的互聯網企業以其理念引領優勢、有別於傳統商業運作模式的業務整合能力以及市場覆蓋潛力,成為投資界的熱門標的。不斷變化的市場環境與水漲船高的業績壓力,往往導致部分公司出現各種數據質量問題、甚至是數據造假或業績虛增的行為。傳統的數據盡職調查手段已不足以支持投資人在業績評估和投資風險揭示方面的需求。
投資人頭頂的達摩克利斯之劍
2018年,互聯網行業繼續成為投資者所關注的焦點,其中,互聯網及移動互聯網行業的投資金額依舊位居首位。
不幸的是,縱觀國內外各大新聞網站,因為企業數據問題被曝光而對企業形象帶來巨大影響的新聞不絕於耳;而互聯網行業由於其本身的業務特點,成為了數據質量問題的「重災區」。基於普華永道對過去3年相關行業盡職調查項目情況所做的統計,有65%以上的目標公司在業績統計指標方面存在問題。
互聯網企業估值及投資人踩過的「坑」
由於互聯網行業尚未形成通用的業績比較標準與完善的指標分析體系。且又處於未盈利的初創階段(有些甚至可能還沒有形成穩定的業務收入),投資人往往需要基於管理層提供的註冊用戶數、活躍用戶數(DAU/MAU)、轉化率或交易額(GMV)、業務增長預測數據對標的公司的商業價值和估值進行研究。因此,業務數據的準確性、合理性以及盡職調查過程中揭示的潛在風險因素和業務影響,將會對投資人的價值判斷和公司估值產生直接影響。
在一輪又一輪的互聯網狂潮下, 「刷單」「羊毛黨」「養號」「自沖」等新名詞也隨之出現,並且儼然成為了一個數據造假的「新產業」。根據我們的過往經驗,在短短几年間,這個「新產業」已經經歷了四次重大的「產業」升級。
新時代數據造假特徵及應對方法
隨著一次又一次的「升級完善」,如今在互聯網世界已經產生了一個 「堪稱完美」的造假體系。通過以下的比較可以看出這套造假體系如何「完美」:
由此可見,數據造假的傳統特徵被逐個突破,刷單與實際業務產生的數據特徵界限正在變得模糊。想通過傳統的數據盡職調查手段在運營數據中發現真相已經變得越來越難。
本篇我們將列舉互聯網行業的三個典型場景,以及針對行業新的變化趨勢,如何有效通過數據挖掘、機器學習演算法看清數據背後所隱藏的交易風險。
場景一:聚類演算法定位新型「羊毛黨」
在傳統B2C的商業模式中,交易信息的流動是單向的,平台上的用戶被清晰的分成買家和賣家。但在C2C或社交電商模式中,平台用戶可以同時以買家或賣家的身份出現,從而產生了「循環交易」的可能性。而這些循環交易中,可能存在著以獲取平台交易補貼、優惠等「薅羊毛」為目的的異常循環交易。
從投資人角度而言,這些異常的循環交易會拉高平台真實GMV、交易量、用戶活躍等運營指標,從而對交易估值產生重大影響。
如上圖所示,我們可以通過引入機器學習聚類演算法方式,無需藉助已做出標記的訓練數據集 (x(1),y(1)),(x(2),y(2)),…,(x(m),y(m)) 來學習目標函數,用以對交易數據做出決策分界,而是直接針對未進行標記的交易數據集來進行優化迭代,形成聚類。
適用于海量交易數據的Clarans+演算法原理:
這種無監督學習方式基於PAM演算法增加樣本集抽取步驟,優化了模型性能,尤其適用于海量交易數據環境下,運用多種弱規則識別在單個規則下難以發現的可疑交易,提高識別準確度及效率,來有效區分正常或異常交易行為。
場景二:通過社交網路演算法識別潛在欺詐用戶群體
對於P2P網貸平台對於貸款用戶的貸前風控、貸後催收都是平台能夠持續運營,不發生「爆雷」的關鍵。除了「假標自融」外,雖然不少平台對貸款申請用戶做了基礎的風控審核,但往往存在各種缺陷,導致騙貸、欺詐團伙有機可乘,逾期率上升並最終對平台的資產質量產生顯著影響。然而,這些風險往往有很強的隱蔽性,隨著時間推移,才會逐漸顯現。騙貸、欺詐的手段非常多樣,並不斷演進升級。通過更為高效的機器學習演算法,在盡調階段對相關風險的識別,可以有效規避投資人的風險。
通過社交網路分析演算法(SNA),研究節點(人)和節點關係(邊,也就是人與人之間的關係)的演算法,對節點關係梳理並形成聚類,可以做到識別貸款人之間的關係網路及社區,有效識別潛在的騙貸、欺詐用戶群體。
在社交網路演算法結果的基礎上,還可以結合歷史逾期數據,通過機器學習建立隨機森林模型進行用戶逾期預測。相比決策樹模型,隨機森林擁有更強的抗干擾能力及模型泛化能力,能夠實現對於不同群體的Vintage逾期率差異分析。通過以上分析結合歷史Vintage分析,可以據此預測未來可能產生的貸款逾期水平。
場景三:RFM模型與GIS處理技術結合定位O2O虛假交易
在O2O商業模式中,用戶交易需要經歷線下、線上兩個環節,例如:團購預定中的線上下單,線下消費,二手車交易的線上撮合、線下驗車、過戶等。因此,通過地推團隊將線下訂單向線上「轉移」是典型的運營數據造假的手段之一。在這種造假方式下,需要引入對用戶行為進行聚類分析的機器學習模型,並結合其他維度才能有效識別出虛增平台線上交易數據的行為。
以典型的O2O交易平台為例,可以通過根據用戶行為數據建立包括最近一次交易時間(Recency)、交易用戶交易頻次(Frequency)和交易金額(Monetary)的聚類分析模型。此外,可以結合GIS技術分析,通過基於LBS地理位置的Geohash演算法,將二維的經緯度轉換為字元串來代表特定矩形區域,並對字元串建立索引,從而實現海量地理信息的快速匹配。通過這一演算法可以實現自動檢測出交易、服務、配送等位置的集中度。在此基礎上,結合交易憑證信息,能夠識別出存在的平台通過購買線下交易數據,虛增平台交易量的行為。
Geohash演算法原理示例:
總結
隨著互聯網與細分市場的發展越來越深入,細分行業所呈現出來的場景變化其實遠不止上述三類,我們僅基於歷史項目經驗中總結部分典型案例,幫助投資人對相關問題有一個更為感性的理解。
除了上述三個場景,互聯網在科技金融、遊戲、在線醫療、網路傳媒、新零售等很多細分領域衍生出的商業模式也會具有各自不同的行業特點。面對海量日益錯綜複雜又真假難辨的運營數據,通過將行業經驗與人工智慧、數據分析技術充分結合,投資人才能從容應對市場、環境、技術發展所帶來的各種挑戰。
*文章為作者獨立觀點,不代表虎嗅網立場
※創始人聲稱被合伙人綁架,網秦還能更糟嗎?
※誰叫你,易燃易爆炸?
TAG:虎嗅APP |