一面數據：為數據迷霧開天眼，洞察消費市場秘密 | 創業

科技 02-12

商場如戰場，只有知己知彼，才能立於不敗之地。對於競爭對手以及整個市場的洞察，往往決定了一家公司的生死成敗，那些煮酒論英雄的商業成功者們也都深諳此道。

然而，知易行難，利用傳統的問卷調查等方法洞察市場變化往往是一件非常低效且耗資巨大的事。「用傳統方法每做一次市場調研都需要 30 萬左右的預算，而一個大的集團每年可能需要做幾十次類似的調研，總成本可能飆升到上千萬了。而且在時間周期上往往也需要 3-6 個月才能出結果。」

另外，一面數據創始人任棟霓還補充認為調查問卷其實並不准，「調查問卷的結論可能會因調查樣本的偏差而失實，比如，在貧民窟和富人區得到的問卷結論絕對是不同的。而且問題的設置也很難，很難讓大家能夠毫無保留地說出自己的心裡話。」

顯然，市場需要更加低成本且高效、準確的替代方案，而人工智慧+大數據便是目前公認的解決此問題的最好方法。利用人工智慧+大數據的方法做商業洞察，這顯然是一個巨大的市場，而嗅到這個商機的企業也相當多，比如玻森數據、數據威、Clavis Insight 等，而一面數據便是其中一家起步比較早的入局者。

紮根消費領域，解決實際問題

創業從來都不是一件易事。首先要找到行業痛點，其次，也是最重要的，要找到能夠解決這個問題的方法。

「行業內 90% 的公司都會選擇基於自己的技術，然後去做通用的、跨行業的解決方案。而我們則選擇了一條更垂直的道路——消費品領域，具體包括快消、鞋服、汽車等。」任棟霓表示他之所以如此選擇，主要看重兩點：

首先，需求大。「消費品領域是一個節奏非常快、競爭特別劇烈的領域。」消費品領域企業急需通過市場洞察了解行業變化趨勢，並以此調整企業的生產規劃。
其次，數據多。光有市場也不行，如果沒有足夠的數據拿來進行大數據分析，那一切也是白搭，正好，「消費品領域沉澱下來了非常豐富的數據。」

因此，任棟霓認為消費品領域才是大數據分析最容易產生價值的領域。於是，2014 年，曾就職於騰訊、華為諾亞方舟研究院（香港）、快播等企業的任棟霓絕對創業成立一面數據，據了解，這是一家旨在利用大數據與 AI 技術為消費品行業提供市場洞察服務的科技公司。

一面數據通過機器自動採集電商、社交、直播等多種類型的公開信息和數據（包括產品的描述、售價、銷量、用戶的評論等），與第一方數據（企業內部沉睡的用戶行為、訂單、物流、標籤等）以及第三方的數據進行融合，分析處理得到實時的商業信號洞察，進一步實現數據驅動的智能決策。

首先，讓企業知道市場上的同行以及整個行業都在發生什麼事情。

「比如我們可以告訴巧克力企業，2017 年銷量上升最快的巧克力口味其實是榴槤口味，上升最快的巧克力子品類是生巧克力，我們還能告訴企業到底是什麼樣的品牌或爆款商品主導了該品類的銷量。」

其次，當客戶知道了市場上發生了什麼之後，一面數據還通過數據分析告訴企業應該怎麼優化自己的業務，包括廣告的投放、產品的迭代等。

比如，現在很多電商都是將最好賣的商品放在最顯眼的地方，其餘商品則按銷量依次排序。然而，在任棟霓看來，這些完全依靠個人經驗的擺放方案可能並不是效率最高的，為此，任棟霓找到了替代方案。「採集到所有相關數據後，我們就可以從歷史數據中知道不同擺放之間的差異性，從而找到最佳的擺放方案。」而且，從這些數據中，任棟霓認為還可以找到「擺放位置與營銷等怎麼互動才可以增加營收」的關鍵信息。而這些數據都有助於企業根據市場變化及時優化自己的業務。

「類似的事情其實都是可以通過數據驅動的方法來做，以取代傳統需要憑藉經驗或者拍腦袋做的事情。」任棟霓如此表示。

據了解，這也是傳統市場調研試圖解決的問題。但任棟霓表示一面數據的方法已經將市場洞察的費用降低到了傳統方法的 10%-30% 左右，而且出結果的時間再也不用幾個月了，「現在只需要花一周左右的時間清洗數據，之後每天都可以看見實時地數據了。」另外，任棟霓還表示傳統消費者研究的方法往往只能得到 3-5 個維度的用戶反饋數據，而利用自然語言處理和數據科學可以覆蓋傳統方法 80% 覆蓋不到的領域

技術員面對海量數據，如同水手面對滄海

據任棟霓介紹，要想做出一個好的數據分析產品，關鍵就在於數據的收集和數據的處理，二者雖然在原理上並不難，然而一碰到龐大的數據量，那難度便直線上升了。

首先是數據收集，「爬蟲本身沒有什麼難點，但難就難在你每天要去採集幾十萬個品牌，幾億個產品的數據，而且還要保證數據的準確性與完備性。」任棟霓表示他們每天就要採集 300G 到 500G 的數據，同時還要實時地將這些數據進行清洗，並跟歷史數據做融合，巨大的運算量讓數據的收集和清理混合都相當困難。

「而在清洗過程中，另一個困難就是如何讓機器理解非結構化的文本數據。」任棟霓表示，在收集到數據之後，一面數據還需要利用機器自動地將話題、關鍵詞等從非結構化數據中提取出來，並判斷這句話是正面、負面還是中性等情感。然而，「自然語言理解在通用場景下準確率低，這是目前整個行業的難題。沒有任何一個系統能夠在通用環境下理解所有的對話，而這也是目前各種虛擬助手、問答機器人看起來很傻的原因。」

「不管是爬蟲還是數據分析，在技術上其實都不難，但隨著數據量越來越大，處理起來卻會越來越複雜，比如就幾行數據的時候，我們用 excel 就可以處理了，而數據幾億行時，那就需要依靠大數據平台、依靠專門的伺服器了。」任棟霓如此表示。

然而，儘管如此，一面數據還是克服了這些難題，據任棟霓介紹，經過多年的語料積累和模型優化之後，一面數據已經實現了 93% 的語意識別準確率，召回率更是達到了 90%。並得到了全球前 10 消費品品牌中的 5 家的青睞。

一面數據是如何克服困難的？

對此，任棟霓重點回答了語意理解這一塊。任棟霓表示，雖然要做通用型的語義理解非常難，但好在一面數據目前只專註於消費品這個相對小的細分領域，因此得以建立一個非常詳細的、複雜的語義模型，來專門解決這個消費品行業內的語義理解問題。

另外，在情感識別方面最重要還是在於大量的語料標註，任棟霓表示，他們每年都會從天貓、京東、亞馬遜等平台上採集超過 200 億條的消費者評論數據，並依靠自己、品牌方以及第三方的力量對這些數據進行標註。「文本的標註是一件非常困難的事情，不像圖片一眼就知道這是貓還是狗，而且文本的標註非常依賴於行業的知識圖譜，你必須跟品牌在一起，才能知道如何標註。」任棟霓強調與品牌方以及第三方合作標註是至關重要的。值得一提的是，任棟霓也意識到了純依靠人力來做數據的標註在效率上始終是不行的，因此，任棟霓介紹他們其實也在考慮利用強化學習來做自動化的數據標註，徹底解放人力。

另外，任棟霓表示他們為了更好地識別語義，還專門為不同的細分場景又單獨訓練特定的語義模型，「比如脫髮、牙齦出血，每個不同的話題，我們都可以利用不同的模型來判斷，這可以有效提高語義判斷的準確率。」任棟霓如此表示。

用技術與客戶信任鑄就壁壘

關於競爭，任棟霓似乎並不擔心，任棟霓認為一面數據有著從技術到市場佔有率方面的壁壘，並不是別人想超就能超的。

首先在技術上，任棟霓認為對於一家科技公司而言，技術永遠都是第一位的，「要能夠為客戶提供更多價值，只有這樣，客戶才會與你合作。」

而另一方面，任棟霓認為此前積累的龐大客戶資源也是一面數據的護城河，「我們前幾年已經跟大客戶產生了密切的聯繫跟合作，未來我們的產品將由我們的客戶來幫我們定義，他們會源源不斷地將第一手的數據和需求給到我們。這將使得我們的能力與解決方案得到不斷的提升。這對後來者而言，將是一個比較難以跨越的鴻溝。他們如果不能得到第一手的需求和數據，他們也將很難加工出比我們更好的產品。」任棟霓如此說。

一面數據目前有員工 40 餘人，對於一家成立了 3 年的公司而言，這人數似乎並不多。對此，任棟霓表示，一面數據要做的是用機器代替人工，所以相對於傳統市場調研企業等，人數會更佳精簡。而在融資方面，16 年 9 月，一面數據已經宣布獲得 1400 萬元的 Pre-A 輪融資，投資方為真格基金和聯想之星。

題圖來自 123RF

本文一面數據：為數據迷霧開天眼，洞察消費市場秘密 | 創業來自動點科技.

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 動點科技 的精彩文章:

※Twitter 也學微博開始打廣告了，但是看起來差別還挺大的
※天馬星行空筆：如果馬良穿越到現代，拿起可以凌空作畫的它…… | 創業

TAG:動點科技 |