為什麼運營商大數據變現要搞「行業知識圖譜」？

最新 07-15

淘寶用戶每次交易會在淘寶資料庫留存一筆記錄，阿里基於這條日誌可以知道你喜歡買什麼樣的商品，花了多少錢！

這個日誌數據有巨大的商業價值，知道你喜歡什麼東西阿里的阿里媽媽就可以做廣告，廣告主會為廣告付費，知道你的消費能力阿里的螞蟻金服就可以測算你的信用，從而通過金融工具賺錢，簡單的一條日誌記錄造就了當今世界最大的兩種大數據商業變現模式：廣告和金融，你說傳奇不傳奇？

擁有數據的公司都想複製這個傳奇，運營商從數據的角度來講，卻是很近的一個，為什麼？

用戶每次通話會在運營商的資料庫里留存一筆記錄，運營商基於這條記錄知道你喜歡打哪個電話號碼，打了多少次！

這個實際就是通話詳單，但可惜的是，運營商沒法通過這個數據直接商業變現，因為電話號碼只是個數字，沒有任何業務價值。

但如果運營商知道你打的電話是個三替家政號碼，情況就不一樣了，跟阿里知道你購買了某個品牌的電器一樣，它們都代表了一種消費偏好，只要知道了用戶消費偏好，就有廣告主願意為精準投放付錢。

但你會發現有一點不同，淘寶的商品名字是直接的業務表達，而通話詳單的號碼則是間接的業務表達，比如95588就沒啥意義，但如果你知道95588業務含義是工商銀行，那數據的價值就不一樣了。

將95588這個號碼轉換成對應的業務含義，就是筆者說的行業知識圖譜，行業知識圖譜可以將索然無味的通信話單日誌翻譯成用戶行為信息，讓運營商的大數據煥發出新的生命力，做了這層轉換，我們才能說運營商的大數據是服務全行業的，而不是局限在通信行業。

作用有多大呢？

就好比百度地圖，經緯度雖然很重要，但百度只有將經緯度轉化成業務坐標，即POI，百度地圖才有實際的價值，我們有時抱怨百度地圖導航不準確，很大一部分原因是經緯度對應的地址信息沒有更新。

未來的運營商大數據加工的一個方向就是行業知識圖譜的打造，其將使得運營商對於用戶的洞察更加深入，從而奠定大數據變現的基礎，最近浙江移動三墩IT人公眾號發布了一篇文章《浙江移動「神燈·大數據行業知識圖譜」隆重發布》，筆者就來解讀下。

一、行業知識圖譜體系

首先需要規劃一個行業知識圖譜體系，運營商可以基於自身實際的數據能力和變現實踐，選擇重點行業進行突破，比如電商、金融、圖書、視頻、招聘等等，到底分多少大類，每一個大類深耕到多大級，可以依實際需要而定，浙江移動的神燈·大數據行業知識圖譜構建了38個一級行業，487個二級行業，比如金融行業深耕到四級共108個子類，餐飲行業已經深耕到三級共80個子類等。

以下是一個示例，方便理解：

二、行業知識圖譜的獲取

行業知識圖譜的信息大多來自於網上，主要靠爬蟲獲取，那麼，具體選擇哪些需要爬取的內容呢？

運營商有什麼數據需要翻譯就需要爬取這些數據對應的業務含義，比如號碼（TO B）、位置、網址URL、內容ID（視頻、閱讀、音樂等等）等等。

下圖是個視頻解析的示例，能夠還原出原始URL日誌中附帶的視頻ID對應的業務含義，有了這個知識，下次任何用戶的原始URL日誌中附帶有這個ID，就能直接判斷內容了，這個奠定了用戶洞察的基礎。

但要實現這個功能，對於運營商的技術要求其實是比較高的，主要包括以下幾個關鍵技術：

1、DPI等原始數據的輸出和解析：也就是要將運營商的原始數據轉化成適合爬取的格式，比如原始的URL根本是沒法爬取的，往往需要做URL的拼接和轉化才能還原出內容頁面，這裡面有太多的細節需要研究，針對不同行業，不同業務可能需要不同的轉化形式，往往需要一個一個行業來，一個個網站來，起步的時候要靠人堆上去，沒有什麼捷徑。

2、打造一個分散式的爬蟲引擎：當前商業化的爬蟲產品並不多，因為不僅要適配企業的大數據平台既有組件，也要能靈活滿足運營商特定的爬取格式要求，比如浙江移動大數據中心就自研了一款B/S架構的雲端爬蟲平台，能將一張張異構的互聯網頁面轉變成一條條結構化的數據，並能按照一定的策略設置與數據源保持同步。

3、自然語言處理：爬到的內容格式往往是雜亂無章的，要能對這些內容按照知識體系的要求進行結構化並分門別類，需要用到自然語言處理技術，比如你不僅爬取了淘寶的商品目錄，也爬取了京東的商品目錄，那麼怎麼整合成為統一目錄呢？靠的就是這種技術，這是繞不過的，行業知識圖譜結構化程度越高，前端業務的使用就越方便，商業變現就越容易。

三、行業知識圖譜的數據架構

行業知識圖譜從數據流的角度分了四個層次，也可以認為是建模的四個層次：

1、知識層：基於通信數據獲取要解析的要素，輸入爬蟲引擎獲得行業知識庫。

2、事件層：基於行業知識庫將通信詳單轉化成具有業務含義的事件清單，這些事件清單就有完整的業務含義。

3、整合層：基於事件清單形成融合模型。

4、標籤層：形成對用戶的行業洞察。

四、行業知識圖譜運營團隊

行業知識圖譜的建設是個體系化工程，因為行業在變化，需求在變化，信息在變化，比如視頻網站的結構變化了，這個時候爬蟲就要與時俱進，號碼業務含義變化了，知識庫也要能做到動態更新，因此，需要組建有專門的團隊來作持續的運營，包括行業知識圖譜規劃、規範制定、需求分析、爬蟲配置、知識庫更新、模型開發等系列工作。

運營商有價值的數據大多都是管道型數據，但跟互聯網公司不同的是，人家的數據都是自帶業務屬性的，大多能夠直接拿來變現，運營商的管道數據則好比頁岩油，雖然潛在價值很大，但開採的代價很大，有用和能用是兩碼事。

運營商大數據變現有幾年了，當前面臨著規模化的挑戰，但直接能用的數據在面對商業化的考驗時，有時會發現馬上能用的數據不是多了，而是少了，筆者倒覺得不是少了，而是視野窄了，能力弱了，生產力已經跟不上生產關係的發展了。

運營商需要在變現上轉變思維方式，要能夠立足長遠，做好能力的儲備，用工匠的精神去持續打磨數據，深挖數據的價值，從而為大數據變現闖出一片新的天空。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 與數據同行 的精彩文章:

TAG:與數據同行 |