當前位置:
首頁 > 科技 > 對話陳運文:達觀數據為何只取「文本挖掘」一瓢飲?

對話陳運文:達觀數據為何只取「文本挖掘」一瓢飲?

Xtecher【錯別字基金】溫馨提示:如果您在閱讀過程中發現錯別字,請在文章底部留下說明+聯繫方式,我們會立刻發給您5-88元隨機紅包一個,同樣的紅包會發給文末留言點贊最高者。

「演算法模型未來能夠洞悉人性,能夠了解每個人的內心深處,把你真正所需要的內容傳輸給你。」陳運文帶領著達觀數據在文本挖掘的道路上悟之漸遠,行之漸深。

作者|欣彤Iris

編輯|小魚、甲小姐

微信公眾號ID|Xtecher

一場真金火煉的演習戰

一場驚心動魄的比賽,成為了陳運文創業之前的一場演習戰。

2012年,仍在盛大文學負責大數據研究的陳運文,抱著向國際頂尖團隊靠近的決心,帶領其組建的上海團隊趕赴國際數據挖掘競賽KDD Cup。這一場競賽,不僅令陳運文及其隊友領教了國際上頂尖的演算法模型,也切身體會了一把團隊戰的酣暢淋漓。

如今陳運文回憶起那場夜以繼日的比賽仍頗有感慨。

競賽持續了兩個半月,題目難度高,陳運文團隊最初排名僅居於參賽隊伍中的第幾百名,起點低、壓力大,戰況毫不樂觀。

「這是一個全球性的比賽,當你的演算法改進之後,會看到演算法改進帶來的效果提升,排名也隨之靠前。」換句話說,公開排名明目張胆地宣告著各家參賽隊伍的演算法水平,演算法好一些,排名就靠前一些。

不甘落後,陳運文帶著團隊嘔心瀝血地改進,用他的話說,當時他們與時間賽跑的程度,可形容為「連睡覺的時候腦子裡都裝滿了演算法」。

排名一點一點靠前。

陳運文團隊硬是靠著專業能力和意志力撐過了那場為時兩個半月艱苦卓絕的馬拉松——經過無數個爭分奪秒研究演算法的日日夜夜,他們最終獲得了亞軍。

「當比賽截止的那一刻,團隊成員看見排行榜上出現了我們團隊的名字時,大家不禁相擁而泣。」

對陳運文而言,這場比賽最大的意義並非戰績,他告訴Xtecher,整個比賽過程令他和團隊成員形成了真金火煉的戰友般的友誼。儘管比賽的激情漸漸消退,但身為隊長的陳運文卻萌發了一個想法——若幾年後自己出來創業,必定要把這些志同道合的兄弟們重新聚集到一起。

只取「文本挖掘」一瓢飲

「尚處於極其原始的狀態。」

陳運文用「極其原始」四個字來形容中國企業、尤其是傳統企業的文本信息處理能力,「很多大型企業,他們對文字資料的處理還停留在人工整理階段,並沒有意識到很多工作是可以完全自動化的。」

一條信息是否能夠讓用戶感興趣,主要取決於這條信息的內容是否是用戶關注的內容。將適合的信息推送給適合的人,對於用戶來說,提升了信息的獲取效率;對於企業來說,可以更好地獲取商業利益。

在陳運文眼中,通過演算法模型實現文本挖掘的自動化,將大大提高企業的管理水平。這個樸素的動機,也構成了陳運文投入創業的動力。「年輕的時候覺得創業夢很遙遠,可能是自己還沒準備好。但到了三十幾歲時,覺得自己差不多準備好了。」

「仰望星空的同時需要腳踏實地,」陳運文向Xtecher表示,「一定要有一支志同道合的團隊,一起並肩作戰。」

前文所述,曾經的比賽磨練了一份真金火煉的戰友之誼,這份曾經在國際競賽上共同戰鬥過的友誼從2012年延續到了2015年底,繼而有了一個新的名字——達而觀信息科技(上海)有限公司(以下簡稱達觀數據)。

數據挖掘領域深似海,達觀數據為何只取「文本挖掘」一瓢飲?

「各種類型的數據、應用很多,文本挖掘是我們最擅長的強項,我們希望努力達到國內文本挖掘的巔峰。」曾任職於盛大文學、騰訊文學等平台的陳運文,每天打交道的對象就是文字數據。專註地把文本挖掘做到極致,追求純粹和頂尖,或許是陳運文創業落子的難能可貴之處。

客戶的單子慢慢滾大

方向已定,接下來就是進一步招兵買馬。

在挑選人才這方面,陳運文很看重一點:那個人對演算法到底有多熱愛?陳運文試圖通過一些高標準的競賽吸引人才,如今年5月啟動舉辦的「達觀杯」個性化推薦演算法挑戰賽,正是為了吸引更多熱愛演算法的精英,為團隊注入新鮮血液。

如今,技術氛圍濃厚的達觀,十分注重探討及引入國外先進演算法技術。「平時在一起聊聊最新的演算法,談談美國那些公司、大學發表了哪些新的論文等,」陳運文享受這樣的氛圍,「像我們這種專註技術的公司,技術氛圍是很重要的。」

篤實的技術氛圍,支撐著達觀數據扎紮實實地提升著一個又一個客戶的業績。

達觀的業務涵蓋為企業提供專業的文本語義理解、個性化推薦、垂直搜索、用戶畫像、數據採集和深度挖掘等,以幫助其實現基於大數據的精準營銷,降低成本提高效益。有時,為了更好地滿足客戶需求,達觀數據也以自身的垂直技術打包合作夥伴的技術服務,攜手服務。

達觀數據目前服務的領域涉及媒體、視頻、電商、銀行以及金融科技等。據統計,系統上線後,達觀數據客戶的經營業績普遍都能提升30%;通過個性化推薦引擎的服務,達觀數據的客戶平台人均播放次數等關鍵指標提升了近4倍;不僅如此,達觀在文本挖掘、搜索引擎、個性化推薦系統方面已擁有20餘項國家發明專利。

客戶名單在逐漸豐實累積:不僅有華為、中興等大型企業,還有梨視頻、酷六、界面新聞、趣頭條、暴走漫畫、Papi醬等。

客戶的單子自己慢慢滾大。比如在華為,達觀數據為之量身定做的第一個系統便好評如潮,由此展開向華為六個部門提供技術服務;再比如,趣頭條買了其服務,並做了長期的AB測試,將達觀的演算法和他們原有系統進行了對比,發現達觀的演算法更優質,後來便把所有流量都切換到了達觀數據這邊,今年又追加了訂單。

需要文本挖掘服務的企業有很多,從哪裡下手?

達觀數據在獲客初期會著重選擇「中型發展企業」——這些客戶往往具有類似的情況:主營業務已較穩定,但在尋求發展的同時也面臨相對生存壓力,因此對產品迭代升級的要求非常快,這時便最需要達觀為其提供服務。

值得注意的是,服務中型發展企業,對達觀數據產品的效果引擎提出了不斷的迭代要求。陳運文強調:「引擎有點像發動機,在使用過程中需要不斷升級調整,效果才更好。達觀會根據各種反饋數據,自動調整演算法,確保它具備最優效果。」

此外的一個問題是:文字語義理解上正在不斷衍生出不同領域的細分產品,如何保證其良好的通用性?

針對每個垂直行業,達觀數據都定製了相應的解決方案,讓服務更加「對症下藥」。與此同時,為了兼顧垂直性與通用性,他們做了大量的系統設計。比如,把系統儘可能地「模塊化」,這個過程可比喻為「搭建樂高」,每個小模塊都像一顆樂高積木,每個客戶想要的東西雖有所不同,但基礎模塊都類似——用模塊拼裝以滿足客戶的特定需求,可減少大量重複工作。

一個有價值的信息。達觀數據,按照國際標準整理和撰寫了技術文檔資料,對操作流程進行了規範化,今年5月23日成功通過了審查並獲得了ISO證書。認證範圍覆蓋:計算機軟體開發與系統集成;大數據挖掘分析技術服務。

這對一家公司而言,意味著它得到了業界標準的認可,有更堅硬實力去承擔大型政府、金融企業的大數據挖掘系統開發。

事實上達觀已經展開與政府機構廣泛的戰略合作。達觀數據是發源於上海的大數據公司,也是浦東軟體園加速器成員之一,由於上軟業務資源豐富,在合作後達觀數據充分發揮其優勢,幫助政府和企業完成大數據挖掘的業務落地。達觀也曾與上海計算機軟體技術開發中心開展大數據戰略合作。

與強者強強聯手。達觀數據的另一位戰略合作夥伴——神策數據,於今年5月下旬雙方簽署了戰略合作協議。「神策數據打牢地基、達觀數據建好高樓」,陳運文告訴Xtecher,「神策幫助企業完成數據採集、整理、分類等工作,建好大數據基礎設施,達觀在此基礎上完成數據挖掘和應用工作。」

喚醒對大數據的認知

好公司永遠不缺投資人。達觀數據在成立一年(2016年)之際,便獲得了真格基金領投,眾引傳媒集團、盛大集團、掌門科技等國內多家知名投資機構跟投千萬級天使投資。今年4月中旬,達觀數據宣布完成了5000萬元A輪融資,本輪融資由軟銀賽富領投,方廣資本跟投。

至於這筆來之不易的5000萬元A輪融資,陳運文對它的投入計劃早已胸有成竹:第一,人才建設,吸引優秀演算法人才等;第二,加大銷售和市場拓展的力度;最後,為長遠布局,做基礎性演算法的技術投入。

資金到位後,企業隨之遇到了發展的瓶頸。陳運文坦言,市場拓展是目前企業快速「奔跑」的絆腳石。

「我們特別垂直,如何避免酒香也怕巷子深的問題?大部分傳統企業對大數據的理解較為淺薄,傳統企業不一定能意識到文字自動化處理能更好地進行搜索、推薦等,以及會更有利於他們提升經營業績。所以,我們還要做很多市場培育工作。」

還有一個不爭的事實。現如今,傳統企業領導的觀念依然停留在「看數據報表」的範疇,無法分析數據背後漲與跌的原因,也難以將數據的價值真正運用到經營中去。「如何喚醒大家對大數據的認識,將依賴領導經驗來決策的機制轉換為依靠數據分析決策的機制」,成為陳運文常常思考的問題。

用事實說話。陳運文開始用案例向客戶展示其數據產品的應用價值。「我們曾通過對比測試來印證大數據的重要性。結果證實,大數據的用戶點擊率是人工推薦的3倍。」

市場在慢慢醒來。

如今,陳運文表示達觀數據在銷售方面已逐步摸索到了方向,也得到了市場積極的反饋,「現在很多客戶其實都不是靠我們的銷售人員去聯繫,反而是他們了解到我們是專業做文本信息處理的,進而希望我們提供技術支持。我希望未來我們的市場拓展工作人員能夠走出去,主動地把我們的各項產品介紹給更多的企業並投入使用當中。」

「達觀」的目標市場,不僅僅局限在國內。陳運文說,他也希望未來達觀數據的技術能在國外市場佔據一席之地。他告訴Xtecher:「我們在這個領域有某些天然的優勢,因為文字本身跨語言的差別很大,中文表達更具多樣性,語法更靈活,做中文的文本挖掘對我們的好處就是可以把很多美國的競爭者排除在外。」

具有挑戰精神的陳運文,十分期待未來與國際頂尖的競爭對手較量的那一天到來。

錙銖必較的匠人精神

「演算法模型應該洞悉人性,了解每個人的內心深處,把你真正所需要的內容傳輸給你。比如,我們今天在搜索引擎裡面搜一個詞的時候,我們背後想表達的含義遠遠比那幾個詞更加豐富。」

陳運文對未來演算法模型的理解是:「比如我們要給企業裡面的職員做個性化推薦時,要根據他的知識水平和體系以及他想了解的內容,從企業資料庫當中精準地找到想要的內容,幫助企業大大提高經營業績——而這些過程需要我們對每個用戶、甚至每個企業的經營業態有深入了解,對文字有更深入的挖掘,才能更好地實現。」

談及達觀數據的未來,陳運文心態平和,但他強調要有一種精神:「創業這件事情我覺得目標很宏偉,但是過程還是要扎紮實實的,因為技術人員寫錯了一個代碼,就足以導致最終演算法出現問題。」

在他看來,每行代碼的背後,隱藏著每位成員錙銖必較的「匠人精神」,只有他們把「匠人精神」傾注在畢生熱愛的事業上,才能令之煥發出極致的光芒。

在他眼中,此刻的創業和馬拉松式的國際競賽有著相似之處——殘酷的創業競爭格局不亞於比賽冠軍的爭奪,在每個細分行業裡面,可能只有前幾家公司生存下來。大多數人在經歷過程中會萌發放棄念頭,但一旦放棄,意味著功虧一簣。

在採訪即將結束之前,陳運文胸有成竹地告訴Xtecher,「我們每天不斷地提升自己,不斷改善演算法模型,達觀數據的系統與去年相比得到很大的提升。日積月累,水滴石穿,相信未來我們肯定會更強大。」

我是Xtecher記者欣彤Iris,如果您有國內外科技行業新鮮資訊或獨到見解,歡迎與我聯繫。

(添加好友請註明公司、職位、事由)

━━━━━

封面設計:王思寧 排版:陳光 校對:米琪

━━━━━

Xtecher官網平台現開通認證作者,

(添加好友請註明公司、職位、事由)

點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 Xtecher 的精彩文章:

人工智慧與計算生物學:藥物研發的前沿
百度在矽谷成立度秘研發團隊;Netskope獲1億美元E輪融資
以「AR+HUD」切入汽車前後裝市場,Futurus致力於革新傳統儀錶盤
比亞迪:從603.62%到-28.79%,只是一步之遙
熊曉鴿:懷揣38美元的窮小子如何做到創投大佬

TAG:Xtecher |

您可能感興趣

一文掌握:NLP中如何實現對文本數據的編碼?
文本挖掘入門課:主題模型讓文本數據處理更幸福
文本分析:語言和文體
立足文本,跳出文本,回歸文本——觀課《有的人》有感
如何將文本、文檔、音視頻等文件藏在二維碼里?這裡有最全操作指南!
「文本轉圖」效果優化可多一步:物體關係描述
格局與風景——文本整體閱讀觀照下的文本細讀
關鍵詞錨文本,最詳細的指導!
文本研究,能否顛覆傳統的「文學史觀」?
萬字長文,達觀數據聯合創始人高翔詳解文本抽取
萬字長文詳解「文本抽取」 | 達觀數據聯合創始人高翔(附「達觀杯」參賽方式)
專欄 | 如何做好文本關鍵詞提取?從三種演算法說起
「單一文本」勾勒南海「和合」未來
如何利用文本挖掘推薦Ted演講
沈敏燕:傾聽文本發出的細微聲響——以《自己的花是讓別人看的》為例淺談文本解讀的策略
北郵李蕾:關於自動文本摘要的分析與討論
關於文學文本、文化文本、遊戲文本的概念梳理
遊戲文本關鍵詞提取工作的嘗試和探索
你知道嗎?瀏覽器還可以當成文本編輯器用
文章太長不想看?ML 文本自動摘要了解一下