高質量數據集哪裡來？機器學習公司的十大數據搜集策略

科技 08-03

長期以來，在機器學習中不合理的數據利用效率一直是引起廣泛討論的話題。也有人認為，曾經阻礙人工智慧領域取得各種重大突破的，並不是什麼高深的演算法，而是缺乏高質量的數據集。然而討論的共同中心是，在當下最前沿的機器學習方面，數據是一個相當關鍵的組成部分。

獲取高質量的初始數據對於那些運用機器學習作為他們業務核心技術的創業公司來說是十分重要的。雖然許多演算法和軟體工具都是開源和共享的，但是好的數據通常是私人專有而且難以創建的。因此，擁有一個大型的、特定領域的數據集可以成為競爭優勢的重要來源，尤其是如果初創公司能夠啟動數據網路效應(在這種情況下，更多的用戶更多的數據更智能的演算法更好的產品繼續帶來更多的用戶)。

因此，對於機器學習創業公司必須做出的一個關鍵戰略決策是如何建立高質量的數據集來訓練他們學習演算法。不幸的是，初創公司往往在一開始只有有限的或沒有標籤的數據，這一情況會阻礙創始人在構建數據驅動的產品方面取得重大進展。因此，在僱傭數據科學團隊或建立昂貴的核心基礎設施之前，從一開始就值得探索一套數據收集策略。

創業公司可以通過多種方式克服剛開始進行數據採集時遇到的棘手的問題。數據戰略/資源的選擇通常與商業模式的選擇、創業公司的關注重點(消費者或企業、橫向或縱向的)以及融資情況密切相關。以下簡單列出幾種並不互斥的策略，為廣泛的可用方法提供了一種大體框架。

策略＃1：手動工作

從頭構建一個良好的專有數據集基本意味著要將大量的前期工作和人力資源投入到數據獲取上，還要完成大量無法批量完成的的手動工作。在初期藉助人力的創業公司的例子很多。例如，許多聊天機器人初創公司(通過改變對成功的定義和高職工流動率吸引求職者)僱傭真人來做「人工智慧培訓師」，讓他們手動創建或驗證機器人所說的話。就連科技巨頭也採取了這種策略:Facebook M(一個最新內置在Facebook Messenger中人工智慧驅動的數字助理)的所有回應都是由一個承包商團隊審查和編輯的。

使用人力來手動標記數據點可以是一個成功的策略，只要數據網路效應在某個時間點生效，這樣所需要的人力就不再以與用戶增長相同的速度增加。只要人工智慧系統進步的速度足夠快，未指明錯誤就會出現地不那麼頻繁，相應地，執行手工標記的人的數量也將會減少或保持不變。

適用對象：幾乎每一家機器學習創業公司

例子：

一些聊天機器人創業公司(包括Magic、GoButler、x.AI和Clara)

MetaMind(用於食品分類的手工收集和標記數據集)

Building Radar(員工/實習生手動標記建築物的圖片)

策略＃2：縮小問題範圍

大多數創業公司都會嘗試直接從用戶那裡收集數據。

挑戰在於說服早期用戶在機器學習的好處完全發揮作用之前保持使用該產品(因為首先需要數據來訓練和微調演算法)。

解決這個自相矛盾的問題的方法之一，是徹底縮小問題範圍(如果需要的話，可以在之後再擴大)。正如Chris Dixon所說:「你所需要的數據量與你試圖解決的問題的廣度有關。」

Source: x.ai（來源於X.AI）

這樣縮小問題範圍的好處再一次體現在聊天機器人上。這一領域的創業公司可以在兩種市場策略之間做出選擇:他們可以建立水平助手——可以幫助解決大量問題和回應即時請求的機器人(比如Viv、Magic、Awesome、Maluuba和Jam)。或者，他們也可以創建垂直助手——能出色完成一項具體、明確的任務的機器人(例如x.ai, Clara, DigitalGenius, Kasisto, Meekan以及最近的GoButler/Angel.ai)。這兩種方法都是有效的，不管如何選擇，只要縮小了問題的範圍，數據收集對創業公司來說都要容易得多。

適用對象：經營垂直整合業務的公司

例子：

高度專業化的垂直聊天機器人(如 x.ai, Clara or GoButler)

Deep Genomics(利用深度學習來分類/解釋基因變異)

Quantified Skin(使用客戶自拍照來分析一個人的皮膚)

策略＃3：眾包/外包

除了讓員工(或實習生)來手動收集或標註數據，創業公司也可以通過眾包來達到目的。像Amazon Mechanical Turk 或CrowdFlower 的平台提供了一種方法，可以利用數百萬人的在線勞動力來清理混亂和不完整的數據。例如，VocalIQ(2015年被蘋果收購)使用亞馬遜土耳其機器人為其數字助手提供數千個用戶提出的問題。員工也可以通過僱傭其他獨立的承包商來外包(就像Clara 或Facebook M所做的那樣)。使用這種方法的必要條件是可以清楚地解釋這個任務，而且它不至於太長或者很無聊。

另一種策略是鼓勵公眾自願提供數據。一家總部位於巴黎的人工智慧創業公司Snips就是一個例子，該公司利用這種方法獲得特定類型的數據(餐廳、酒店和航空公司的電子確認信)。和其他創業公司一樣，Snips使用的是一種遊戲化的系統，用戶可以在排行榜上進行排名。

適用對象：可以很容易地執行質量控制的情況

例子：

DeepMind, Maluuba, AlchemyAPI，和其他很多人(見這裡see here)

VocalIQ(用土耳其機器人幫助系統學習人們如何說話)

Snips (要求人們無償為研究提供數據)

策略# 4：引導用戶自發參與

有一種能夠自成一類的眾包策略，是通過恰當的方式引導用戶自發地產生數據。這種方法中很重要的一步是設計能夠為用戶提供恰當激勵，使其主動將數據結果反饋給系統的產品。

那些在自家許多產品中都使用了這種方法的公司里，有兩個十分典型的例子:谷歌(搜索引擎、谷歌翻譯、垃圾郵件過濾器等等)和Facebook(用戶可在照片中給朋友加標籤)。用戶通常不知道他們的行為在為這些公司提供免費的標籤數據。

機器學習領域的許多初創公司都從谷歌和Facebook中汲取了靈感，他們創建了具有糾錯功能的產品，明確地鼓勵用戶糾正機器錯誤。這方面特別出名的是reCAPTCHA 驗證碼和Duolingo(都是由路易斯馮創立的)。其他的例子包括Unbabel，Wit.ai 和 Mapillary。

適用對象：以消費者為中心並且有穩定用戶交互的創業公司

例子：

Unbabel(用戶糾正機器翻譯的社區)

Wit.ai (為用戶提供了用於糾正翻譯錯誤的面板/api)

Mapillary (用戶可以糾正機器生成的交通標誌檢測)

策略# 5：開發副業務

一個似乎特別受計算機視覺創業公司歡迎的策略是有針對性地向用戶提供一個免費的、特定領域的手機app。

Clarifai、HyperVerge和Madbits(2014年被Twitter收購)都採取了這一策略，它們向用戶提供能夠為自己的核心業務收集額外圖像數據的照片應用。

Source: Clarifai（來源於Clarifai）

這個策略並不是完全沒有風險（畢竟，成功開發和推廣一個app是要花費時間和金錢的）。創業公司還必須確保他們創建了一個足夠強大的使用案例，能讓用戶乖乖交出他們的使用數據，即使在開始時缺少數據網路效應的優勢。

適用對象：初創企業/橫向平台

例子：

Clarifai（Forevery，可用來發現新照片的應用程序）

HyperVerge（Silver，可用來組織照片的應用程序）

Madbits（Momentsia，可用來拼貼照片的應用程序）

策略＃6：數據陷阱

另一種收集有效數據排放的方法是構建Matt Turck所謂的「數據陷阱」（Leo Polovets已經給了這個策略一個不太可愛的名字：「特洛伊木馬收集數據法」）。目標是創造一些即使在沒有機器學習的情況下也有價值的東西，然後以收集數據的成本出售（即使其中的邊際效益很小）。與之前的策略形成對比的是，構建數據陷阱是創業公司商業模型的核心部分（而不僅僅是一個副業務）。

一個相關的例子是Recombine，一家臨床基因檢測公司，通過提供生殖力測試服務來收集DNA數據，然後可以將DNA數據用機器學習進行分析。另一個例子是BillGuard（被Prosper於2015年收購），一家提供了一個幫助信用卡用戶爭取「灰色費用」的移動端app的創業公司。該應用程序幫助BillGuard獲得大量之後還可以用於其他目的欺詐數據。另一邊Telsla也正在使用這個策略。作為擁有超過10萬輛（配有感測器的）車輛正被用於行駛的公司，Tesla目前正在建造最大的自動駕駛訓練數據集（每天可以收集比Google更多的自動駕駛里程）。

適用對象：經營垂直整合業務的企業

例子：

Recombine（提供生育力測試來收集DNA數據）

BillGuard（提供移動應用程序來收集欺詐數據）

Tesla（當駕駛員使用自動駕駛功能時收集數據）

策略＃7：公開可用的數據集

一個許多創業公司都屢試不爽的策略是在公開來源中挖掘數據。像「普通抓取」這樣的網路存檔包含多年網路爬蟲收集的免費原始數據。另外，像Yahoo或Criteo這樣的公司已經向研究界發布過了大量數據集（雅虎發布了13.5 TB的未壓縮數據！）。隨著最近政府公開資料庫的蓬勃發展（由奧巴馬政府引領），越來越多的數據來源正在免費公開。

幾家機器學習初創公司已經在利用公共數據了。當Oren Etzioni開始Farecast（由Microsoft於2008年收購）時，他使用了在旅遊網站抓取信息而獲得的12,000個價格觀察樣本。同樣，SwiftKey（由Microsoft於2016年收購）在早期收集並分析了數十億網頁爬蟲數據，來創建它的語言模型。

適用對象：可以識別相關公共數據集的初創公司

例子：

Farecast（第一版從旅遊網站爬取的信息）

SwiftKey（抓取網頁文字來創建語言模型）

The Echo Nest（每天爬取數百萬個音樂相關網站）

Jetpac（將公共Instagram數據用於其移動應用程序）

策略＃8：第三方數據許可

訪問第三方數據的另一種方法是通過外部數據提供者提供的API或通過在第三方移動應用程序中實施SDK來抓取數據（理想情況下是終端用戶同意）來得到許可。在這兩種情況下，創業公司都要支付另外一方來處理為某個目的而生成的數據，然後應用機器學習從該數據中提取新價值。

Farecast和Decide.com（均由Oren Etzioni創立）已經成功地實施了這一戰略。開放的數據平台，如Clearbit或Factual是外部數據提供者的典範。在使用第三方數據來挖掘預測信息的公司中，也有幾家對沖基金和演算法交易公司（正在使用非傳統數據集，如Orbital Insight或Rezatec等創業公司的衛星數據）。

適用對象：依靠第三方數據的創業公司（如行業數據）

例子：

Farecast（通過航空公司的數據使用許可來預測機票價格）

Decide.com（通過電子商務的數據使用許可來預測價格）

Building Radar（使用ESA衛星圖像來監測建設項目）

戰略＃9：與大企業協作

對於初創企業，數據提供者可能是提供相關數據處理權的大客戶。在這個策略中，創業公司向客戶出售問題的解決方案（如減少欺詐），並使用客戶的數據訓練其學習演算法。在理想情況下，從一個客戶或實例中做的數據學習可以轉移給所有其他客戶。例如在測謊領域的Sift Science和SentinelOne。

採用這種方法的難點在於如何在前期做好談判，確認通過數據學習到的信息都歸創業公司所擁有，而數據本身仍是顧客的資產。鑒於大型公司通常具有嚴格的規則，並且對共享專有數據非常敏感，這是很容易產生分歧的地方。

適用對象：企業創業公司

例子：

Sift Science（使用公司特有數據查找獨特的欺詐信號）

SentinelOne（銷售終端保護軟體的網路安全初創公司）

Skytree（開發用於企業使用的機器學習軟體）

策略＃10：小型收購

Matt Turck列出了許多公司的收購方式，以獲得特別相關的數據集（類似於收購有價值的專利組合）。例如，IBM Watson在2015年進行了四次與數據有關的收購，將其衛生部門轉變為世界上最大和最多樣化的健康相關資料庫之一。

由於這種方法需要資金支持，所以可能只對於擁有充裕資金的創業公司來說是可行的。

適用對象：（後期）有足夠資金的創業公司

示例：難以確定（數據是收購的唯一原因）

很可能還有其他數據採集策略在這裡沒有提到（如果是，請給我留言）。除此之外還有幾個初創公司可以用來解決數據問題的演算法技巧（例如傳輸學習，MetaMind使用的一個技術）。

無論您採取何種策略，關鍵信息是：獲取和擁有大型特定領域的數據集以構建高精度模型可能是創業者一開始就需要解決的最難的問題。在某些情況下，它涉及到找一個能快速解決問題但不是長久之計的方案，比如僱傭人類來假裝是人工智慧（像許多聊天機器人創業公司那樣）。在其他情況下，它要求企業大大地延長免費周期，限制測試版的公開發布，直到機器學習的好處開始發揮作用而且客戶願意為此付費。

來源：錢塘大數據

全球市場交易訓練營，讓你成為最優秀的金融人！上海訓練營來啦！

解讀華爾街對沖基金最新交易策略

跨市場套利波動率量化模型

量化模型分析基本面事件

揭秘宏觀對沖基金的策略研究方法

經典技術分析是為輸家準備的套路

量子物理對交易的啟示……

時間：

8月3日（周四）：18:00-21:00

8月4日（周五）：18:00-21:00

8月5日（周六）：9:00-12:00；14:00-17:00；18:00-20:00（業內交流活動）