想開發機器學習產品,先剷平這三個障礙
【開頭說個事兒】
由圖森未來、AWS以及將門創投聯合舉辦的首屆AI極客訓練營(AI Geekthon Camp)將於6月3日正式開營啦!歷時兩個月,8月11日進行最終答辯。這個夏天,一起躁起來!??戳我了解詳情
來源:TowardsDataScience編譯:Yulei Fu
機器學習已經變得日益重要,幾乎像電力一樣融入了所有產品的日常中。如何利用機器學習開發出更好的產品,如何成為一名合格的機器學習產品經理可能是很多人都想知道答案的問題。我們在先前的文章中介紹了機器學習最適宜處理的問題以及作為產品經理在構建機器學習產品時需要掌握的技能。那麼在了解了機器學習的能力學會了技術之後,我們還需要來談一談這個領域常見的誤區和前任踩過的坑。
當與的數據科學家或工程師溝通的時候,以下幾點關於機器學習的常識性概念是需要注意的。作為一名產品經理,通常情況下沒有很深的學術造詣,但在於團隊進行溝通和推動項目的過程中,基本概念的理解和邏輯需要清晰和正確的。
數據問題
數據缺失
相信每個人對於機器學習的數據需求都是毋庸置疑的。(在這裡提到這個問題有點不太適宜,尤其是在這樣一個談論機器學習的博客中提及)然而,在市場中與其他公司進行業餘往來和交流的過程中,作者發現有許多希望以智能軟體系統和機器學習為解決策略的公司卻沒有數據。如果你沒有數據,是不能應用機器學習的;你的數據可以來源於本公司的積累,公開獲取或者是合作公司的數據。如果沒有數據,就無從談起機器學習。這也是作為篩選評價人工智慧創業公司的一個重要指標:有一些公司宣稱自己有很炫酷的人工智慧科技卻沒有數據來驅動這項演算法,那麼你就要謹慎的審視這家公司了。
數據量小
現今流行的各種機器學習演算法都依賴於大數據,並且在數據量大的時候工作效果更好。當數據量較小的時候,你也可以運用機器學習演算法,但是一定要注意以下兩點:所選用的模型不受局外點的影響;所選模型沒有過度複雜。當數據量有限的時候,選用統計方法比選用機器學習方法往往更加切實有效。比如大部分的醫療臨床案列樣本量都較小,這個時候選用數據科學來直接分析十分有效。
稀疏數據
有時候,即使你有龐大的數據量,實際可用的數據卻往往是十分稀疏的。比如在亞馬遜平台上,有成百上千的買家和琳琅滿目的商品。每個買家只買其中幾樣產品,對於大部分的產品來說你無法找到評價。對於購買量極少的商品來說,更加難找到評價和反饋。當使用稀疏數據進行計算時,必須仔細選擇你所使用的模型和工具,離線演算法可能會提供低於標準的結果,用稀疏數據計算效率也較低,因為數據集中大部分內容是空白的。
高維度數據
如你的數據有多種屬性,那麼對於模型中的計算和存儲資源的消耗是非常大的。高維度數據需要進行降維運算才可以在機器學習模型中應用。在降維的過程中也要十分小心以確保沒有丟掉信息。知道到底是哪一個維度的信息對結果起到決定性作用,是基於對數據的敏感性和直覺。產品經理們應該在數據選擇的階段就參與工程師和數據科學家們的討論。在這個階段中可以獲得產品的直覺和靈感。比如,我們嘗試預測一個視頻的質量,你可以分析視頻的點擊率,也可以分析視頻的參與度,當一個視頻的點擊度較高的時候,其實並不一定代表該視頻質量高,人們可能只是心不在焉的點開它,但其實把精力關注與瀏覽另一個頁面。所以你在分析時也許會希望再加入其它的維度。
數據清洗
你不能直接把現成的數據拿來套用在機器學習模型上,一個機器學習模型的有效性很大程度上取決於數據質量。數據質量並非指數據特徵的豐富性,而是指如何對它進行清洗和處理。你是否移除掉了異常數據,是否對所有域進行了歸一化操作,這些都會對你的模型產生影響。數據對模型的影響是:成也蕭何敗也蕭何。只有正確整潔的數據才是得到正確結果的重要保障!
擬合問題
過擬合
為了更好的解釋過擬合,我們來看看下面這個故事。在2007年經濟危機的時候產生了基金暴跌的現象,看上去不不可能的事件最後卻是真的,許多認為不可被撼動的假設最後都被嚴重擾動。
三天之內,演算法產生了嚴重的擾動,對沖基金損失慘重。本文的作者當時在一家量化對沖基金工作工作。當時,這家公司相較於它們的競爭對手來說損失相對較小。為什麼呢?另外一家基金公司相對較新,成立較晚,它們用來訓練模型的數據是在2007年前面幾年開始的,而那個時候數據從來沒有跌過。因此,但它們看到數據暴跌時,模型不知該如何反應。而作者的公司經歷過1998年的盧布危機,當時為此付出了代價,但隨後並改進了演算法使其適應了暴跌的行情。因此,它的損失沒有其他公司那樣嚴重。
這個故事講了一個過擬合的極端實例,對於門外漢來說,事後的優化會多於事前的預測。在這個。例子中競爭對手的模型基於如下的假設而成立:股票市場景氣。因此,當經濟危機發生時,它不能做出正確的預測,造成了慘痛的損失。
我們如何避免過擬合呢?確保你的模型在更加廣泛的數據集中進行驗證,並且回過頭來想想你的假設,如果在經濟有嚴重波動,用戶行為發生變化的時候,它們是否還成立呢?
欠擬合
欠擬合源於你的模型相對於數據而言過於簡單。比如,你想試著預測買家是否會在某家超市購買蛋糕粉。購買蛋糕粉的行為是一個隨機行為,諸如可支配收入,蛋糕粉的價錢,附近的競爭者等因素均會對最後的決策造成影響,但是,如果你不將其他諸如僱傭率,通貨膨脹率,其他零售商的發展等經濟行為考慮在內,那麼你是不能正確預測在這家超市購買蛋糕粉的行為的。如果你的模型表現欠佳,嘗試著回顧你是否找到了足夠的數據來分析問題,你是否可以通過其他方法和角度,加入一些更有效的數據來解決此問題?
計算成本
當建立機器學習產品時,另外一個容易被忽略的領域是計算成本。利用AWS和Azure這樣的服務,可以幫助提升計算能力。然而,在某種程度上,你需要平衡計算成本和模型複雜度,以及預測結果之間的代價。比如,你不可能存儲產品中的每一個數據,你也不可能每次都提供最新的預測。知道你的工程師團隊如何平衡計算代價和機器學習模型的準確性的問題,將會幫助你更好的理解產品的性能。
-The End-
將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的新型創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。
將門創新服務專註於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門投資基金專註於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com
※資料庫50年:能藉機器學習再造一個黃金期嗎?
※機器學習入門書單
TAG:機器學習 |