當前位置:
首頁 > 最新 > 數據產品必備技術知識:機器學習及常見演算法,看這一篇就夠了

數據產品必備技術知識:機器學習及常見演算法,看這一篇就夠了

大家都知道,產品經理需要懂技術,畢竟產品經理經常要和開發同學相愛相殺。不一定要精通,但至少不要讓這塊成為溝通的障礙。懂點技術,實際工作中也能少被開發同學「忽悠」,講道理時不會畏手畏腳,更有底氣。對於數據產品經理來說,不僅要懂技術,還要懂更多的技術。本文分享了數據產品經理必備的那些技術知識。

產品都要懂:什麼是程序?程序如何組裝成功能?服務端客戶端數據交互是咋樣的?資料庫是啥?裡面的表、關係結構、欄位、欄位類型是啥?常見的技術名詞如介面、同步非同步、重構等等又是指啥?除了這些,數據產品還要懂數據相關的技術,比如說數據倉庫,機器學習數據挖掘,大數據框架或者常用的數據開發工具hadoop、hive、spark等等這些。所以,從某些角度而言,數據產品比其他產品門檻要更高點。

此外,為了驗證哪個模型更准,可以再用一組新的樣本數據作為測試數據,套入模型,看看模型跑出的分類和實際分類誤差多少,從此來衡量模型的準確性。這裡引入一下訓練樣本和測試樣本,很多訓練過程都是這樣處理的,樣本數據劃分為訓練樣本和測試樣本,訓練樣本用來生成模型,測試樣本用來驗證準確性。同時這裡面的用戶的行為事件就是「特徵」,分類(是否為流失用戶)就是「標籤」。

統計學來講,利用統計方法來建立一個表示變數之間相互關係的方程,這樣的統計方法被稱為回歸分析。回歸演算法就可以理解是研究不同變數相關關係的一個機器學習演算法。多說一句,其實很多機器學習演算法都是來自統計學。回歸演算法有兩個重要的子類:線性回歸和邏輯回歸。這裡從簡單線性回歸入手介紹,也就是我舉得例子只是研究兩個樣本變數之間的線性關係。假設我們來研究考試成績和複習時間的關係,數據如下:

我想找出考試成績和複習時間的規律,怎麼找呢?這裡就是擬合出一條直線,所以這條直線需要「穿過」所有的點,並且與各個點的距離儘可能的小。解釋一下,簡單的線性回歸一般是使用「最小二乘法」來求解,最小二乘法的思想:假設我們擬合出的直線代表數據的真實值,而觀測到的數據代表擁有誤差的值。為了儘可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。假設擬合出的這條直線的函數如下:a、b都是直線的參數。

當我有一個綠色的點時,該判斷這個腫瘤是惡性的還是良性的呢?根據紅藍點我們訓練出了一個邏輯回歸模型,也就是圖中的分類線。這時,根據綠點出現在分類線的左側,因此我們判斷它的標籤應該是紅色,也就是說屬於惡性腫瘤。神經網路演算法是80年代機器學習界非常流行的演算法,不過在90年代中途衰落。現在,攜著「深度學習」之勢,神經網路重裝歸來,重新成為最強大的機器學習演算法之一。神經網路的學習機理就是分解與整合。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器學習 的精彩文章:

突破標準量子極限 「量子比特+機器學習」可精準測磁場
6個常用的機器學習框架

TAG:機器學習 |