機器學習探索性數據分析的數據類型
來源: Machine Learning Blog
編譯:T.R
數據類型是統計學中的重要概念,我們需要對它有正確的理解方能利用正確的數據類型來獲得結論。這篇文章將介紹幾種用於機器學習探索性數據分析的數據類型,以便正確的把握和利用數據。
對數據結構的良好理解對於機器學習中探索性分析十分重要,對於不同的數據類型我們需要不同的統計學度量手段來進行分析測試。同時也需要根據數據的類型選擇合適的可視化方式來幫助我們更好的理解數據。最後數據類型也為變數的分類提供了一個有效的途徑。
分類數據
分類數據代表著對象的屬性特點。諸如人群的性別、語言、國籍大都屬於分類數據。分類數據通常也可以用數值表示(例如1表示女性而0表示男性),但需要注意的是這一數值並沒有數學上的意義僅僅是分類的標記而已。
定類數據
定類變數用於標記不同變數的特徵,而並不需要定量的數值,它們僅僅是標籤而已。需要注意定類數據是無序的,對於變數順序的更改不會改變數據的本質特徵。
上圖中表示的便是一個樣本典型的分類數據,分別描述了個體的性別和語言屬性。特別的作圖中是一個只有兩個屬性的二叉分枝。
定序數據
定序數據代表了離散但是有序的變數單位。它於定類數據十分類型但確實有序的數據組織。下面教育背景的數據很好地的描述了定序數據的特點。
上圖中的四個選項依次表示了不同的受教育程度,但卻無法量化初級教育與高中的差別和高中與大學差別間的不同。定序數據缺乏對於特徵間差別的量化使得它更多的只能用於評價利於情緒和用戶滿意度等一系列非數值特徵。
數值數據
離散數據
離散數據是指其取值是不連續的分離值,數據只能在一些特定點取值。這樣的數據不能定量測量但可以進行統計計量,並可將其蘊含的信息通過分類的方式進行表示。擲硬幣便是最著名的例子,我們無法預測出下一次硬幣的正反但是可以通過統計歷史數據來估測概率的分布。
當處理離散數據時我們需要對兩個問題進行深入思考:數據是否可以計數統計,是否可以分割成較小的部分。如果結論於此相關數據可以被測量而不能夠計數,那麼意味著我們需要處理的便是連續的數據類型。
連續數據
連續數據類型代表著對象可測量的連續取值,雖然不能夠計數但是可以用某種尺度進行連續的測量取值,例如人的身高和年齡便是連續的數值。通常情況下人們只用或者實數來進行表示。
定距數據
定距變數用於表示對象等差屬性的描述方法。當我們使用定距變數時我們可以明確的知道數值間的順序和差別,並計量這種差別。對於溫度的描述就是一個定距數據典型的例子。
但定距變數存在的問題在於它沒有一個絕對的基準零值,對於上圖中的溫度來說0度並不意味著沒有溫度。對於定距變數來說我們可以進行加減操作卻無法進行乘除或者比例計算操作。由於不存在絕對零值使得描述性和推理性的統計方法都無法在定距數據上應用。
定比數據
定比數據和定距數據一樣都是有序的數據排列,但定比數據存在一個絕對的零值,所描述的都是具有零值基準的變數,包括重量、高度和長度等。
為何數據類型如此重要?
由於不同的統計方法適用於不同的數據類型,所以數據的類型對於統計和機器學習分析十分重要。試想如果利用連續數據的分析方法來研究分類數據,那麼十有八九會得出錯誤的結論。對於數據類型的理解將會有助於我們選擇正確的方法和統計模型來探索和分析數據。那麼不同的數據類型我們該選擇何種統計模型來分析呢?
對於定類數據來說主要需要關注頻率、比例/百分比和可視化方法三個要素。用頻率度量某一事物在一定時間或者是在數據集中發生的次數。同時可以用頻率將其從數據中的佔比進行統計和分離。對於這列數據來說餅圖和柱狀圖是最好的呈現方式。
對於定序數據來說除了百分比和頻率等指標外,還可以利用百分位數、中位數等統計指標來描述數據。
對於連續數據來說可以利用更為豐富的的手段進行處理,除了常見統計手段的均值和方差外還有峰峰值、範圍等指標來進行表示。為了表示數據的誤差和離散程度,帶有誤差棒的箱式圖和直方圖不失為一種直觀的呈現方式。通過箱圖可以看到數據的集中程度和誤差程度,而直方圖則可以提供數據的整體形態、中值、分布以及趨勢。
在這篇文章中我們看到除了連續和離散的數值類型外,統計學中還包括了定序數據、定類數據、定距數據和定比數據等類別。對於不同的數據類型有著不同的分析和可視化方法,在著手處理數據時,理解數據是開始工作的首要條件,不僅有助於我們選擇正確的工具和方法,更有助於我們用正確的思維去探索和分析數據,更容易地得出正確有效的結論。
-The End-
將門是一家專註於發掘、加速並投資技術創新激活商業價值的創業公司的創投機構,旗下設有將門創新服務、將門技術社群以及將門投資基金。
將門創新服務專註於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群專註於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門投資基金專註於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在兩年的時間裡,將門投資基金已經投資了包括量化派、碼隆科技、禾賽科技、偉景智能、Convertlab、迪英加科技等十幾家具有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」:bp@thejiangmen.com
※白話機器學習之人臉識別原理簡介篇
※火到半邊天的機器學習到底是啥?
TAG:機器學習 |