通過一個 Kaggle 實例學習解決機器學習問題

知識 07-20

歡迎大家參與在留言區交流

本周內（截止至7月23日晚24點）

本公眾號本周發布的所有文章，留言獲贊最多者

AI研習社送西瓜書（《機器學習》周志華）一本

AI 研習社按：本文原作者楊熹，本文原載於個人博客。

之前寫過一篇《一個框架解決幾乎所有機器學習問題》但是沒有具體的例子和代碼，今天看到一個不錯的 kaggle 上的 code Exploratory Tutorial - Titanic 來解析一下，源碼可以直接點這個鏈接。

在這篇文章中可以學到一個完整的運用機器學習解決分析問題的過程，它包括了解決問題的一般流程，描述性統計的常用方法，數據清洗的常用方法，如何由給定的普通變數啟發式思考其他影響因素，sklearn 建立模型的一般流程，以及很火的 ensemble learning 怎麼用。

下面進入正題：

在 Titanic: Machine Learning from Disaster 這個問題中，要解決的是根據所提供的 age，sex 等因素的數據，判斷哪些乘客更有可能生存下來，所以這是一個分類問題。

在解決機器學習問題時，一般包括以下流程：

Data Exploration

Data Cleaning

Feature Engineering

Model Building

Ensemble Learning

Predict

1. Data Exploration

這部分先導入常用的 Numpy，Pandas，Matplotlib 等包，導入訓練集和測試集：

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline

train = pd.read_csv( ../input/train.csv )test = pd.read_csv( ../input/test.csv )

之後，可以用下面的命令先觀察一下數據表的結構：

train.tail()test.head()train.describe()

接下來，可以觀察各個變數的分布情況：

各個變數在測試集和訓練集的分布差不多一致。

然後看一下各個變數對分類標籤的影響：

例如，性別的影響，通過可視化可以發現，生還的乘客中女性多於男性.

或者 Pclass 的影響。

2. Data Cleaning

這個部分，可以統計一下各個變數的缺失值情況：

train.isnull().sum()#test.isnull().sum()PassengerId 0Survived 0Pclass 0Name 0Sex 0Age 177SibSp 0Parch 0Ticket 0Fare 0Cabin 687Embarked 2dtype: int64

然後對缺失部分進行處理，如果是連續變數，可以採用預測模型，例如 Age，如果是離散的變數，可以找到類似的數據群體，然後取最多的，或者最多群體的平均值。

eg，Embarked 這兩個缺失值，可以看 Pclass 1 and Fare 80 時，最多的情況是 Embarked＝C。

3. Feature Engineering

之前有過一篇特徵工程怎麼做，只是介紹了一些概念，這個例子就是比較具有啟發性，看看怎麼通過給定的幾個變數，去拓展成更有影響力的 feature，如何結合實際情況聯想新的因素，並轉化成數字的形式表達出來。

下面是數據中的原始變數，看看由它們可以聯想到什麼因素。

pclass Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)name Namesex Sexage Agesibsp Number of Siblings/Spouses Aboardparch Number of Parents/Children Aboardticket Ticket Numberfare Passenger Farecabin Cabinembarked Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)

除了性別，年齡等明顯的因素，社會地位等也可能影響著誰會優先乘坐救生艇，或被救助而生存下來。例如，

Name 里可以抓取到這樣的字眼，來反映出乘客的職場地位： [『Capt』, 『Col』, 『Major』, 『Dr』, 『Officer』, 『Rev』]。

Cabin 里的 [a-zA-Z] 也許可以反映出社會地位。

Cabin 里的 [0-9] 可能代表船艙的地理位置。

SibSp 可以算出乘客中同一家庭成員人數的大小。

title[title.isin([ Capt , Col , Major , Dr , Officer , Rev ])] = Officer deck = full[~full.Cabin.isnull()].Cabin.map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())checker = re.compile("([0-9]+)")full[ Group_num ] = full.Parch + full.SibSp + 1

在這個環節中，還有必要把類別數據變換成 dummy variable 的形式，也就是變換成向量格式，屬於第幾類就在第幾個位置上為 1，其餘位置為 0.

連續數據做一下歸一化，即把大範圍變化的數據範圍縮小至 0～1 或者－1～1 之間。

然後把不相關的變數 drop 掉。

train = pd.get_dummies(train, columns=[ Embarked , Pclass , Title , Group_size ])full[ NorFare ] = pd.Series(scaler.fit_transform(full.Fare.reshape(-1,1)).reshape(-1), index=full.index)full.drop(labels=[ PassengerId , Name , Cabin , Survived , Ticket , Fare ], axis=1, inplace=True)4. Model Building

首先就是把數據分為訓練集和測試集，用到 train_test_split，

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

因為後面會用到很多模型，所以可以把 cross validation 和 fit 的部分寫入一個函數，這樣每次把分類器投入到函數中訓練，最後返回訓練好的模型即可。

from sklearn.model_selection import GridSearchCVfrom sklearn.metrics import make_scorerfrom sklearn.metrics import accuracy_scorescoring = make_scorer(accuracy_score, greater_is_better=True)defget_model(estimator, parameters, X_train, y_train, scoring): model = GridSearchCV(estimator, param_grid=parameters, scoring=scoring) model.fit(X_train, y_train) return model.best_estimator_

以一個 KNN 為例，來看一下建立訓練並用模型預測的過程，

從 sklearn 導入分類器模型後，定義一個 KNN，

定義合適的參數集 parameters，

然後用 get_model 去訓練 KNN 模型，

接下來用訓練好的模型去預測測試集的數據，並得到 accuracy_score，

然後畫出 learning_curve。

from sklearn.neighbors import KNeighborsClassifierKNN = KNeighborsClassifier(weights= uniform )parameters = { n_neighbors :[3,4,5], p :[1,2]}clf_knn = get_model(KNN, parameters, X_train, y_train, scoring)print (accuracy_score(y_test, clf_knn.predict(X_test)))plot_learning_curve(clf_knn, KNN , X, y, cv=4);

採用上面的方式，嘗試多種模型，並列印出它們的 accuracy_score：

5. Ensemble

接下來把前面訓練好的幾個分類器用 VotingClassifier 集成起來再 fit 訓練一下，列印 accuracy_score 並畫出 learning_curve。

from sklearn.ensemble import VotingClassifierclf_vc = VotingClassifier(estimators=[( xgb1 , clf_xgb1), ( lg1 , clf_lg1), ( svc , clf_svc), ( rfc1 , clf_rfc1),( rfc2 , clf_rfc2), ( knn , clf_knn)], voting= hard , weights=[4,1,1,1,1,2])clf_vc = clf_vc.fit(X_train, y_train)print (accuracy_score(y_test, clf_vc.predict(X_test)))plot_learning_curve(clf_vc, Ensemble , X, y, cv=4);ensemble, 0.8251121076236. Prediction

用最後訓練好的 model 去預測給出的測試集文件，並把數據按照指定格式做好，存進 csv 提交即可。

defsubmission(model, fname, X): ans = pd.DataFrame(columns=[ PassengerId , Survived ]) ans.PassengerId = PassengerId ans.Survived = pd.Series(model.predict(X), index=ans.index) ans.to_csv(fname, index=False)

福利

關注 AI 研習社（okweiwu）

回復「1」立即領取

【超過 1000G 神經網路／AI／大數據、教程、論文！】

點擊展開全文

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 機器學習 的精彩文章:

※谷歌PAIR新進展：Facets開源，有助於機器學習數據分析
※GitHub上最流行的28個開源機器學習項目
※十大必須掌握的機器學習演算法，你都知道了嗎？
※基礎 | 10幅圖解釋機器學習中的基本概念
※谷歌開源機器學習可視化工具 Facets：從全新角度觀察數據

TAG:機器學習 |

您可能感興趣

※用深度學習解決Bongard問題
※通過實例學習 tcpdump 命令
※sklearn機器學習導論
※Pick 一下？Python 機器學習實用技巧
※Pick一下？Python機器學習實用技巧
※如何通過距離度量學習解決Street-to-Shop問題
※如何通過距離度量學習解決 Street-to-Shop 問題
※機器學習與Scikit Learn學習庫
※用Scratch＋IBM Watson實現機器學習
※用AI 打造遊戲，Unity 機器學習 Agent——ml-agents
※如何用gperftools分析深度學習框架的內存泄漏問題
※Python與機器學習
※運用機器學習技術，Google Flights 現在能預測航班是否會延誤
※Tomaso Poggio解析下個「AlphaGo」線索，再談「深度學習鍊金術」
※Python學習的一些路徑推薦
※學習Cornell課程，了解氣候變化
※通過這個在線免費課程，Google 想讓更多人了解 AI 和機器學習
※深度學習之解剖Hello World
※python：一句話說機器學習演算法和調參-集成學習篇
※macOS 效率進階，學習如何用 AppleScript 實現自動化