當前位置:
首頁 > 知識 > 如何用 Python 和深度神經網路發現即將流失的客戶?

如何用 Python 和深度神經網路發現即將流失的客戶?

本文作者 王樹義,本文首發於知乎專欄【玉樹芝蘭】,AI 研習社獲其授權轉載。

想不想了解如何用 Python 快速搭建深度神經網路,完成數據分類任務?本文一步步為你展示這一過程,讓你初步領略深度學習模型的強大和易用。


煩惱

作為一名數據分析師,你來到這家跨國銀行工作已經半年了。

今天上午,老闆把你叫到辦公室,面色凝重。

你心裡直打鼓,以為自己捅了什麼簍子。幸好老闆的話讓你很快打消了顧慮。

他發愁,是因為最近歐洲區的客戶流失嚴重,許多客戶都跑到了競爭對手那裡接受服務了。老闆問你該怎麼辦?

你脫口而出 「做好客戶關係管理啊!」

老闆看了你一眼,緩慢地說 「我們想知道哪些客戶最可能在近期流失」。

沒錯,在有魚的地方釣魚,才是上策。

你明白了自己的任務——通過數據鎖定即將流失的客戶。這個工作,確實是你這個數據分析師分內的事兒。

你很慶幸,這半年做了很多的數據動態採集和整理工作,使得你手頭就有一個比較完備的客戶數據集。

下面你需要做的,就是如何從數據中 「沙裡淘金」,找到那些最可能流失的客戶。

可是,該怎麼做呢?

你拿出歐洲區客戶的數據,端詳起來。

客戶主要分布在法國、德國和西班牙。

你手裡掌握的信息,包括他們的年齡、性別、信用、辦卡信息等。客戶是否已流失的信息在最後一列(Exited)。

怎麼用這些數據來判斷顧客是否會流失呢?

以你的專業素養,很容易就判斷出這是一個分類問題,屬於機器學習中的監督式學習。但是,你之前並沒有做過實際項目,該如何著手呢?

別發愁,我一步步給你演示如何用 Python 和深度神經網路(或者叫 「深度學習」)來完成這個分類任務,幫你鎖定那些即將流失的客戶。


環境

工欲善其事,必先利其器。我們先來安裝和搭建環境。

首先是安裝 Python。

請到這個網址(https://www.anaconda.com/download/)下載 Anaconda 的最新版本。

請選擇左側的 Python 3.6 版本下載安裝。

其次是新建文件夾,起名為 demo-customer-churn-ann,並且從這個鏈接(http://t.cn/R8woTN3)下載數據,放到該文件夾下。

(註:樣例數據來自於匿名化處理後的真實數據集,下載自 superdatascience 官網,https://www.superdatascience.com/。)

打開終端(或者命令行工具),進入 demo-customer-churn-ann 目錄,執行以下命令:

瀏覽器中會顯示如下界面:

點擊界面右上方的 New 按鈕,新建一個 Python 3 Notebook,起名為 customer-churn-ann。

準備工作結束,下面我們開始清理數據。


清理

首先,讀入數據清理最常用的 pandas 和 numpy 包。

從里讀入數據:

看看讀入效果如何:

這裡我們使用了函數,只顯示前 5 行。

可以看到,數據完整無誤讀入。但是並非所有的列都對我們預測用戶流失有作用。我們一一甄別一下:

RowNumber:行號,這個肯定沒用,刪除

CustomerID:用戶編號,這個是順序發放的,刪除

Surname:用戶姓名,對流失沒有影響,刪除

CreditScore:信用分數,這個很重要,保留

Geography:用戶所在國家 / 地區,這個有影響,保留

Gender:用戶性別,可能有影響,保留

Age:年齡,影響很大,年輕人更容易切換銀行,保留

Tenure:當了本銀行多少年用戶,很重要,保留

Balance:存貸款情況,很重要,保留

NumOfProducts:使用產品數量,很重要,保留

HasCrCard:是否有本行信用卡,很重要,保留

IsActiveMember:是否活躍用戶,很重要,保留

EstimatedSalary:估計收入,很重要,保留

Exited:是否已流失,這將作為我們的標籤數據

上述數據列甄別過程,就叫做 「特徵工程」(Feature Engineering),這是機器學習裡面最常用的數據預處理方法。如果我們的數據量足夠大,機器學習模型足夠複雜,是可以跳過這一步的。但是由於我們的數據只有 10000 條,還需要手動篩選特徵。

選定了特徵之後,我們來生成特徵矩陣 X,把剛才我們決定保留的特徵都寫進來。

看看特徵矩陣的前幾行:

顯示結果如下:

特徵矩陣構建準確無誤,下面我們構建目標數據 y,也就是用戶是否流失。

此時我們需要的數據基本上齊全了。但是我們發現其中有幾列數據還不符合我們的要求。

要做機器學習,只能給機器提供數值,而不能是字元串。可是看看我們的特徵矩陣:

顯然其中的 Geography 和 Gender 兩項數據都不符合要求。它們都是分類數據。我們需要做轉換,把它們變成數值。

在 Scikit-learn 工具包裡面,專門提供了方便的工具,讓我們可以方便地將類別信息變成數值。

我們需要轉換兩列,所以建立了兩個不同的 labelencoder。轉換的函數叫做。

經過轉換,此時我們再來看看特徵矩陣的樣子:

顯然,Geography 和 Gender 這兩列都從原先描述類別的字元串,變成了數字。

這樣是不是就完事大吉了呢?

不對,Gender 還好說,只有兩種取值方式,要麼是男,要麼是女。我們可以把 「是男性」 定義為 1,那麼女性就取值為 0。兩種取值只是描述類別不同,沒有歧義。

而 Geography 就不同了。因為數據集裡面可能的國家地區取值有 3 種,所以就轉換成了 0(法國)、1(德國)、2(西班牙)。問題是,這三者之間真的有序列(大小)關係嗎?

答案自然是否定的。我們其實還是打算用數值描述分類而已。但是取值有數量的序列差異,就會給機器帶來歧義。它並不清楚不同的取值只是某個國家的代碼,可能會把這種大小關係帶入模型計算,從而產生錯誤的結果。

解決這個問題,我們就需要引入。它也是 Scikit-learn 提供的一個類,可以幫助我們把類別的取值轉變為多個變數組合表示。

咱們這個數據集里,可以把 3 個國家分別用 3 個數字組合來表示。例如法國從原先的 0,變成,德國從 1 變成,而西班牙從 2 變成。

這樣,再也不會出現 0 和 1 之外的數字來描述類別,從而避免機器產生誤會,錯把類別數字當成大小來計算了。

特徵矩陣裡面,我們只需要轉換國別這一列。因為它在第 1 列的位置(從 0 開始計數),因而只填寫它的位置信息。

這時候,我們的特徵矩陣數據框就被轉換成了一個數組。注意所有被 OneHotEncoder 轉換的列會排在最前面,然後才是那些保持原樣的數據列。

我們只看轉換後的第一行:

這樣,總算轉換完畢了吧?

沒有。

因為本例中,OneHotEncoder 轉換出來的 3 列數字,實際上是不獨立的。給定其中兩列的信息,你自己都可以計算出其中的第 3 列取值。

好比說,某一行的前兩列數字是,那麼第三列肯定是 1。因為這是轉換規則決定的。3 列里只能有 1 個是 1,其餘都是 0。

如果你做過多元線性回歸,應該知道這種情況下,我們是需要去掉其中一列,才能繼續分析的。不然會落入 「虛擬變數陷阱」(dummy variable trap,http://t.cn/R8wKLB9)。

我們刪掉第 0 列,避免掉進坑裡。

再次列印第一行:

檢查完畢,現在咱們的特徵矩陣處理基本完成。

但是監督式學習,最重要的是有標籤 (label) 數據。本例中的標籤就是用戶是否流失。我們目前的標籤數據框,是這個樣子的。

它是一個行向量,我們需要把它先轉換成為列向量。你可以想像成把它 「豎過來」。

這樣在後面訓練的時候,他就可以和前面的特徵矩陣一一對應來操作計算了。

既然標籤代表了類別,我們也把它用 OneHotEncoder 轉換,這樣方便我們後面做分類學習。

此時的標籤變成兩列數據,一列代表顧客存留,一列代表顧客流失。

總體的數據已經齊全了。但是我們不能把它們都用來訓練。

這就好像老師不應該把考試題目拿來給學生做作業和練習一樣。只有考學生沒見過的題,才能區分學生是掌握了正確的解題方法,還是死記硬背了作業答案。

我們拿出 20% 的數據,放在一邊,等著用來做測試。其餘 8000 條數據用來訓練機器學習模型。

我們看看訓練集的長度:

再看看測試集的長度:

確認無誤。

是不是可以開始機器學習了?

可以,但是下面這一步也很關鍵。我們需要把數據進行標準化處理。因為原先每一列數字的取值範圍都各不相同,因此有的列方差要遠遠大於其他列。這樣對機器來說,也是很困擾的。數據的標準化處理,可以在保持列內數據多樣性的同時,盡量減少不同類別之間差異的影響,可以讓機器公平對待全部特徵。

我們調用 Scikit-learn 的類來完成這一過程。

注意,我們只對特徵矩陣做標準化,標籤是不能動的。另外訓練集和測試集需要按照統一的標準變化。所以你看,訓練集上,我們用了函數,先擬合後轉換;而在測試集上,我們直接用訓練集擬合的結果,只做轉換。

你會發現,許多列的方差比原先小得多。機器學習起來,會更加方便。

數據清理和轉換工作至此完成。


決策樹

如果讀過我的《貸還是不貸:如何用 Python 和機器學習幫你決策?》(http://t.cn/R8wKi3O)一文,你應該有一種感覺——這個問題和貸款審批決策很像啊!既然在該文中,決策樹很好使,我們繼續用決策樹不就好了?

好的,我們先測試一下經典機器學習演算法表現如何。

從 Scikit-learn 中,讀入決策樹工具。然後擬合訓練集數據。

然後,利用我們建立的決策樹模型做出預測。

列印預測結果:

這樣看不出來什麼。讓我們調用 Scikit-learn 的模塊,生成分析報告。

經檢測,決策樹在咱們的數據集上,表現得還是不錯的。總體的準確率為 0.81,召回率為 0.80,f1 分數為 0.81,已經很高了。對 10 個客戶做流失可能性判斷,它有 8 次都能判斷正確。

但是,這樣是否足夠?

我們或許可以調整決策樹的參數做優化,嘗試改進預測結果。

或者我們可以採用深度學習


深度

深度學習的使用場景,往往是因為原有的模型經典機器學習模型過於簡單,無法把握複雜數據特性。

我不準備給你講一堆數學公式,咱們動手做個實驗。

請你打開這個網址(http://t.cn/R8wK0R0)。

你會看到如下圖所示的深度學習遊樂場:

右側的圖形,裡面是藍色數據,外圈是黃色數據。你的任務就是要用模型分類兩種不同數據。

你說那還不容易?我一眼就看出來了。

你看出來沒有用。通過你的設置,讓機器也能正確區分,才算數。

圖中你看到許多加減號。咱們就通過操縱它們來玩兒一玩兒模型。

首先,點圖中部上方的 "2 HIDDEN LAYERS" 左側減號,把中間隱藏層數降低為 1。

然後,點擊 "2 neurons" 上面的減號,把神經元數量減少為 1。

把頁面上方的 Activation 函數下拉框打開,選擇 「Sigmoid」。

現在的模型,其實就是經典的邏輯回歸(Logistic Regression)。

點擊左上方的運行按鈕,我們看看執行效果。

由於模型過於簡單,所以機器絞盡腦汁,試圖用一條直線切分二維平面上的兩類節點。

損失 (loss) 居高不下。訓練集和測試集損失都在 0.4 左右,顯然不符合我們的分類需求。

下面我們試試增加層數和神經元數量。這次點擊加號,把隱藏層數加回到 2,兩層神經元數量都取 2。

再次點擊運行。

經過一段時間,結果穩定了下來,你發現這次電腦用了兩條線,把平面切分成了 3 部分。

測試集損失下降到了 0.25 左右,而訓練集損失更是降低到了 0.2 以下。

模型複雜了,效果似乎更好一些。

再接再厲,我們把第一個隱藏層的神經元數量增加為 4 看看。

點擊運行,不一會兒有趣的事情就發生了。

機器用一條近乎完美的曲線把平面分成了內外兩個部分。測試集和訓練集損失都極速下降,訓練集損失甚至接近於 0。

這告訴我們,許多時候模型過於簡單帶來的問題,可以通過加深隱藏層次、增加神經元的方法提升模型複雜度,加以改進。

目前流行的劃分方法,是用隱藏層的數量多少來區分是否 「深度」。當神經網路中隱藏層數量達到 3 層以上時,就被稱為 「深度神經網路」,或者 「深度學習」。

久聞大名的深度學習,原來就是這麼簡單。

如果有時間的話,建議你自己在這個遊樂場里多動手玩兒一玩兒。你會很快對神經網路和深度學習有個感性認識。


框架

遊樂場背後使用的引擎,就是 Google 的深度學習框架 Tensorflow。

所謂框架,就是別人幫你構造好的基礎軟體應用。你可以通過調用它們,避免自己重複發明輪子,大幅度節省時間,提升效率。

支持 Python 語言的深度學習的框架有很多,除了 Tensorflow 外,還有 PyTorch, Theano 和 MXNet 等。

我給你的建議是,找到一個你喜歡的軟體包,深入學習使用,不斷實踐來提升自己的技能。千萬不要跟別人爭論哪個深度學習框架更好。一來蘿蔔白菜各有所愛,每個人都有自己的偏好;二來深度學習的江湖水很深,言多有失。說錯了話,別的門派可能會不高興喲。

我比較喜歡 Tensorflow。但是 Tensorflow 本身是個底層庫。雖然隨著版本的更迭,界面越來越易用。但是對初學者來說,許多細節依然有些過於瑣碎,不容易掌握。

初學者的耐心有限,挫折過多容易放棄。

幸好,還有幾個高度抽象框架,是建立在 Tensorflow 之上的。如果你的任務是應用現成的深度學習模型,那麼這些框架會給你帶來非常大的便利。

這些框架包括 Keras, TensorLayer 等。咱們今天將要使用的,叫做 TFlearn。

它的特點,就是長得很像 Scikit-learn。這樣如果你熟悉經典機器學習模型,學起來會特別輕鬆省力。


實戰

閑話就說這麼多,下面咱們繼續寫代碼吧。

寫代碼之前,請回到終端下,運行以下命令,安裝幾個軟體包:

執行完畢後,回到 Notebook 里。

我們呼叫 tflearn 框架。

然後,我們開始搭積木一樣,搭神經網路層。

首先是輸入層。

注意這裡的寫法,因為我們輸入的數據,是特徵矩陣。而經過我們處理後,特徵矩陣現在有 11 列,因此 shape 的第二項寫 11。

shape 的第一項,None,指的是我們要輸入的特徵矩陣行數。因為我們現在是搭建模型,後面特徵矩陣有可能一次輸入,有可能分成組塊輸入,長度可大可小,無法事先確定。所以這裡填 None。tflearn 會在我們實際執行訓練的時候,自己讀入特徵矩陣的尺寸,來處理這個數值。

下面我們搭建隱藏層。這裡我們要使用深度學習,搭建 3 層。

activation 剛才在深度學習遊樂場裡面我們遇到過,代表激活函數。如果沒有它,所有的輸入輸出都是線性關係。

Relu 函數是激活函數的一種。它大概長這個樣子。

如果你想了解激活函數的更多知識,請參考後文的學習資源部分。

隱藏層里,每一層我們都設置了 6 個神經元。其實至今為之,也不存在最優神經元數量的計算公式。工程界的一種做法,是把輸入層的神經元數量,加上輸出層神經元數量,除以 2 取整。咱們這裡就是用的這種方法,得出 6 個。

搭好了 3 個中間隱藏層,下面我們來搭建輸出層。

這裡我們用兩個神經元做輸出,並且說明使用回歸方法。輸出層選用的激活函數為 softmax。處理分類任務的時候,softmax 比較合適。它會告訴我們每一類的可能性,其中數值最高的,可以作為我們的分類結果。

積木搭完了,下面我們告訴 TFlearn,以剛剛搭建的結構,生成模型。

有了模型,我們就可以使用擬合功能了。你看是不是跟 Scikit-learn 的使用方法很相似呢?

注意這裡多了幾個參數,我們來解釋一下。

:數據訓練幾個輪次。

:每一次輸入給模型的數據行數。

:訓練過程中要不要列印結果。

以下就是電腦輸出的最終訓練結果。其實中間運行過程看著更激動人心,你自己試一下就知道了。

我們看到訓練集的損失 (loss) 大概為 0.4 左右。

打開終端,我們輸入

然後在瀏覽器里輸入

可以看到如下界面:

這是模型訓練過程的可視化圖形,可以看到準確度的攀升和損失降低的曲線。

打開 GRAPHS 標籤頁,我們可以查看神經網路的結構圖形。

我們搭積木的過程,在此處一目了然。


評估

訓練好了模型,我們來嘗試做個預測吧。

看看測試集的特徵矩陣第一行。

我們就用它來預測一下分類結果。

列印出來看看:

我們看看實際標籤數據:

客戶果然沒有流失。這個預測是對的。

但是一個數據的預測正確與否,是無法說明問題的。我們下面跑整個測試集,並且使用 evaluate 函數評價模型。

在測試集上,準確性達到 84.15%,好樣的!

希望在你的努力下,機器做出的準確判斷可以幫助銀行有效鎖定可能流失的客戶,降低客戶的流失率,繼續日進斗金。


說明

你可能覺得,深度學習也沒有什麼厲害的嘛。原先的決策樹演算法,那麼簡單就能實現,也可以達到 80% 以上的準確度。寫了這麼多語句,深度學習結果也無非只提升了幾個百分點而已。

首先,準確度達到某種高度後,提升是不容易的。這就好像學生考試,從不及格到及格,付出的努力並不需要很高;從 95 分提升到 100,卻是許多人一輩子也沒有完成的目標。

其次,在某些領域裡,1% 的提升意味著以百萬美元計的利潤,或者幾千個人的生命因此得到拯救。

第三,深度學習的崛起,是因為大數據的環境。在許多情況下,數據越多,深度學習的優勢就越明顯。本例中只有 10000 條記錄,與 「大數據」 的規模還相去甚遠。


學習資源

如果你對深度學習感興趣,推薦以下學習資源。

首先是教材。

第一本是 Deep Learning(http://t.cn/R8w9frZ),絕對的經典。

第二本是 Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems(http://t.cn/R8w9Xcz),深入淺出,通俗易懂。

其次是 MOOC。

推薦吳恩達 (Andrew Ng) 教授在 Coursera 上的兩門課程。

一門是機器學習。這課推出有年頭了,但是非常有趣和實用。具體的介紹請參考拙作《機器學習哪裡有這麼玄?》(http://t.cn/R8w99RP)以及《如何用 MOOC 組合掌握機器學習?》。

一門是深度學習。這是個系列課程,包括 5 門子課程。今年推出的新課,自成體系,但是最好有前面那門課程作為基礎。


討論

你對深度學習感興趣嗎?之前有沒有做過深度學習項目?你掌握了哪些深度學習框架?有沒有什麼建議給初學者?歡迎留言,把心得分享給大家,我們一起交流討論。

如果本文可能對你身邊的親友有幫助,也歡迎你把本文通過微博或朋友圈分享給他們。讓他們一起參與到我們的討論中來。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 AI研習社 的精彩文章:

AI科技評論年度巨獻,五大特輯連接學術&產業

TAG:AI研習社 |