當前位置:
首頁 > 最新 > 主成分分析/因子分析/判別分析,見過的最通俗易懂的解釋

主成分分析/因子分析/判別分析,見過的最通俗易懂的解釋

這裡是三篇文章的集結,可以一篇一篇的看。

《一、主成分分析》

大家好,我是媛子。

在統計裡面,還有一個很好很強大的體系,叫做多元統計分析。所以媛子準備來跟大家系統地扒一扒「數據江湖之多元劍法」。不過,我們這裡只會講到問題的理解和結果的解讀層面,想進一步知道具體的模型設定、數學表達、方法推導、軟體實現的技術黨同學,請移步到書店找一本多元統計的教材來啃一啃,或者來修一學期媛子的多元統計課程。

因為,其實媛子在教課中發現,在一切交給電腦的今天,對於一種已經成型的方法,「怎麼用」通常不是問題,用個軟體點點點或者編幾行程序就呼呼呼地跑出結果了,大家的問題一般都出在「什麼時候用」和「用完了,然後呢」, 所以我們這個系列主要就集中在討論這兩件事情上面。

那寫下多元劍法第一招的靈感來自於下面這些我們第二期熊學院的熊孩子微信群裡面的對話:

熊小姐

求助求助,現在有某個班的學生各科成績,怎麼建模去分析學生的綜合表現?可不可以用平均成績做因變數,然後用各科成績做自變數進行回歸呢?

熊先生

你等會兒,平均成績不是各科成績求平均算出來的嗎?用自變數計算因變數,再用算出來的因變數對自變數做回歸,這是神馬邏輯呀?

熊小姐

也是,可是別人委託的時候反正就說「我就這些數據,你一定要幫我搞出個模型來。」咋辦呢?

熊大

我最恨為了建模而建模啦。你一定要先清晰地定義你的業務問題。你到底是在關心什麼?用成績解釋成績,這就成漿糊了。

熊媛子

我教多元統計的時候,其實用過這種各科成績的例子,它可以用來做主成分分析。

熊先生

主成分分析應該就是揭示影響若干變數的共同因素吧。

熊媛子

不好意思你說的其實是因子分析。

熊小姐

主成分分析和因子分析到底有啥差別呢?貌似因子分析的方法之一就是主成分?不過既然這樣,那為啥參考書上要把他們分成兩章來介紹呢?而且說因子分析是主成分分析演變而來的?還有,為啥說主成分不能旋轉,因子就可以旋轉呢?

熊先生

同問!同問!

熊小姐2號

同問!

熊先生2號

同問!

……

所以,我們今天就不防就著熊小姐的這個「各科成績」的例子,先來捋一捋「主成分分析」到底是個什麼鬼。至於它跟因子分析的差別,要先搞清楚因子分析又到底是個什麼鬼才能討論,所以且聽媛子下回分解這個差別的部分。

在開始之前呢,媛子還是要再強調一下熊大老師一直在強調的,做統計分析之前呢,一定一定要先清楚你的業務目的!業務目的!業務目的!重要的事情說三遍!

假設你現在是一名班主任,對著以下這種我們從小恨到大的成績單發獃。(數據來源見[4])

那作為班主任,針對這種成績單的業務目的,就是怎麼樣科學地利用以上這些各科的成績的信息來區分你班上學生的表現。當然你的視力和耐心足夠好的話,你可以一科一科的成績單單獨去比對,但這實在是使出洪荒之力也然並卵呀。

那通常我們都怎麼做呢?求平均。也就是把各科成績加起來除以科目總數,或者說求總分也是等價的。沒錯,這是一個比較合理的方法。但是媛子給你打個比方,如果有一個很奇葩的班級培養出一堆很奇葩的學生,他們的平均分都一樣,只是有的偏科嚴重,有的發展比較均衡,那這個班的學生單靠平均分就區分不開了,對吧?

所以,如果你是一名班主任,想通過成績區分一下你班上學生的表現的話,可能針對你這個班級,會有比平均分更好的指標,或者會有不止平均分這一個指標在等著你哦。

這個就是主成分分析(Principal Component Analysis,PCA)在做的事情。找到原始變數的線性組合,也就是所謂的主成分,使得組合後得到變數的方差最大化。被媛子繞暈了是嗎?翻譯成人話就是:找到最科學的一種或幾種綜合成績的計算方式,使得這樣計算出來的綜合得分能夠最大程度地區分這一撥學生。這裡有幾個注意的點:

1

我們所用的計算成績組合的方法都是線性的,什麼叫線性?就是說不會出現像語文成績的平方、或者數學成績的倒數這些幺蛾子。其實本質上我們還是在做一種各科成績的平均,但這是加權平均,並且允許有些權重可以是負數。從這些權重中我們可以看出哪些學科對於區分這一撥學生的影響比較大,並且是怎麼影響的。

2

我們可能用不止一個指標去刻畫學生的表現。而這些指標會根據重要程度來排序,這個重要程度具體來講就是區分學生的能力。後面在結果的解讀的部分我們會進一步說明。

3

在整個過程中,我們只有一堆地位一樣的變數,沒有所謂的自變數和因變數,所以主成分分析不屬於回歸分析的範疇。

好了,大家應該已經清楚主成分分析是用來幹嘛的了,或者說我們什麼時候該用主成分分析。接下來就是噼里啪啦一頓編程實現,得到了幾個你想要的綜合得分,也就是主成分(Principal Components),那麼下一步就是怎樣解讀這些指標呢?這就又回到了業務層面。我們需要做的是,結合業務知識,盡情地開腦洞,然後再看看我們的這些解讀跟常識現象是否相符,還有沒有什麼新的發現。

這裡,我們假設最後我們通過軟體得到了如下的兩個指標,也就是主成分,也就是綜合得分的計算方式,來刻畫這個班的學生成績:

那現在問題來了,怎麼理解這兩個指標呢?

指標2很好理解,基本就是我們通常見到的求平均,前面的係數只有輕微的不同,所以它可以用來刻畫學生各科成績的均衡表現。那麼指標1呢?指標1裡面,所有偏文科類課程成績的係數為正,偏理科的係數為負,而係數值的大小差不多。這樣算出來的是什麼?基本上可以理解成是學生文科成績平均分減去理科成績平均分,也就是說,指標1刻畫的是學生文理科成績的差別,或者說是學生的偏科情況。

好,我們知道了這兩個指標大體上是什麼意思,那它們能用來做什麼呢?媛子總結了一下,它們可以用來做以下的三件事情:

1

它可以降低整個數據集的複雜程度,給你省事兒啊。看全班學生的六科成績多費眼費時間呀,現在只給你了兩個指標,而且我告訴你不怎麼丟失重要的信息就能夠達到你的業務目的,那你這個班主任何樂而不為呀?這就是用主成分分析做降維的基本思想。那至於為什麼只有兩個指標就夠了,而不是三個四個或者只有一個呢?是因為針對這組數據,通過計算,這兩個指標區分學生的能力(也就是說刻畫數據差異性的能力)已經佔到了原來六門課能夠做到的80%了,我們就覺得足夠滿意了。當然,隔壁老王班也許需要一個或者三個指標,誰知道呢,對吧?

2

我們可以用它們考量每一位學生的表現。我們傳統的成績單是對每一個學生簡單粗暴的給一個平均分或者總分。這就是上面的指標2。它的得分越高,說明該學生的均衡表現越好。那現在的成績單上又多了一項得分可正可負的指標1。如果該學生該指標的得分是個很大的正數,說明什麼?說明他文科比理科好得多,嚴重偏文科。反之,如果他的指標1是一個絕對值很大的負數,說明他嚴重偏理科。所以指標1就是學生的偏科表現,絕對值越大,偏科越嚴重。那你可能會問了,那如果指標1得分接近於0呢?那就說明他文理科成績差不多唄,可能是個全面發展的學神或者學霸,當然也可能是每一科都差得非常均勻的學酥或學渣。

所以通過看以上的兩個綜合指標,我們可以找出一些典型的學生,比如說指標1很高,指標2也很高,這就說明該學生是個文科學神級人物;那如果指標1很高但指標2卻很低,這就說明該學生偏科文科太嚴重,理科拖後腿,拉低平均成績啊;那如果指標1(絕對值)很低,指標2很高呢?就說明這是一個兩手抓,兩手都要硬的好寶寶,對吧?以此類推。

3

我們可以用它們來刻畫班級整體的表現。我們之前提到過,這些指標是按照能夠反映這撥學生差異性的能力來排序的。那麼通過這兩個指標,就可以知道這個班成績的主要特徵。這裡指標1排在前面,說明它比指標2,也就是簡單地求平均更能刻畫這撥學生成績的差異性。也就是說,這是一個偏科比較嚴重的班級,有的學生文科比理科好很多,有的學生反之。而且通過學生的指標1得分還能看出到底有多少學生文科比較好,到底有多少學生理科比較有優勢。當然也許換一個班,這些綜合指標的構造就完全不同了,沒準兒隔壁老王班上的學生成績的差異完全由這個數學成績主導呢。

好了,我們來總結一下今天的內容:當我們有很多個變數,又想找出一種或幾種綜合指標去很好地刻畫數據的差異性的時候,主成分分析就該出馬了。那這些綜合指標怎麼構造呢?是通過原來變數的加權平均,或者說線性組合來構造的。

得到這些指標後,它們有什麼用呢?我們可以在不丟失重要信息的前提下盡量地簡化數據集,還可以從一種全面綜合的視角來審視整個數據集,或者說我們可以去考量每一個個體的表現。

當然,不光對班主任有用,主成分分析在其他的各個領域也都有著非常直觀的應用。比如說對工業界的各個行業的各種經濟效益指標進行綜合評價,比如說根據人們身體的某些測量變數(像身高、體重、三圍,還有其他的各種什麼圍之類的)得出一些刻畫人身材的綜合指標等等等等。

《二、因子分析》

大家好,我是媛子。今天準備跟大家分享「多元劍法」之「因子分析」。

當然啦,因子分析,在我們的工作生活中,其實無處不在,應用非常廣泛,媛子過會兒會再給大家舉幾個除了這個例子之外,其他典型的因子分析的應用案例。

對於完全不了解因子分析的朋友,讓媛子先給你科普一下哈。我們通常所說的因子分析(Factor analysis)嚴格意義上來講叫做探索性因子分析法(Exploratory Factor Analysis,EFA),起源於1904年。當時,英國的心理學家Charles Spearman研究了33名學生在古典語、法語和英語三門成績的表現,發現這三門課的表現其實是密切相關的,用統計的語言來說就是它們兩兩之間的相關係數都很高:(大家可以參看如下的相關係數矩陣哈)

這聽起來是很合理的吧?那麼它們為什麼會密切相關呢?我們是不是可以理解成,其實這三門課的成績背後都是由一個共同的因素——也許可以叫做「語言能力」——來決定的呢?

基於這個想法,Spearman就提出了一個「單因子模型」(Single-factor model),他認為,很多關聯性很高的變數背後都由一個共同因子(Common factor)驅動,這種驅動關係,是由這些變數的相關性決定的。當然啦,每個變數也都有自己獨特的地方,不能被這個公共因子所刻畫,這部分就叫做特殊因子(Specific factor)。在我們的例子中,這三門語言課的成績,就可以表示成:

其中,係數a1,a2,a3,就是 「語言能力」這個公共因子對三科成績分別的解釋力,它們有個高大上的名字,叫做因子載荷(Factor loading),統計上,其實就是該因子和相應變數之間的相關性。

這裡需要注意的是,我們找到的公共因子,比如說這裡的語言能力,通常都是潛變數(latent variable),也就是說它是觀測不到的。這在心理學、社會學、語言學、經濟學等等領域,非常常見,比如智力、社會階層、滿意度、理解力等等等等,都是我們很可能感興趣的,卻無法通過測量直接得到的變數。而我們能夠觀測到的,是一些可能由它們驅動的調查問卷的答案、各種測試的成績等等。所以,因子分析在以上這些領域有著尤為廣泛的應用。

以上,就是因子分析的雛形了。但是很顯然,大多數時候一個公共因子是不夠的,錯綜複雜的變數可能需要多個公共因子來刻畫才行。這就是市面上的因子分析,通常所考慮的模型——多因子模型(Multiple-factor model)。

現在,我們就回到上一招「主成分分析」時用到的如下這種六門課成績單的例子哈。(數據來源見[4])

希望大家還記得,主成分分析在這裡是用來找所謂的「綜合評價指數」來最大程度區分學生的表現的。每個評價指數,都是由這六門課的成績做線性組合計算得來的。最終我們得到了兩個主要的綜合指標:文理科差異指標和各科的均衡指標。我們這裡的「文理科」的劃分,是把數學、物理、化學作為理科,把語文、歷史、英語作為文科。但是,有沒有人想過這是為什麼呢?

有的同學可能會說了哈,你這有啥可想的呢?這不是從遠古時代就流傳下來的常識了嘛。那媛子想說的是,現在這個所謂的大數據時代能帶來的價值,有很重要的一方面,就是可以讓我們重新審視老祖宗給我們留下的東西,看看這些東西能不能從數據中反映出來?如果可以,能不能將其量化,來更好地理解這個世界以及預測未來。某種程度上,因子分析,就可以做這件事情,驗證常識並將其量化,或者在常識的基礎上發現新的現象。

如果我們去看一下這六門課的兩兩相關係數哈,我們就會發現,數學、物理、化學這三門課成績之間非常相關,而語文、歷史、英語彼此也很相關。而這兩組學科跨組的相關性就沒有這麼高了。所以,我們直覺上就會覺得,這六門課的成績會不會是由兩個公共因子驅動的,其中一個主要解釋前三門,另一個主要解釋後三門呢?有此想法,我們就可以建立如下這種「有兩個公共因子存在」的多因子模型:

當然啦,這一堆的a和b,就是我們要統計軟體去估計的係數了,也就是所謂的因子載荷。這裡有必要提一下因子分析的奇葩之處哈:由於這些公共因子,他本來就是我們想像出來的虛幻的東東,它們的值,就不是唯一確定的,而導致這些係數的估計也就不是唯一的了,數學上呢,我們就稱它為可旋轉的。這樣,我們其實就可以找到很多組關於a和b的估計值。那麼到底應該用哪一組進行隨後的分析呢?或者說所謂旋轉,要旋轉到一個什麼程度最好呢?——答案就是找最符合常識最好解釋的一組。至於怎麼找?客官自己不用操心,統計軟體幫您找。

經過一頓噼里啪啦的編程實現,媛子得到了如下這組旋轉後的係數(即因子載荷)的估計:

大家還記得剛剛提到的這些係數所表示的意義嗎?——它們刻畫了該因子對於每個變數的解釋力的大小。所以你看,第一個因子對語文、歷史、英語的解釋力很高,而對數學、物理、化學就沒這麼重要,第二個因子反之。怎麼樣?是不是跟我們老祖宗對這個文理科的劃分不謀而合了?所以,因子分析,得出的這兩個公共因子我們就可以把它們取名叫做「文科因子」和「理科因子」。

好的,你可以說它是常識。但是,我們這裡可以將常識量化。比如說,你看,對數學和語文這兩門課來說,雖然數學主要由理科因子解釋,但文科因子也有0.387的解釋力(也就是說相關性哈),而語文呢?理科因子照樣有一部分的解釋力(0.343)。這樣看來呢,前人們把這兩門課選作我們從小到大都逃不掉的主課,還真的是有理可依呢。

相比之下,物理和化學就屬於跟文科基本不搭邊的特別理的理科了……

有了這兩個公共因子之後,我們就可以繼續通過噼里啪啦的編程來計算每一個學生的「因子得分」(Factor score)。也就是說,通過這六門課的成績,算出每個學生文科因子和理科因子的某種得分,來看他們每個人在文科和理科分別的表現。至於因子得分如何計算,我們也有很多的統計方法可以使用,媛子在這兒就不細講了,感興趣的同學可以去讀教材哈。

講到這兒,大家應該至少清楚因子分析是幹嘛的了——通過變數之間的相關關係找到幾個基本能刻畫這些變數的共同的因素,從而,對這些變數有更加深刻的理解。當然了,它遠不止可以用來分析成績,為了讓大家對因子分析的廣泛應用有更直觀的感覺,媛子再給大家舉幾個例子哈:

例1:大家應該還記得前段時間狗熊會的水媽推出的精品案例「英超進球誰最強」,對吧?裡面收集了一大堆關於英超球員的變數,而他們經過因子分析之後可以基本被三個公共因子刻畫。資深球迷為其取名叫做進攻因子、防守中場因子和防守後衛因子。這三個因子對每一個變數的解釋力,可以用如下的這種因子載荷矩陣來表示:

除此之外,我們還可以計算每個球員在這三個公共因子上面分別的得分,進而找出在每個因子上面有優勢的球員。

例2:如果你是一個企業的HR,負責招聘一批銷售人員,那麼你可能需要通過面試、筆試、問卷等形式對每位應聘者進行一系列的考核,會有一大堆的結果。那麼怎麼利用這些看似雜亂無章的考核結果衡量應聘者在各個方面的水平呢?這就需要因子分析出馬了!比如說,因子分析找到了在這些考核結果背後的三個公共因子:專業能力、社交能力、從業經驗。那麼我們就能從這三個方面很清晰地考察每個應聘者的優勢和劣勢,從而為招聘提供借鑒。

例3:在企業形象或者品牌形象的調查中,消費者通過一個有30個問題的調查問卷構成的評價體系來評價一堆商場的這30個方面的表現。但是通過因子分析,這些指標其實可以用三個公共因子來刻畫:商店環境、商店服務和商品綜合價位。其實,我們不難想到,消費者主要關心的也就這三個方面,但我們很難去量化它,所以很難直接去評價。然而通過一些具體的測量指標,結合因子分析,再去刻畫它們已經不再是夢啦。

講到現在,大家對因子分析是個啥已經基本清晰了吧?那麼對於主成分分析和因子分析的不同,也該有個大概的感覺了吧?這裡,媛子總結了如下幾點區別,歡迎大家討論補充或者指正哈:

區別1因子分析,通常指是一種模型,這種模型在大千世界中其實無處不在;而主成分分析不涉及模型,是一種單純刻畫該組數據差異性的統計方法。這裡補個技術流的說明哈:之所以那麼多人把主成分分析和因子分析搞混,還有一個原因是,就是因子分析模型的係數估計方法,其中有一種叫做「主成分法」(Principal component method)。為什麼叫這麼一個no zuo no die的名字呢?因為它是用跟主成分分析(Principal component analysis)很類似的譜分解的方法來計算因子載荷的。所以,如果我們說「主成分法」,一般是指因子分析模型中的估計方法的一種;如果我們說「主成分分析」,通常是指上一講中的一種單獨的分析方法。真是繞死人不償命啊!有沒有!

區別2主成分分析,只關心數據的差異性,也就是方差;而因子分析的出發點在刻畫變數之間的相關性,或者協方差。有些教材,把因子分析直接解釋為「按照變數之間相關性的大小分組,每組由一個公共因子驅動」。雖然媛子認為,這種說法不是特別準確,卻可以幫助我們理解因子分析的直觀含義。

區別3:主成分分析旨在找到一種或者幾種綜合指標,這每一個指標都會被表示成原始變數的線性組合;而因子分析是反的,它是將原始變數近似的表示成公共因子的線性組合

區別4:主成分的構造方法呢是唯一的;而因子分析中的估計卻不唯一,它可以通過旋轉,找到一種最合乎常識的因子載荷,來進行下一步的解釋。

《三、判別分析》

媛子有個兩歲的女兒,叫小橙子。在橙子一歲的時候,我發現她可以準確地說出馬路上見到的小動物,這只是小貓,那只是小狗。但是其實爸爸媽媽只是陪她看過卡通片或者繪本上面的小動物,告訴他這裡面哪些是小貓,哪些是小狗,她並沒有見過現實中的貓貓狗狗。那麼小孩子為什麼會有這種能力,可以從看過的卡通片裡面的小動物中,學習到小貓和小狗的區別,並準確將一隻從未見過的小動物歸類到「小貓」或「小狗」的行列呢?

再比如,當一個人向銀行貸款買房買車的時候,作為銀行的借貸員,你需要根據這個人的個人信息、貸款記錄等歷史數據判斷這個人的還款能力。簡單來說,你需要通過以上信息將這個人歸為「可以按時還款,非違約」和「不能按時還款,違約」這兩組中的一組。那麼如何能盡量準確地分組呢?

又或者,醫生在診斷重大疾病的時候,通常都有一堆的指標作為參考。他們會根據這些指標對病人疾病的所屬類別進行一個判斷,然後對症治療。那麼如果從數據本身出發,怎樣從過去病人的歷史數據中總結規律,從而對新病人的病情判斷進行指導呢?

上述的這些例子背後所遵從的數據分析的原理其實都是相通的——我們分兩步解決這些問題:首先需要有一些「前人的經驗」,即歷史數據,在這些數據中清晰地知道每個個體所屬的類別。所以,這第一步就是從這些信息中,總結出各個類別彼此之間的差異,找到區別各個類別最有效的「分類規則」;第二步就是對於一個新來的個體,雖然並不事先知道它是屬於哪個類別的,但是可以根據第一步找到的「分類規則」,將這個個體分類到所有類別中的某一個。這兩個步驟中的第一步,在多元分析裡面,就稱之為「判別分析」(discriminant analysis),而第二步,就是「分類」(classification)。判別分析是描述性的,而分類分析是推斷性的。當然,這二者並不是可以嚴格割離的,因為判別分析的主要目的就是進一步進行分類,而分類分析通常都要有判別分析的結果做基礎。我們這一次就先討論第一步,判別分析。

需要注意的是,這裡我們明確地知道在歷史數據中,每個個體分別屬於哪一個類別(橙子在她看過的卡通片里,是知道哪些是小貓,哪些是小狗的)。而對於每一個新個體而言,它也有一個明確的類別屬性,只是我們暫時並不知道,因此需要用已有的信息去推斷。這就好像有個無所不知的「上帝」在監督著的分類,所以習慣上把這種分類分析稱為「監督式學習」(Supervised learning)。之後我們還會講到沒有上帝監督的情況,叫做「無監督式學習」(Unsupervised learning),例如聚類分析。

判別分析的基本思想和Fisher線性判別法則

我們剛剛提到了,判別分析是指,從歷史數據中總結各個類別的規律,建立「分類規則」。橙子看到的卡通片或者繪本裡面的小動物,就是她所收集到的「歷史數據」。當她看到很多隻小貓小狗之後,就會無形之中總結出一種規律。比如,耳朵大的通常是狗;個頭很大的通常也是狗;體毛較長的多是小狗;尾巴細長的更多的是小貓……這些信息便構成了一組多元數據,包括「耳朵大小」、「個頭大小」、「體毛長度」、「尾巴特徵」等變數。

如果按一元數據的處理思想,只將裡面的某一個變數單獨挑出來,比如「耳朵大小」,用它來區分貓和狗,這顯然不是一種明智的選擇,畢竟有很多狗的耳朵也像貓一樣小。所以,其實橙子腦海中默認的方式是,把這些變數綜合考慮,得到一個「綜合指標」來刻畫貓與狗的不同。

比如在天氣預報中,根據經驗,今天和昨天的濕溫差和氣溫差是關於預測明天下雨或不下雨的兩個重要因素。那麼如何利用這兩個因素來得到晴天和雨天的費歇爾線性判別法則,並用它來進行以後天氣的預報呢?(當然,這個例子只是用來展示判別分析的方法,如果真的用它來做天氣預報肯定是圖樣圖森破了)

現在假設有如下10天的歷史數據可供使用:(數據來源見[4])

其中x1和x2分別是該樣本點獲得時前兩天的濕溫差及氣溫差,而該樣本點收集當天是否下雨決定了它屬於第1類(雨天組)還是第2類(非雨天組)。將這組多元數據畫成下面這種散點圖,並標明每個點來自的組別:

從圖中可以看出,無論單獨使用濕溫差x1(也就是只考慮上述散點的橫坐標的值)還是氣溫差x2(只考慮縱坐標),都無法將下雨組和不下雨組很好地分離開。但如果仔細觀察這些散點,就會發現其實可以用一條直線將兩組較好地分開(比如下圖中紅線所示),其中雨天(第1類)基本集中在紅線之下,而非雨天(第2類)反之:

當然,我們無法做到完美,總是有一些點(比如上圖中藍色圈內的點)無法被準確地分到它本該屬於的組別——橙子在辨認小貓小狗的時候還是有可能出錯。但我們所能夠做到的就是,找到的一個規則,使得用它分辨錯誤的概率在所有類似的分類規則中最小,或者說使得兩組數據在這個規則下分離得最開。

那麼怎樣找到這個規則呢?

由於我們的目標是用一條分割線將兩組數據盡量分得越開越好,用幾何圖形表示就是在如下這條與分割線垂直的方向(下圖紫色直線)上,兩組數據在該方向上的投影分離得越開越好:

所以,Fisher判別法則給出的結果其實並不是分割線本身(圖中紅色直線),而是跟它垂直的投影線(圖中紫色直線)。而由於這裡所使用的判別法則是線性的,所以對應的分割線和投影線均為直線,而不是曲線或其他圖形。學過幾何的朋友應該知道,在坐標系中的直線可以表示為橫縱坐標的線性函數ax1+bx2的形式。所以,這裡的任務就是尋找針對投影線的係數估計a和b。在這個例子中,根據軟體求得的a和b分別為a=-0.104, b=0.225。也就是說,可以根據濕溫差和氣溫差的線性組合建立一個新的綜合指標:-0.104*濕溫差+0.225*氣溫差,用這個指標就可以將下雨組和不下雨組很好地分離開來。確定了這個新的指標,即紫色投影線之後,紅色分割線的方向也一目了然了——就是與投影線垂直的方向。

對於橙子而言,根據費歇爾判別法則來區分貓和狗,就是應用耳朵大小、個頭大小、體毛長度等變數的線性組合來作為她的規則。當然,判別法則不只有費歇爾線性法則一種,例如還可以用曲線來作為判別函數。在這裡就不再涉及細節。

判別分析顯然不只可以用到分辨小動物和天氣預報中,在商業領域有更加廣泛的應用。例如徵信分析,在大數據時代下數據導向的互聯網徵信領域,當需要判斷某客戶的貸款審批是否予以通過時,所參考的歷史數據中將會包含歷史借款人的諸多信息——用戶自填數據(年齡、職業、收入、婚姻狀況、信用卡張數等),用戶行為數據(刷卡詳單、刷卡商戶分布、月消費等),甚至還會有跨平台的數據(招聘網站的簡曆數據等):

同時,歷史借款人是否按時還款是有記錄的,因此可以根據歷史數據找到基於以上變數的Fisher判別法則,用一個或幾個原始變數的線性函數,將「未違約組」和「違約組」充分分離。

判別分析還可應用於其他商業領域,例如市場營銷中新用戶、流失用戶和忠實用戶的分離;消費者對不同競爭品牌的不同屬性偏好;市場細分等。當然,判別分析只是用來找尋規則的,還屬於描述性分析範疇,至於一個新來的個體到底屬於哪個類別,還需要推斷性的分類分析來告訴你。那就且聽下回分解吧。

>>>>參考文獻:

[1] Richard A. Johson and Dean W. Wichern. 「Applied Multivariate Statistical Analysis」.

[2] Alvin C. Rencher and William F. Christensen. 「Methods of Multivariate Analysis」.

[3] Brian Everitt and Torsten Hothorn. 「An Introduction to Applied Multivariate Analysis with R」.

[4] 王斌會 《多元統計分析及R語言建模》

媛子簡介

畢業於美國賓夕法尼亞州立大學統計系的博士小海龜一隻;

就職於廈門大學經濟學院統計系、王亞南經濟研究院的小青椒一個;

學術方面關注高維數據的統計模型和方法、網路數據和圖模型、統計基因學等;

實踐方面關注統計諮詢,想讓更多的人認識統計了解統計會用統計。

文章來源:狗熊會,已經獲得授權。

《END》


點擊展開全文

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 計量經濟學圈 的精彩文章:

什麼是VaR?VaR計算的風險度量制和計量經濟方法
豪斯曼,拉姆齊檢驗,過度擬合,弱工具和過度識別,模型選擇和重抽樣問題
把動態面板命令講清楚了,對Stata的ado詳盡解釋
IV和GMM相關估計步驟,內生性、異方差性等檢驗方法
Stata應用高級教程資料分享,它值得你的擁有

TAG:計量經濟學圈 |