主成分分析原理詳解

知識 09-29

一、PCA簡介1.相關背景上完陳恩紅老師的《機器學習與知識發現》和季海波老師的《矩陣代數》兩門課之後，頗有體會。最近在做主成分分析和奇異值分解方面的項目，所以記錄一下心得體會。在許多領域的研究與應用中，往往需要對反映事物的多個變數進行大量的觀測，收集大量數據以便進行分析尋找規律。

但是，對於更高維的數據，能想像其分布嗎？就算能描述分布，如何精確地找到這些主成分的軸？如何衡量你提取的主成分到底佔了整個數據的多少信息？所以，我們就要用到主成分分析的處理方法。3.數據降維為了說明什麼是數據的主成分，先從數據降維說起。數據降維是怎麼回事兒？

行代表了樣例，列代表特徵，這裡有10個樣例，每個樣例兩個特徵。可以這樣認為，有10篇文檔，x是10篇文檔中「learn」出現的TF-IDF，y是10篇文檔中「study」出現的TF-IDF。第一步，分別求x和y的平均值，然後對於所有的樣例，都減去對應的均值。這裡x的均值是1.81，y的均值是1.91，那麼一個樣例減去均值後即為（0.69,0.49），得到

第二步，求特徵協方差矩陣，如果數據是3維，那麼協方差矩陣是這裡只有x和y，求解得對角線上分別是x和y的方差，非對角線上是協方差。協方差是衡量兩個變數同時變化的變化程度。協方差大於0表示x和y若一個增，另一個也增；小於0表示一個增，一個減。如果ｘ和ｙ是統計獨立的，那麼二者之間的協方差就是０；但是協方差是０，並不能說明ｘ和ｙ是獨立的。協方差絕對值越大，兩者對彼此的影響越大，反之越小。

這樣，就將原始樣例的n維特徵變成了k維，這k維就是原始特徵在k維上的投影。上面的數據可以認為是learn和study特徵融合為一個新的特徵叫做LS特徵，該特徵基本上代表了這兩個特徵。上述過程如下圖2描述：

正號表示預處理後的樣本點，斜著的兩條線就分別是正交的特徵向量（由於協方差矩陣是對稱的，因此其特徵向量正交），最後一步的矩陣乘法就是將原始樣本點分別往特徵向量對應的軸上做投影。整個PCA過程貌似及其簡單，就是求協方差的特徵值和特徵向量，然後做數據轉換。但是有沒有覺得很神奇，為什麼求協方差的特徵向量就是最理想的k維向量？其背後隱藏的意義是什麼？整個PCA的意義是什麼？三、PCA推導先看下面這幅圖：

在第一部分中，我們舉了一個學生成績的例子，裡面的數據點是六維的，即每個觀測值是6維空間中的一個點。我們希望將6維空間用低維空間表示。先假定只有二維，即只有兩個變數，它們由橫坐標和縱坐標所代表；因此每個觀測值都有相應於這兩個坐標軸的兩個坐標值；如果這些數據形成一個橢圓形狀的點陣，那麼這個橢圓有一個長軸和一個短軸。

可見測試樣本為人臉的樣本的重建誤差顯然小於非人臉的重建誤差。另外PCA還可以聯繫奇異值分解（SVD），來用於預測矩陣中缺失的元素，可以應用到評分預測等實際項目中。詳見後續SVD的博客。來源：演算法與數學之美編輯|Gemini來源|csdn博客

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 橙品牌屋 的精彩文章:

※華為8GB手機，P20Pro強勢歸來，後置三攝像頭，顏色有兩種！
※新iPhone為什麼不值得買？是時候給庫克來個下馬威了

TAG:橙品牌屋 |