當前位置:
首頁 > 知識 > 一句話+一張圖就能說清楚Aprioir關聯規則演算法

一句話+一張圖就能說清楚Aprioir關聯規則演算法

一句話

關聯分析(關聯規則學習): 從大規模數據集中尋找物品間的隱含關係被稱作 關聯分析(associati analysis) 或者 關聯規則學習(association rule learning)


一張圖

一句話+一張圖就能說清楚Aprioir關聯規則演算法

解釋一下這張圖:

在關聯規則Aprioir演算法中,有兩個很重要的概念,分別是頻繁項集(frequent item sets),關聯規則(associational rules),它們是用來描述隱含關係的形式。

頻繁項集(frequent item sets): 經常出現在一塊的物品的集合。

關聯規則(associational rules): 暗示兩種物品之間可能存在很強的關係。

那麼 頻繁 的定義是什麼呢?怎麼樣才算頻繁呢? 度量它們的方法有很多種,這裡我們來簡單的介紹下支持度和可信度。

支持度: 數據集中包含該項集的記錄所佔的比例。例如上圖中,{豆奶} 的支持度為 4/5。{豆奶, 尿布} 的支持度為 3/5。

可信度: 針對一條諸如 {尿布} -> {葡萄酒} 這樣具體的關聯規則來定義的。這條規則的 可信度 被定義為 支持度({尿布, 葡萄酒})/支持度({尿布}),從圖中可以看出 支持度({尿布, 葡萄酒}) = 3/5,支持度({尿布}) = 4/5,所以 {尿布} -> {葡萄酒} 的可信度 = 3/5 / 4/5 = 3/4 = 0.75。


舉個栗子唄

還是上面的那個尿布和葡萄酒的栗子,讓我們仔細的看一下它的關聯規則的發現過程(Aprioir)

過程1:尋找k項頻繁集

一句話+一張圖就能說清楚Aprioir關聯規則演算法

我們規定最小支持度為0.3

L1為1項頻繁集,可以從圖中看出它的計算過程為:

P(豆奶)=豆奶出現的次數

訂單總數量

P(豆奶)=豆奶出現的次數訂單總數量

L2為2項頻繁集,從L1中選擇候選者(去除了小於最小支持度的數據),計算過程為:

P(豆奶,萵苣)=豆奶,萵苣共同出現的次數

訂單總數量

P(豆奶,萵苣)=豆奶,萵苣共同出現的次數訂單總數量

同理可以推出L3過程2:發現關聯規則

一句話+一張圖就能說清楚Aprioir關聯規則演算法

這裡舉一個例子說明,買了尿布的人也會繼續買葡萄酒的規則,支持度為0.6(前面已經算出),那麼它的置信度計算過程為:

P(尿布??>葡萄酒)=尿布,葡萄酒同時出現的概率

尿布出現的概率

=P(葡萄酒|尿布)

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 程序員小新人學習 的精彩文章:

為什麼 GitHub 上的開發者比 iOS 上的要更值錢?
用Prophet快速進行時間序列預測(附Prophet和R代碼)

TAG:程序員小新人學習 |