當前位置:
首頁 > 最新 > 人工智慧–決策樹

人工智慧–決策樹

人工智慧之決策樹(DT)

在生活或工作中,人們經常面臨各種各樣的選擇,很迷茫困惑正確的決策非常重要。同樣,人工智慧研究中也會遇到決策問題,今天就跟大家聊聊人工智慧之決策樹

決策樹(DecisionTree)是一類常見的機器學習方法。決策樹(DT)在人工智慧中所處的位置:

人工智慧à機器學習à監督學習à決策樹

在機器學習中,決策樹(DT)是一個預測(決策)模型,它所代表的是對象屬性與對象值之間的一種映射關係。決策樹演算法根據數據的屬性採用樹狀結構建立決策模型。

什麼是決策樹?

決策樹(DT)是在已知各種情況發生概率的基礎上,通過構成決策樹來求取凈現值的期望值大於等於零的概率,評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。從數據產生決策樹的機器學習技術叫做決策樹學習。

通過定義我們知道,決策樹(DT)是一種樹形結構,樹中每個節點表示某個對象,而每個分叉路徑則代表的某個可能的屬性值,而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。結點有兩種類型:內部節點和葉節點,內部節點表示一個特徵、屬性或一個屬性上的測試,每個分支代表一個測試輸出,葉節點表示一個類別。決策樹(DT)一般都是自上而下的來生成的。每個決策或事件(即自然狀態)都可能引出兩個或多個事件,導致不同的結果。

決策樹(DT)是一種十分常見的分類方法,也稱分類樹。它是一種監督學習,即給定一堆樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的對象給出正確的分類。因此,決策樹常常用來解決分類和回歸問題

決策樹構成要素:

1)決策結點:用方塊結點□表示,是對幾種可能方案的選擇,即最後選擇的最佳方案。如果決策屬於多級決策,則決策樹的中間可以有多個決策點,以決策樹根部的決策點為最終決策方案。

2)方案枝:由結點引出若干條細支,每條細支代表一個方案,稱為方案枝

3)狀態結點:用圓形結點○表示,代表備選方案的經濟效果(期望值),通過各狀態節點的經濟效果的對比,按照一定的決策標準就可以選出最佳方案。

4)概率枝:由狀態節點引出的分支稱為概率枝,概率枝的數目表示可能出現的自然狀態數目。每個分枝上要註明該狀態的內容和其出現的概率。

5)結果結點:用三角結點△表示,將每個方案在各種自然狀態下取得的收益值或損失值標註於結果節點的右端。

總之決策樹一般由決策結點、方案枝、狀態結點、概率枝和結果結點等組成,這樣樹形圖由左向右或自上而下,由簡到繁展開,組成一個樹狀網路圖

決策樹學習過程:

決策樹學習過程(建樹過程)包含特徵選擇、決策樹的生成與剪枝過程。決策樹的學習演算法通常是遞歸地選擇最優特徵,並用最優特徵對數據集進行分割。開始時,構建根結點,選擇最優特徵,該特徵有幾種值就分割為幾個子集,每個子集分別遞歸調用此方法,返回結點,返回的結點就是上一層的子結點。直到所有特徵都已經用完,或者數據集只有一維特徵為止。另外,隨機森林分類器將許多決策樹結合起來以提升分類的正確率

決策樹建樹過程的主要挑戰是確定哪些屬性作為根節點以及每個級別的節點。處理這些需要知道屬性選擇。目前主要有2種不同的屬性選擇方法(信息增益和基尼指數)來識別這些屬性。當信息增益作為標準時,假設屬性是分類的;對於基尼係數,則假設屬性是連續的。

決策樹停止分支方法:

剪枝是決策樹停止分支的方法之一,剪枝有分預先剪枝和後剪枝兩種。

1)預先剪枝(Public演算法)是在樹的生長過程中設定一個指標,當達到該指標時就停止生長,容易產生「視界局限」,即一旦停止分支,使得節點N成為葉節點,就斷絕了其後繼節點進行「好」的分支操作的任何可能性。會誤導學習演算法,導致產生的樹不純度降差最大的地方過分靠近根節點。

2)後剪枝(Sprint演算法)中樹首先要充分生長,直到葉節點都有最小的不純度值為止,因而可以克服「視界局限」。然後對所有相鄰的成對葉節點考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那麼執行消去,並令它們的公共父節點成為新的葉節點。這種「合併」葉節點的做法和節點分支的過程恰好相反,經過剪枝後葉節點常常會分布在很寬的層次上,樹也變得非平衡。後剪枝技術的優點克服了「視界局限」效應,且無需保留部分樣本用於交叉驗證,所以可以充分利用全部訓練集的信息。但後剪枝的計算量代價比預剪枝方法大得多,特別是在大樣本集中,不過對於小樣本的情況,後剪枝方法還是優於預剪枝方法的。

決策樹與條件概率:

決策樹模型呈樹形結構,在分類問題中,表示基於特徵對實例進行分類的過程。它可以認為是if-then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布,即決策樹可以依靠計算條件概率來構造。決策樹如果依靠數學的計算方法可以取得更加理想的效果。資料庫已如下所示:

(x, y) = (x1, x2, x3…, xk, y)

相關的變數Y表示嘗試去理解,分類或者更一般化的結果。其他的變數x1, x2, x3等則是幫助達到目的的變數。

決策樹常見演算法:

決策樹的常見的演算法包括:1)分類及回歸樹(Classification And Regression Tree,CART),2)ID3(IterativeDichotomiser 3),3)C4.5,4)Chi-squared Automatic Interaction Detection(CHAID), 5)Decision Stump, 6)隨機森林(Random Forest),7)多元自適應回歸樣條(MARS),8)梯度推進機(Gradient Boosting Machine,GBM)等等。

其中,隨機森林(RandomForest是作為新興起的、高度靈活的一種決策樹演算法。它是用訓練數據隨機的計算出許多決策樹,形成了一個森林。然後用這個森林對未知數據進行預測,選取投票最多的分類。此演算法的錯誤率得到了經一步的降低。這種方法背後的原理可以用「三個臭皮匠定一個諸葛亮」這句諺語來概括。一顆樹預測正確的概率可能不高,但是集體預測正確的概率卻很高

決策樹優點:

1)易於理解和實現:在學習過程中不需要使用者了解很多的背景知識,只要通過解釋後都有能力去理解決策樹所表達的意義;

2)效率高、效果好:對於決策樹,數據的準備往往是簡單或者是不必要的,而且能夠同時處理數據型和常規型屬性,在相對短的時間內能夠對大型數據源做出可行且效果良好的結果;

3)易於評測和生成:易於通過靜態測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那麼根據所產生的決策樹很容易推出相應的邏輯表達式。

決策樹缺點:

1)對連續性的欄位比較難預測;

2)對有時間順序的數據,需要很多預處理的工作;

3)當類別太多時,錯誤可能就會增加的比較快;

4)一般的演算法分類的時候,只是根據一個欄位來分類。

決策樹應用前景:

決策樹具有條理清晰,程序嚴謹,定量、定性分析相結合,方法簡單,易於掌握,應用性強,適用範圍廣等優點。人們逐漸認識到,在投資方案比較選擇時考慮時間因素,建立時間可比原則和條件的重要性。當今的社會經濟活動中,競爭日趨激烈,現代企業的經營方向面臨著許多可供選擇的方案,如何用最少的資源,贏得最大的利潤以及最大限度地降低企業的經營風險,是企業決策者經常面對的決策問題,決策樹法能簡單明了地幫助企業決策層分析企業的經營風險和經營方向。必然地,隨著經濟的不斷發展,企業需要做出決策的數量會不斷地增加,而決策質量的提高取決於決策方法的科學化。企業的決策水平提高了,企業的管理水平就一定會提高。

結語:

決策樹採用的是一種簡單且直觀的「分而治之」(divide-and-conquer)策略。決策樹的核心是通過對數據的學習,選定判斷節點,構造一顆合適的決策樹。決策樹是一個有監督的分類模型,其本質是選擇一個能帶來最大信息增益的特徵值進行樹的分割,直到到達結束條件或者葉子結點純度到達一定閾值。決策樹是人工智慧之機器學習中比較常見的演算法,相比樸素貝葉斯分類,決策樹優勢在於構造過程不需要任何領域知識或參數設置,因此在實際應用中,對於探測式的知識發現,決策樹更加適用,其應用超級廣泛


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 科技優化生活 的精彩文章:

人工智慧–AI與數字營銷

TAG:科技優化生活 |