怎么理解python決策樹的基本原理

本篇文章給大家分享的是有關怎么理解python決策樹的基本原理，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

甘泉網站制作公司哪家好，找創新互聯！從網頁設計、網站建設、微信開發、APP開發、成都響應式網站建設公司等網站項目制作，到程序開發，運營維護。創新互聯2013年至今到現在10年的時間，我們擁有了豐富的建站經驗和運維經驗，來保證我們的工作的順利進行。專注于網站建設就選創新互聯。

決策樹是一種非參數的監督學習方法，它主要用于分類和回歸問題。

決策樹模型通過一系列if then決策規則的集合，將特征空間劃分成有限個不相交的子區域，對于落在相同子區域的樣本，決策樹模型給出相同的預測值。

這些if then決策規則之間的層次關系形成一個樹形結構，稱之為決策樹，這些不相交的子區域和樹結構的葉子節點一一對應。

怎么理解python決策樹的基本原理

一，決策樹原理概述

1，假設空間

下面從假設空間，目標函數，優化算法3方面闡述決策樹算法的基本原理。

假設空間即我們對模型形式的先驗假設，最終我們求得的模型必定符合我們對模型形式的先驗假設。

決策樹模型的先驗形式可以表述成如下：

怎么理解python決策樹的基本原理

其中q[x]是從特征空間映射到節點編號空間的函數。決策樹模型的關鍵是將特征空間劃分成不相交的子區域，落在相同子區域的樣本具有相同的預測值。

為了確定一棵決策樹的完備結構，要明確如下兩個方面：一是如何劃分子區域，二是子區域的預測值取多少。

2，目標函數

目標函數即我們用什么標準來評價一個模型的好壞。目標函數決定了我們從假設空間中選擇模型的偏好。

怎么理解python決策樹的基本原理

決策樹的目標函數可以用來評價一棵決策樹的好壞。這個目標函數應當包括兩個方面的內容。第一個是反應決策樹對樣本數據點擬合準確度的損失項，第二個是反應決策樹模型復雜程度的正則化項。

正則化項可以取模型的葉子節點的數量。即決策樹模型劃分得到的不相交子區域越多，我們認為模型越復雜。

對于損失項，如果是回歸問題，損失項可以取平方損失，如果是分類問題，我們可以用不純度來作為衡量標準。

為什么用不純度呢？由于決策樹的同一葉子節點上的所有樣本都取相同的預測值，如果這些樣本的真實 label 只有一種取值，那么這個葉子節點上的樣本是非常“純凈”的，我們可以直接指定預測值為這個葉子節點上 label 的取值，預測誤差為0。反之，如果葉子節點上不同樣本的 label 的取值很雜亂，所謂眾口難調，那么無論我們如何指定葉子節點上的預測值，總會有較大的預測誤差。

那么，如何來衡量不純度呢？一般有3種方法，信息熵，基尼不純度，以及分類誤差率。分類誤差率即以 label 取值最多的那個類別作為葉子節點預測值時的誤差率。信息熵和基尼不純度我們稍后介紹。

3，優化算法

優化算法指的是通過什么樣的方式調整我們的模型結構或模型超參數取值，使得模型的目標函數取值不斷降低。

優化算法決定了我們用什么樣的步驟在假設空間中尋找合適的模型。

對于決策樹而言，優化算法包括樹的生成策略和樹的剪枝策略。

樹的生成策略一般采用貪心的思想不斷選擇特征對特征空間進行切分。

樹的剪枝策略一般分為預剪枝和后剪枝策略。一般來說后剪枝策略生成的決策樹效果較好，但其計算成本也更高。