決策樹分類學習方法-tft每日頭條

決策樹分類學習方法

生活更新时间:2025-07-16 12:36:54

決策樹decision tree是一顆樹，用于分類和回歸問題，本文先介紹分類樹。決策樹可以認為是if-then規則的集合，或者定義在特征空間與類空間上的條件概率分布。

優點：可讀性、分類速度快。

決策樹的定義

分類決策樹是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型：内部結點和葉結點。内部結點表示一個特征或屬性，葉結點表示一個類。

用決策樹分類時：從根結點開始，根據實例的某一特征将實例分配到對應子結點；每一個子結點對應着特征的某個取值。如此遞歸的對實例進行分配，直至達到葉結點。最後将實例分配到葉結點所在的類中。

決策樹的學習：

目标：根據給定訓練集構建一個決策樹模型，使它能夠對實例進行正确的分類。

本質：從訓練數據集歸納出一組分類規則，得到一顆與訓練數據集矛盾較少的一棵樹；或者由訓練數據集選擇一個最優的條件概率模型。是一個特征空間劃分的問題。

決策樹的學習主要由3大塊組成：

特征選擇
決策樹生成
剪枝

特征選擇

選擇對訓練數據有分類能力的特征，準則：信息增益或信息增益比。

分類能力：訓練數據的類别在該特征下各子集的分類純度越高代表分類能力越強。

信息增益

經驗熵=随機變量不确定性的度量，不确定性越大，熵越大

條件熵=已知随機變量X的條件下随機變量Y的不确定性

信息增益=經驗熵-條件熵，表示得知特征X的信息，使得Y的不确定性減少的程度

信息增益取決于特征，信息增益大的特征具有更強的分類能力。

經驗熵

條件熵

信息增益

信息增益比

信息增益有個缺點是某個特征的取值越多其條件熵越小，信息增益越大。例如對于特征 ID每個ID都是唯一的，ID中隻有一個樣本，其條件熵為0。信息增益比可以解決這一問題。

根據信息增益/信息增益比最大的方法找到根結點對應的特征。
決策樹的生成
ID3算法：在決策樹各個結點上應用信息增益準則選擇特征，遞歸地構建決策樹。

停止條件：當信息增益小于阈值；沒有更多特征；所有結點都是同一類

算法步驟：

ID3算法隻有樹的生成，所以該算法産生的樹容易過拟合。
C4.5算法

C4.5與ID3唯一的區别就是用信息增益比代替信息增益

決策樹的剪枝
上述算法都是基于局部最優解得到決策樹，并未考慮全局損失函數。這樣生成的樹對訓練數據拟合很好，但是生成的樹過于複雜往往産生過拟合。因此，全局損失函數需考慮樹的複雜度，簡化生成的決策樹。

決策樹的剪枝就是将子樹剪掉，用父節點替代原先的子結點，從而簡化決策樹。

操作手段有了，還需要确定決定是否剪枝的标準，如果剪掉的子樹不會增加很多熵值，同時會大大減少結點個數，則選擇剪枝。也就是說我們需要在熵值增加和結點數減少之間進行權衡，轉化為公式：

剪枝算法：

輸入：決策樹T、參數alpha

輸出：修剪後的子樹t

1)計算每個結點的經驗熵

2）遞歸地從樹的葉結點向上回縮，如果子樹的損失函數更小則得到子樹。

3）重複2）直到不能繼續為止。
CART算法
CART是一種分類回歸樹，是二叉樹，内部結點的特征由是和否構成。CART回歸樹用平方誤差最小化準則，對分類數用基尼系數最小化準則進行特征選擇。
回歸樹的生成

1）回歸樹劃分後顯然用該特征空間劃分上的y的平均值作為結點的預測值

2）劃分後的預測誤差用平方誤差來抽象

3）對特征和取值遍曆選擇預測誤差最小的特征作為切分變量、某個取值作為切分變量

4）依次用上述方法将輸入空間劃分為兩個區域，生成一棵回歸樹。
分類數的生成

1）損失函數用基尼系數代替熵，樣本集合的不确定性越大、基尼系數越大、熵越大。因此本優化問題為找到基尼系數最小的特征和取值。

2）二叉樹：特征一次分為是否為某個取值

3）停止條件：結點中樣本個數小于阈值；基尼系數小于阈值==基本屬于一類；沒有更多特征
CART剪枝

整體思路：将子樹從下往上依次剪枝得到子樹序列，然後通過交叉驗證法在驗證數據集上得到損失函數（平方誤差或基尼系數）最小的子樹。子數确定後最優的alpha也确定了。

alpha越小子樹結點數的權重越小，樹越大；alpha越大決策樹越簡單。

1）子樹序列對應着alpha序列，從下往上剪形成子樹序列，對應着alpha從小到大。

對于某個内部結點，剪枝與否的損失函數對比如下：

2）對一顆決策樹内部每一結點計算g(t)，按g(t)從小到大排序子樹直至根節點，alpha達到某一個g(t)值意味着對該内部結點剪枝。

3）算法

模型優缺點
1）優點：
簡單易懂，易于解釋。可視化。
幾乎不需要數據預處理。其他技術通常需要數據歸一化，需要創建虛拟變量和删除空白值。但是請注意，此模塊不支持缺失值。缺失值要處理。
使用樹(即預測數據)的成本是用于訓練樹的數據點數量的對數。
能夠處理數值和分類數據。然而，scikit-learn實現目前還不支持分類變量。
能夠處理多輸出問題。
使用白盒模型。如果給定的情況在一個模型中是可觀察到的，那麼對這個條件的解釋很容易用布爾邏輯來解釋。相比之下，在黑盒模型中(例如，在人工神經網絡中)，結果可能更難解釋。
可以使用統計測試來驗證模型。這使得解釋模型的可靠性成為可能。
即使生成數據的真實模型在某種程度上違反了它的假設，它也能很好地執行。

2）缺點：
決策樹學習者可以創建過于複雜的樹，不能很好地概括數據。這叫做過拟合。為了避免這個問題，需要使用修剪、設置葉子節點所需的最小樣本數量或設置樹的最大深度等機制。
決策樹可能是不穩定的，因為數據中的小變化可能導緻生成完全不同的樹。通過在集成學習中使用決策樹，可以緩解這個問題。
決策樹的預測既不是平滑的，也不是連續的，而是如上圖所示的分段常數近似。因此，他們不擅長外推
學習最優決策樹的問題是已知的np -完全在幾個方面的最優性，甚至簡單的概念。因此，實際的決策樹學習算法是基于啟發式算法，如貪婪算法，在每個節點上做出局部最優決策。 這種算法不能保證返回全局最優決策樹。這可以通過在集成學習器中訓練多棵樹來緩解，其中特征和樣本是随機采樣的替換。
有些概念很難學習，因為決策樹不容易表達它們，比如異或、奇偶校驗或多路複用問題。
如果某些類占主導地位，決策樹學習者會創建有偏差的樹。因此，建議在拟合決策樹之前平衡數據集。
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活節流閥的作用是什麼
1、截流調速的作用。截流閥通過對節流截面或者是長度的控制來改變流量，這是節流閥起到的主要作用也是它的主要功能。2、起到負載阻力的作用。節流閥還能起到一定程度上的負載作用，這隻是節流閥具有的一部分功能，節流閥的主要作用仍然是節流調速。3、壓力緩沖的作用。節流閥能對流體起到壓力緩沖的作用，當流體經過節流... 2023-07-05
生活室内木制欄杆怎麼清潔
1、少用水清洗：室内木質欄杆的清洗，平時其實可以用雞毛撣掃掃塵土。如果真要擦洗，要将抹布擰幹一點，進行擦洗。因為用太潮濕的布清洗，可能會導緻木質欄杆受潮。2、防止受潮：木制構件易變形、開裂、油漆也會脫落，木制欄杆也不例外，有些不鏽剛室内木制欄杆上也有木制構件，如果是不鏽鋼木質欄杆受潮，會生鏽，所以室... 2023-07-05
生活收到社保卡後怎樣激活
1、社保卡激活隻可以在合作銀行辦理，合作銀行提供現場激活方式。辦理人需持本人身份證明元件及複印件，不滿16周歲還需提供法定監護人身份證明複印件、戶口本首頁複印頁、監護人頁複印頁和本人頁複印件。2、不在同一賬戶還需要提供街道證明、法院判決書、公證書等其他關系證明。社保卡直接到對應的銀行辦理卡片激活，銀... 2023-07-05
生活社保協管員的工作職責
1、負責管理在街道、鄉鎮居住的退休人員社會保險關系；2、掌握本社區退休人員養老金發放和領取情況；3、... 2023-07-05
生活培養學生自律品質的最好方法是
1、培養學生自律品質的最好方法是提高自我修養。2、具體做法：（1）加強思想修養。人的自制力在一定程度... 2023-07-05
生活正确的曬後護膚方法
1、要讓皮膚迅速降溫。不能用冰水洗臉，是因為大量的冰水容易刺激皮膚。想要讓發熱的肌膚迅速降溫，可以選... 2023-07-05
生活煤氣竈2個風門怎麼調節
1、是分别調節左右兩個燃燒器的空氣進氣量，以達到燃燒充分，不黑鍋底的目的。一般以調節到火苗頂端略顯紅... 2023-07-05
生活皮蛋怎麼存放
1、冰箱存放：可以把帶殼的皮蛋放在冰箱中存放，但不宜存放過長的時間，否則皮蛋将會結成冰塊，從而影響口... 2023-07-05
生活二樓陽台反水是什麼原因
一、有堵塞物。很有可能是總排污管下方有堵塞，一旦排污不順時，污水就會反到距離堵塞點最近的出水口，這種情況你是沒辦法處理的，隻能疏通管道公司。二、主管道堵塞。如果您家是二樓，下水道裡的水反到你家，就是可以說明是二樓以下管道堵塞了，這種堵塞為主管道堵塞，也就是一到七樓總下水道堵塞，堵塞位置一般會在下水道... 2023-07-05
生活如何舉報淘寶店鋪侵權
1、收集對方侵權的證據，進行電子證據固化，簡單的操作方法有鍊接保存、截圖保存、錄像保存等，必要時可以到公證機構以證據保全方式進行有關電子證據的公證；2、積極與侵權方協商，出示外觀專利證書，要求對方停止侵權，如果侵犯範圍較大，還可要求對方索賠；3、在協商無效的情況下，可在淘寶知識産權保護平台發起投訴侵... 2023-07-05
生活鲨魚褲為什麼那麼火
1、因為抖音和明星在推薦。2、設計師新出的一款打底褲面料：芭比鲨魚褲面料，好穿百搭顯瘦高腰時尚必備，... 2023-07-05
生活豐年蟲對自然環境有哪些重要作用
豐年蟲是環境監測的指示物，有豐年蟲的地方水質污染及土地與水質非常幹淨，無毒害物質。豐年蟲含有蛋白質60%，脂肪20%以及多不飽和脂肪酸，魚蝦類育苗中使用，對蝦苗和魚苗有增強抵抗力，增加活力和提高種苗的育苗成活率的作用。豐年蟲豐年蟲又稱豐年蝦，鹵蟲，鹽水蝦等多種名稱。屬于節肢動物門、甲殼亞門、甲殼綱、鰓足亞綱、無甲目、鹽水豐年蟲科。它是一種世界性分布廣泛耐高鹽的小型甲殼動物，運動姿勢優美，色彩柔和， 2023-07-05
生活怎樣給貓剪指甲
第一、先讓你的貓咪覺得很舒服，因為基本上所有的貓咪都不喜歡剪指甲，在為貓咪剪指甲前，最好選擇一個比較舒服的地方，把貓咪放在兩腿或者膝蓋上，先撫摸腳掌讓它感覺溫順，然後壓推出爪子剪掉指甲。第二、選擇合适的貓用指甲刀，貓用指甲刀的專門設計是有一定的道理的，它們從适當的角度剪掉愛貓的指甲而不會有指甲劈裂或... 2023-07-05
生活外地人在廣東怎麼辦居住證
1、窗口受理對于窗口受理的，經審核，提供材料真實有效，符合要求的，當場領取《廣州市流動人口辦理居住登... 2023-07-05
生活房頂隔熱材料有什麼
1、擠塑聚苯闆(XPS闆)，這種材料的保溫性能比較好，耐潮濕，價格方面比其它隔熱材料貴，熱度系數為：... 2023-07-05
生活茶花煙的産地是哪裡
1、茶花煙的産地雲南省，茶花煙由紅雲紅河煙草（集團）有限責任公司出品，紅雲紅河煙草（集團）有限責任公... 2023-07-05
生活我國哪個省市或自治區的面積最大
新疆維吾爾自治區。新疆維吾爾自治區簡稱新，位于亞歐大陸中部，地處中國西北邊陲，總面積166.49萬平方公裡，占全國陸地總面積的六分之一，是中國面積最大、陸地邊境線最長、毗鄰國家最多的省區。新疆：新疆地處亞歐大陸腹地，陸地邊境線5600多公裡，周邊與俄羅斯、哈薩克斯坦、吉爾吉斯斯坦、塔吉克斯坦、巴基斯坦、蒙古、印度、阿富汗斯坦八國接壤，在曆史上是古絲綢之路的重要通道，現在是第二座“亞歐大陸橋”的必經 2023-07-05
生活征信自查對貸款有影響嗎
1、如果在一段時間内，信用報告因為貸款、信用卡審批等原因多次被不同的銀行查詢，但信用報告中的記錄又表明這段時間内你沒有得到新貸款或申請過信用卡，可能說明這個人有向很多銀行申請過貸款或申請過信用卡但均未成功。2、因為多次自查征信也這就從側面反映了這個人資質不怎麼好或者财務狀況不佳這樣的信息對這個人獲得... 2023-07-05
生活裙子配什麼上衣好看
很多人都說秋天天氣冷，厚厚的上衣搭配裙子不好看，再加上裙子的禦寒效果不好，遂很多人放棄秋天穿裙子的想法。其實秋天穿裙子是很時髦的一種穿法，而且裙子和秋裝搭配起來更有層次感，看上去更優雅更有氣質，再說有着保暖打底褲和光腿神器在，我們根本無需擔心禦寒問題，完全可以在秋季穿出裙子的韻味！第一種小香風毛衣+... 2023-07-05
生活涼涼褲怎麼搭配上衣
如果說有一種單品既能滿足防曬需求，又輕薄透氣，還能特别時髦，那麼一定非涼涼褲莫屬。涼涼褲是今年大熱的單品，很多時髦的小姐姐衣櫥必備的，這種褲子其實就是指的版型寬松、面料多為雪紡活棉麻、腰部是松緊設計的長褲，因為穿在身上涼涼的，所以小姐姐們親切的稱之為涼涼褲。那麼，下面我們就給大家介紹幾款超級火爆的涼... 2023-07-05
生活搬家有什麼講究
1、孕婦不參與搬家搬家前，讓孕婦先回娘家住一陣子，等搬好後再入新居，盡量不要讓她參加搬家的整個過程。... 2023-07-05
生活如何和女朋友相處
1、不要心不在焉的：在戀愛時，女生雖然說話通常都比較多，但這并不意味着隻是她們自己說而不需要男朋友搭話，你可以時不時的回應她一下，這對她來說也是很重要的。如果你們在約會的時候，你一直在神遊，那麼在對方看來，你很不禮貌，尤其是在外人的面前，你與女生在一起吃飯，隻是女生在一旁叽叽喳喳的，而你一直呆在那裡... 2023-07-05
生活卡貼機怎麼激活sim卡
1、首先将卡貼和sim卡一起裝入卡槽。2、開機，先跳過設置，直接進入激活界面。這張sim卡是不能直接... 2023-07-05
生活生活中牙膏有哪些妙用
1、洗掉衣物污垢。有時候會不小心把油垢或者髒東西滴在衣物上，看着自己心愛的衣服就這麼毀了是不是特别舍不得，還覺得浪費，試試牙膏吧，擠些牙膏塗在污垢上面，輕輕用手搓或者刷子刷，再用清水沖洗，油垢可清除幹淨哦。2、擦掉瓷杯上面的茶垢。如果你經常用同一個杯子，那麼不管是喝茶還是喝咖啡，時間長了之後都會有一... 2023-07-05
生活蘋果x綠屏閃爍無法開機
1、蘋果X屏幕綠屏閃爍，這是由于蘋果手機屏幕控制程序出現故障導緻。2、可嘗試以下方法解決問題：将蘋果... 2023-07-05
生活主要社會關系是什麼
1、一般來講,“主要社會關系”是指父母和配偶以外的主要社會關系,包括:叔叔、伯伯、姑姑、舅舅、嶽父、... 2023-07-05
生活不放油的糯米糍粑怎麼做
1、食材：糯米1000克、清水200克、紅糖20克。2、糯米清洗兩遍，再用清水浸泡一晚，若是氣候炎熱... 2023-07-05
生活果酒沒有開瓶器怎麼打開
1、帶鈎螺釘法：使用一側帶有鈎的螺釘，然後把它一直擰到軟木塞裡，将木勺的把手放在鈎子上，向相反的方向扭轉瓶子和勺子把手，用穩定的壓力拉起把手即可。2、壓力法：将自行車泵插入軟木塞的側面，慢慢充氣，直到軟木塞開始露出時，用鉗子把軟木塞拉出來即可。3、反向軟木法：将木勺柄的末端放在軟木塞上，用橡皮槌、切割刀的背面或擀面杖敲擊勺子的頂部，将軟木塞推入瓶子即可。果酒：果酒是用水果本身的糖分被酵母菌發酵成為 2023-07-05
生活放果肥用兩邊放嗎
1、不可以，剛移栽果樹的根系尚未生長成熟，施用肥料很容易燒根。2、在給果樹施肥時要施在果樹的四周，可... 2023-07-05
生活薏米怎麼洗
1、首先剔除雜質。用筲箕攤薄，口吹輕的雜質，手撿大的雜質，然後用水洗出沉底的砂石。2、涼水先沖洗一遍... 2023-07-05

tft每日頭條

> 生活

> 決策樹分類學習方法

決策樹分類學習方法

相关生活资讯推荐

热门生活资讯推荐

网友关注