python機器學習之決策樹算法-tft每日頭條

python機器學習之決策樹算法

生活更新时间:2025-06-02 10:35:25

python機器學習之決策樹算法（機器學習經典算法）1

python機器學習之決策樹算法（機器學習經典算法）2

python機器學習之決策樹算法（機器學習經典算法）3

python機器學習之決策樹算法（機器學習經典算法）4

python機器學習之決策樹算法（機器學習經典算法）5

# -*- coding: utf-8 -*-

"""

Created on Sat Aug 25 10:39:22 2018

@author: aoanng

"""

from math import log

##創建數據集

def createdataSet():

"""

創建數據集

"""

dataSet = [['青年', '否', '否', '一般', '拒絕'],

['青年', '否', '否', '好', '拒絕'],

['青年', '是', '否', '好', '同意'],

['青年', '是', '是', '一般', '同意'],

['青年', '否', '否', '一般', '拒絕'],

['中年', '否', '否', '一般', '拒絕'],

['中年', '否', '否', '好', '拒絕'],

['中年', '是', '是', '好', '同意'],

['中年', '否', '是', '非常好', '同意'],

['老年', '否', '是', '非常好', '同意'],

['老年', '否', '是', '好', '同意'],

['老年', '是', '否', '好', '同意'],

['老年', '是', '否', '非常好', '同意'],

['老年', '否', '否', '一般', '拒絕'],

]

featureName = ['年齡', '有工作', '有房子', '信貸情況']

# 返回數據集和每個維度的名稱

return dataSet, featureName

##分割數據集

def splitDataSet(dataSet,axis,value):

"""

按照給定特征劃分數據集

:param axis:劃分數據集的特征的維度

:param value:特征的值

:return: 符合該特征的所有實例（并且自動移除掉這維特征）

"""

# 循環遍曆dataSet中的每一行數據

retDataSet = []

for featVec in dataSet:

if featVec[axis] == value:

reduceFeatVec = featVec[:axis] # 删除這一維特征

reduceFeatVec.extend(featVec[axis 1:])

retDataSet.append(reduceFeatVec)

return retDataSet

##計算信息熵

# 計算的始終是類别标簽的不确定度

def calcShannonEnt(dataSet):

"""

計算訓練數據集中的Y随機變量的香農熵

:param dataSet:

:return:

"""

numEntries = len(dataSet) # 實例的個數

labelCounts = {}

for featVec in dataSet: # 遍曆每個實例，統計标簽的頻次

currentLabel = featVec[-1] # 表示最後一列

# 當前标簽不在labelCounts map中，就讓labelCounts加入該标簽

if currentLabel not in labelCounts.keys():

labelCounts[currentLabel] =0

labelCounts[currentLabel] =1

shannonEnt = 0.0

for key in labelCounts:

prob = float(labelCounts[key]) / numEntries

shannonEnt -= prob * log(prob,2) # log base 2

return shannonEnt

## 計算條件熵

def calcConditionalEntropy(dataSet,i,featList,uniqueVals):

"""

計算x_i給定的條件下，Y的條件熵

:param dataSet: 數據集

:param i: 維度i

:param featList: 數據集特征列表

:param unqiueVals: 數據集特征集合

:return: 條件熵

"""

ce = 0.0

for value in uniqueVals:

subDataSet = splitDataSet(dataSet,i,value)

prob = len(subDataSet) / float(len(dataSet)) # 極大似然估計概率

ce = prob * calcShannonEnt(subDataSet) #∑pH(Y|X=xi) 條件熵的計算

return ce

##計算信息增益

def calcInformationGain(dataSet,baseEntropy,i):

"""

計算信息增益

:param dataSet: 數據集

:param baseEntropy: 數據集中Y的信息熵

:param i: 特征維度i

:return: 特征i對數據集的信息增益g(dataSet | X_i)

"""

featList = [example[i] for example in dataSet] # 第i維特征列表

uniqueVals = set(featList) # 換成集合 - 集合中的每個元素不重複

newEntropy = calcConditionalEntropy(dataSet,i,featList,uniqueVals)#計算條件熵，

infoGain = baseEntropy - newEntropy # 信息增益 = 信息熵 - 條件熵

return infoGain

## 算法框架

def chooseBestFeatureToSplitByID3(dataSet):

"""

選擇最好的數據集劃分

:param dataSet:

:return:

"""

numFeatures = len(dataSet[0]) -1 # 最後一列是分類

baseEntropy = calcShannonEnt(dataSet) #返回整個數據集的信息熵

bestInfoGain = 0.0

bestFeature = -1

for i in range(numFeatures): # 遍曆所有維度特征

infoGain = calcInformationGain(dataSet,baseEntropy,i) #返回具體特征的信息增益

if(infoGain > bestInfoGain):

bestInfoGain = infoGain

bestFeature = i

return bestFeature # 返回最佳特征對應的維度

def createTree(dataSet,featureName,chooseBestFeatureToSplitFunc = chooseBestFeatureToSplitByID3):

"""

創建決策樹

:param dataSet: 數據集

:param featureName: 數據集每一維的名稱

:return: 決策樹

"""

classList = [example[-1] for example in dataSet] # 類别列表

if classList.count(classList[0]) == len(classList): # 統計屬于列别classList[0]的個數

return classList[0] # 當類别完全相同則停止繼續劃分

if len(dataSet[0]) ==1: # 當隻有一個特征的時候，遍曆所有實例返回出現次數最多的類别

return majorityCnt(classList) # 返回類别标簽

bestFeat = chooseBestFeatureToSplitFunc(dataSet)#最佳特征對應的索引

bestFeatLabel = featureName[bestFeat] #最佳特征

myTree ={bestFeatLabel:{}} # map 結構，且key為featureLabel

del (featureName[bestFeat])

# 找到需要分類的特征子集

featValues = [example[bestFeat] for example in dataSet]

uniqueVals = set(featValues)

for value in uniqueVals:

subLabels = featureName[:] # 複制操作

myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet,bestFeat,value),subLabels)

return myTree

# 測試決策樹的構建

dataSet,featureName = createDataSet()

myTree = createTree(dataSet,featureName)

print(myTree)

可視化treePlotter.py文件：

# -*- coding: utf-8 -*-

"""

Created on Sat Aug 25 11:04:40 2018

@author: aoanng

"""

import matplotlib.pyplot as plt

# 定義文本框和箭頭格式

decisionNode = dict(boxstyle="round4", color='#3366FF') #定義判斷結點形态

leafNode = dict(boxstyle="circle", color='#FF6633') #定義葉結點形态

arrow_args = dict(arrowstyle="<-", color='g') #定義箭頭

#繪制帶箭頭的注釋

def plotNode(nodeTxt, centerPt, parentPt, nodeType):

createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction',

xytext=centerPt, textcoords='axes fraction',

va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)

#計算葉結點數

def getNumLeafs(myTree):

numLeafs = 0

firstStr = list(myTree.keys())[0]

secondDict = myTree[firstStr]

for key in secondDict.keys():

if type(secondDict[key]).__name__ == 'dict':

numLeafs = getNumLeafs(secondDict[key])

else:

numLeafs = 1

return numLeafs

#計算樹的層數

def getTreeDepth(myTree):

maxDepth = 0

firstStr = list(myTree.keys())[0]

secondDict = myTree[firstStr]

for key in secondDict.keys():

if type(secondDict[key]).__name__ == 'dict':

thisDepth = 1 getTreeDepth(secondDict[key])

else:

thisDepth = 1

if thisDepth > maxDepth:

maxDepth = thisDepth

return maxDepth

#在父子結點間填充文本信息

def plotMidText(cntrPt, parentPt, txtString):

xMid = (parentPt[0] - cntrPt[0]) / 2.0 cntrPt[0]

yMid = (parentPt[1] - cntrPt[1]) / 2.0 cntrPt[1]

createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)

def plotTree(myTree, parentPt, nodeTxt):

numLeafs = getNumLeafs(myTree)

depth = getTreeDepth(myTree)

firstStr = list(myTree.keys())[0]

cntrPt = (plotTree.xOff (1.0 float(numLeafs)) / 2.0 / plotTree.totalW, plotTree.yOff)

plotMidText(cntrPt, parentPt, nodeTxt) #在父子結點間填充文本信息

plotNode(firstStr, cntrPt, parentPt, decisionNode) #繪制帶箭頭的注釋

secondDict = myTree[firstStr]

plotTree.yOff = plotTree.yOff - 1.0 / plotTree.totalD

for key in secondDict.keys():

if type(secondDict[key]).__name__ == 'dict':

plotTree(secondDict[key], cntrPt, str(key))

else:

plotTree.xOff = plotTree.xOff 1.0 / plotTree.totalW

plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)

plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))

plotTree.yOff = plotTree.yOff 1.0 / plotTree.totalD

def createPlot(inTree):

fig = plt.figure(1, facecolor='white')

fig.clf()

axprops = dict(xticks=[], yticks=[])

createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)

plotTree.totalW = float(getNumLeafs(inTree))

plotTree.totalD = float(getTreeDepth(inTree))

plotTree.xOff = -0.5 / plotTree.totalW;

plotTree.yOff = 1.0;

plotTree(inTree, (0.5, 1.0), '')

plt.show()

完整調用main.py:

# -*- coding: utf-8 -*-

"""

Created on Sat Aug 25 10:00:16 2018

@author: aoanng

"""

from pylab import *

import treePlotter

from ID3Tree import *

mpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默認字體

mpl.rcParams['axes.unicode_minus'] = False # 解決保存圖像時負号'-'顯示為方塊的問題

##################################

# 測試決策樹的構建

myDat, labels = createDataSet()

myTree = createTree(myDat, labels)

# 繪制決策樹

treePlotter.createPlot(myTree)

python機器學習之決策樹算法（機器學習經典算法）6

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活穆桂英埋在了哪
宋末流傳至今的女英雄穆桂英抗遼的故事，更有穆桂英與楊宗保的愛情故事令人向往。真實的穆柯寨到底在哪，今天就帶大家聊一聊。穆柯寨在哪裡（穆柯寨是現在的什麼地方）就會有燒焦的麥子從地裡被沖刷出來，于楊家将裡面的描述，火燒穆柯寨非常的相似，另外在穆... 2023-03-26
生活二十四節氣小滿和白露
二十四節氣小滿和白露?9月7日23時32分，迎來白露節氣涼風至，白露降，寒蟬鳴伴随着陣陣涼風，已經到了白露節氣，今天小編就來說說關于二十四節氣小滿和白露?下面更多詳細答案一起來看看吧!二十四節氣小滿和白露9月7日23時32分，迎來白露節氣。... 2022-10-16
生活泡沫和發泡混凝土
泡沫和發泡混凝土?泡沫混凝土生産方式主要有兩種：一種是物理發泡，另一種是化學發泡，下面我們就來說一說關于泡沫和發泡混凝土?我們一起去了解并探讨一下這個問題吧!泡沫和發泡混凝土泡沫混凝土生産方式主要有兩種：一種是物理發泡，另一種是化學發泡。物... 2023-03-26
生活陽澄湖農家樂推薦阿四蟹莊
陽澄湖農家樂排行榜，巴城蟹都VS蓮花島漁家，你更喜歡哪款？"堪笑吳興饞太守，一詩換得兩尖團。"這個讓一代大文豪以詩換取的"兩團尖"又又又來了！九月臨近，大閘蟹即将迎來我們對它最熱烈的呼喚聲！你的陽澄湖農家樂品蟹攻略做好了嗎？"有口但可讀《離... 2023-01-26
生活堅強後盾的盾意思是什麼
堅強後盾的盾意思是什麼?人到中年，事事都難，子女教育，夫妻關系，婆媳矛盾，生老病死都與我們息息相關，而讓我們堅強的後盾可能隻有我生的和生我的兩個人，當我們失望而迷茫時，想想他們再難的事都不是事，再多的坎都一馬平川，我來為大家講解一下關于堅強... 2022-12-11
生活商洛有哪些吃的特産美食
廚師正在烹饪“三點水”席菜肴擺上桌的“三點水”席菜肴遊客正在品嘗“三點水”席菜肴立春過後，來到柞水縣社川河畔的鳳凰古鎮，觀賞徽派建築的古街，就像走進了一個曆史畫廊。如今的古街，沒有刻意的人工雕琢，完全保留了曆史原貌。“來我們古鎮遊一圈，能看... 2023-03-22
生活鐘楚曦吊帶穿衣搭配
鐘楚曦好身材不是吹出來！穿禮服深v開叉低到肚臍上，小腹平坦無贅肉都說深v領是女生禮服的至尊體驗，如果你有好身材，再穿上一襲深v領長裙，一定會成為最閃亮的一顆明星。26歲鐘楚曦敢穿敢拼！深v禮服開叉低到肚臍上，好身材根本藏不住！内地女演員鐘楚... 2023-03-23
生活常見的造岩礦物的特征
已發現的造岩礦物有三千多種，常見的有：長石：是含鈣、鈉和鉀的鋁矽酸鹽。有很多種，如鈉長石、鈣長石、鋇長石、斜長石、透長石（玻璃長石）等。透明或半透明。玻璃光澤。無色、白色、黃色、粉紅色、綠色、灰色，黑色等。硬度6-6.5，密度2.55-2.... 2023-02-11
生活七天學堂賬号怎樣注冊
恭喜您，進入全新版“七天學堂”！本次更新，增加一些新功能，完善一些小細節。更有隐藏起來的這些小功能，使用過的人都覺得，真是太實用了!是不是還沒找到隐藏功能？别急，小七帶你來一一解鎖！1.綁定學生信息，點擊首頁“成績單”，點擊“訂閱”，就可以... 2023-03-29
生活什麼水稻米好吃
朝有雲霧籠罩，夕有殘陽染雲，群山連亘，雲遮霧繞；常現帷幕飄懸空中，正是峰破薄紗隐現，又有紅日當頭盡現山青水秀。紫黑香糯是傳統水稻，是廣西融水縣大苗山特産，主要生長在融水中西部、西南部、西北部海拔1500米以上山區，那裡有“九山半水半分田”之... 2023-02-21
生活智能家居照明龍頭
前言随着USBPD快充技術的普及，模塊化電源以及智能家居市場的爆發，智能家居、LED燈具及模塊化電源等産品對高密度、高效率、小體積的電源需求量日益提升。而在開發高密度電源時，濾波電容、X電容、共模電感、差模電感等一些被動元器件會直接影響産品... 2023-03-11
生活于右任書法最好的一幅
于右任題寫照片題簽書法于右任于右任為《竹蔭書屋畫集》題“造化為師”于右任題楊亮功著《星轺小紀》于右任題香港十大詩壇國慶慶祝會于右任草書《浣溪沙·壽大千六十》劄于右任題曾國威編著《心理學》（左）于右任題吳履泰著《無倦廬詩文存》（右）于右任題《... 2023-01-07
生活蘋果13promax測評最新
iPhone13ProMax作為蘋果的年度旗艦産品，其自正式發布的那一刻起便成為了衆多用戶當下選購新機的首選機型，但其也因為缺乏創新而被很多人認為這标志着蘋果的手機産品開始變得“越發平庸”。不過對于一部手機而言，消費者還是更加關注其是否能夠... 2023-02-01
生活用熟糯米粉做青團
這幾天出門，見到很多媽媽領着穿上了各式民族服飾的孩子去上學，仿佛一下車就能直接對山歌，單看衣服實在判斷不了是哪個族，總之，隻要集齊紅黃綠藍四種顔色，那就對了。這熟悉的畫面說明時間又來到了三月三，今年趕巧了，清明節和三月三連在了一起，假期倒是... 2022-10-22
生活口紅抹多了有什麼危害嗎
口紅抹多了有什麼危害嗎?口紅是很多女性經常會使用到的一種化妝品，它能夠幫助女性提亮膚色，也能夠讓女性整體看起來更有精神而在生活中有很多上班族女性每天都會塗抹口紅，為了讓自己能夠更有氣色，雖然女性每天塗抹口紅能夠讓整體形象更好，但是口紅屬于化... 2023-04-03
生活蝦和什麼菜搭配有營養
蝦和什麼菜搭配有營養?蝦是能和很多蔬菜一起吃，但是蔬菜的選擇方面一定要有一定的講究因為蝦中含有大量的蛋白質、鈣離子和甲殼素，選擇蔬菜的時候不要選擇含有維生素c和有機酸含量非常多的蔬菜，不然有可能會導緻蛋白質結塊不利于新陳代謝的進行，平時可以... 2022-06-28
生活美味蟹堡喪屍大爆發
警告！喪屍圍城大戰來襲天黑開場，勇者開跑人類與喪屍的刺激戰鬥即将上演！01千人喪屍玩命跑“喪屍”需要追擊人類人類幸存者需竭盡所能捍衛自己的生命人類逃生過程中會被随機埋伏的“喪屍”伺機狩獵生命帶被搶走即宣告“死亡”噢~在規定時間内幸存下來的... 2023-02-11
生活吃雞手榴彈怎麼設置
吃雞手榴彈怎麼設置?當玩家手持手雷時，畫面右下側會出現一個弧度圖标，我來為大家講解一下關于吃雞手榴彈怎麼設置?跟着小編一起來看一看吧!吃雞手榴彈怎麼設置當玩家手持手雷時，畫面右下側會出現一個弧度圖标。圖标上兩種抛物線，上面的是高抛，下面的是... 2022-07-08
生活骨頭湯如何做更香
骨頭湯如何做更香?原材料：扇子骨500克，直達骨1000克，尾脊梁骨500克，碎骨500克，蔥結1小紮，姜片1一小塊，酒50克，冷水5Kg，現在小編就來說說關于骨頭湯如何做更香?下面内容希望能幫助到你，我們來一起看看吧!骨頭湯如何做更香原材... 2022-07-18
生活收藏最多文藝複興時期的畫
文藝複興時期的畫文藝複興時期是在14到16世紀，從意大利興起後發展到歐洲各國。受胎告知受胎告知這是一副濕壁畫《受胎告知》，現存于意大利佛羅倫薩聖馬克修道院，這幅畫刻畫了聖母與天使的形象。她們置身于一座羅馬式結構的建築物裡，有着簡潔的構圖，淡... 2023-03-24
生活鬼谷八荒捏臉排名
鬼谷八荒，一個修仙題材的遊戲，背景文化以山海經為基礎。目前包含練氣，築基，結晶，金丹，具靈，元嬰等境界，後續會開放化身，登仙等。在遊戲中可體驗到山海經的各種文化故事，通過奇遇，探索，及與NPC各種互動構建自己的修仙體系。加入喜歡的宗門，選擇... 2022-11-25
生活微信主屏顔色怎麼換
微信主屏顔色怎麼換?微信目前還不支持設置微信主界面的樣式，我們可以通過手機上面的設置，來覆蓋微信主界面的白色，打開手機上面的設置功能，選擇其中的”通用“，今天小編就來說說關于微信主屏顔色怎麼換?下面更多詳細答案一起來看看吧!微信主屏顔色怎麼... 2022-06-02
生活 paul是什麼意思中文
paul是什麼意思中文?Paul:保羅,來源:拉丁,涵意:指矮小玲珑的人，下面我們就來聊聊關于paul是什麼意思中文?接下來我們就一起去了解一下吧!paul是什麼意思中文Paul:保羅,來源:拉丁,涵意:指矮小玲珑的人。paul（美國職業籃... 2022-07-10
生活微信好友設置一鍵清理
先删除了兩位之前關系很好的好友；感覺所謂越是好的人到最後會離開得更徹底。這或許是因為更在意的緣故。這就像是你越看重什麼，什麼就會讓你痛苦。比如，你看中了一件衣服，而那衣服價格昂貴，讓你舍不得去買而痛苦。或是你咬牙買了，但帶回家後不舍得穿，或... 2022-11-16
生活陸家嘴是個啥
上海市衛健委今早通報2022年9月28日0—24時，上海無新增本土确診病例新增本土無症狀感染者1例在隔離管控中發現新增境外輸入138本土病例情況▽2022年9月28日0—24時，無新增本土新冠肺炎确診病例。本土無症狀感染者情況▽2022年9... 2023-01-31
生活贊美男子有氣質的詩句
蕭蕭肅肅，爽朗清舉。肅肅如松下風，高而徐引。心中有丘壑，眉目作山河。除卻君身三重雪，天下誰人配白衣。言念君子，溫其如玉。有匪君子，如切如嗟，如琢如磨。陌上人玉如，君子世無雙。蕭疏軒舉，湛然若神。不是逢人苦譽君，亦狂亦俠亦溫文。看花東陌上，驚... 2023-01-24
生活三十首春分詩詞
今天是春分，此時，我國除青藏高原、東北、西北和華北北部地區外都進入明媚的春天，在遼闊的大地上，楊柳青青、莺飛草長、小麥拔節、油菜花香。春分是一個重要的節氣，古人或春遊踏青、或放風筝、或忙着春耕……下面32首春分詩詞，一起來看看，古人的春分，... 2023-02-12
生活随機變量及其分布例題解析
一、在射擊運動中，每次射擊的成績是一個非常典型的随機事件，如何刻畫每個運動員射擊的技術水平與特點？如何比較兩個運動員的射擊水平？如何選擇優秀運動員代表國家參加奧運會才能使得獲勝的概率大？這些問題的解決需要離散型随機變量的知識。分布函數示意圖... 2023-01-16
生活 realme真我gtneo評測有什麼...
【手機中國新聞】9月22日14點，realme真我GTNeo2新品發布會如期舉行，新機正式亮相。realme真我GTNeo2定位為“打遊戲最穩的主力機”，擁有全面均衡的配置以及潮玩的設計。realme真我GTNeo2配置上，realme真我... 2023-02-19
生活北京歡樂水魔方旅遊
夏天終于來了，喜歡玩水麼？給你推薦一個好去處：北京歡樂水魔方水上樂園。地址：位于北京市豐台區小屯路直接導航即可，建議綠色出行。門票價格：成人200元兒童160元開放時間：5月26日-7月9日。準備工作：來這裡您需要提前準備好泳衣泳褲，沐浴用... 2022-11-03

tft每日頭條

> 生活

> python機器學習之決策樹算法

python機器學習之決策樹算法

相关生活资讯推荐

热门生活资讯推荐

网友关注