決策樹算法原理及實現-tft每日頭條

決策樹算法原理及實現

職場更新时间:2025-07-17 23:15:25

　　點擊上方關注，All in AI中國

　　作者：Emma Grimaldi

　　決策樹算法原理及實現（一種像人腦工作的算法）(1)

　　決策樹是機器學習中最常用的算法之一，主要用于分類，也用于回歸問題。在我們做出決定之前我們都會問自己一些問題，而這時候我們的大腦就會像決策樹一樣工作。例如：外面是陰天嗎？如果是的話，我需要帶一把雨傘。

　　在訓練數據集以對變量進行分類時，決策樹的思想就是基于特定的特征值将數據拆分為較小的數據集，直到目标變量全部屬于一個類别。人腦決定基于經驗（即多雲的天空）選擇"拆分特征"，而計算機基于最大信息增益拆分數據集。讓我們定義一個簡單的問題，并跳轉到一些計算中，看看這意味着什麼。

　　決策樹算法原理及實現（一種像人腦工作的算法）(2)

　　貓和狗的數據集

　　假設我們基于體重和身高想要建立一個決策樹來确定寵物是貓還是狗。我們可以根據兩個特征之一的某些值來劃分這些數據點，例如：對于大于15磅重量的寵物，确信是狗。至少基于這個非常簡單的數據集。但是如果重量小于15磅，我的子集将包含兩隻貓和一隻狗，所以我需要再次拆分子集，直到隻剩下一個類。換句話說，直到所有的子集都變得純粹。我實際上為這些數據值繪制了一個決策樹，得出以下這張示例圖：

　　決策樹算法原理及實現（一種像人腦工作的算法）(3)

　　決策樹示例

　　每個決策樹都以根節點開始，即第一次拆分。在不考慮太多的情況下，我們可以輕松地提出不同類型的根節點，以便在相同數量的步驟中将數據分成一個解決方案。但是計算機如何決定如何定義節點？當然，它會尋找最有效的方式，為了理解這是什麼，我們需要引入基尼（Gini）這個系數，這是最常用的不等式度量。該不等式是指節點後的每個子集中的目标類。因此，可以在每次拆分後計算，并且根據節點之後不等式的變化，我們也可以定義"信息增益"。

　　決策樹算法原理及實現（一種像人腦工作的算法）(4)

　　基尼的定義

　　為了計算基尼，我們考慮在節點之後找到每個類的概率，我們将這些值的平方求和，然後從1中減去這個數量。因此，當一個子集是純粹的（即其中隻有一個類）時候，基尼系數将為0，因為找到該等級的概率确實是1。在這種情況下，我們說已經達到了一個目标，因為在我們實現目标時不再需要拆分。但是如果我們看一下上面的圖片，在False情況下的根節點之後，我們有一個包含3個觀察的子集，其中2個是貓，1個是狗。如果我們想要計算該子集的基尼系數，我們得出：

　　決策樹算法原理及實現（一種像人腦工作的算法）(5)

　　所得出的數據集的基尼系數，重量大于或等于15磅

　　可用于計算類不等式的另一個度量标準是熵（Entopy），而不是基尼（Gini）。它們具有相同的目的，但熵的變化幅度略有不同;但是，為此我們隻會使用基尼（Gini）。

　　根據我們選擇的拆分策略，我們将為每個子集提供不同的基尼（Gini）值，并且根據節點後的Gins值，我們可以定義信息增益：

　　決策樹算法原理及實現（一種像人腦工作的算法）(6)

　　信息增益的定義

　　這被定義為父基尼系數與子基尼系數的加權平均數之間的差值。如果我們參考上面的例子，通過簡單地應用定義知道初始數據集的基尼系數等于0.48，我們可以計算根節點之後的信息增益（以15磅的重量值拆分）：

　　決策樹算法原理及實現（一種像人腦工作的算法）(7)

　　根節點後的信息增益

　　然後，決策樹将考慮所有可能的拆分，并選擇具有最高信息增益的拆分。事實上，我們進行了一些編碼，看看Python的決策樹是什麼！

　　根節點後的信息增益

　　通過運行下面的代碼，我們從頭開始構建數據框，并僅在幾行中拟合模型。

　　注意：在訓練模型之前訓練/測試拆分是很好的做法，以防止過度拟合，并且還要仔細檢查這種模型對看不見的數據的執行情況。在這種情況下，我們跳過了這一步驟，因為數據幀隻包含少量觀察。

　　決策樹算法原理及實現（一種像人腦工作的算法）(8)

　　需要指出的是，在實例化DecisionTreeClassifier時，我沒有在括号中指定任何參數。在處理非常大的數據集時，為了防止決策樹失去控制和過度拟合，查看max_depth以指定決策樹的最大劃分數量是非常有用的。此外，設置max_features非常有用，max_features是一個限制在搜索最佳拆分時要查看的預測變量數量的參數。此外，如果你希望決策樹基于熵而不是基尼（Gini進）行優化，則隻需在實例化對象時編寫criterion ='entropy'。如果要進一步探索如何調整模型，請參閱決策樹文檔。（http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html）

　　太好了，我們建立了我們的模型！但這到底意味着什麼呢？決策樹的美妙之處在于它易于解釋，所以讓我們繪制它！為了運行下面的代碼片段，你可能需要首先在電腦上運行!pip install pydotplus pydot2

　　決策樹算法原理及實現（一種像人腦工作的算法）(9)

　　這段代碼的輸出将是下圖。

　　決策樹算法原理及實現（一種像人腦工作的算法）(10)

　　這很酷，對嗎？在上面的"手工制作"決策樹中，我選擇了15磅的重量作為根節點，算法決定拆分相同的變量，但是值為12。這就創造了一個隻有狗的葉節點（體重大于12，事實上，gini = 0））。從根節點之後的True條件生成的子集已經在值8.5上的高度變量上進一步拆分。最後一次拆分生成了兩個帶有空gini值的純子集。

　　那麼，為什麼我們應該還是不應該使用決策樹？以下是其優缺點的簡要列表：

　　（1）優點

　　其解釋清晰，特别是如果我們需要将發現傳達給非技術受衆它可以很好地處理嘈雜或不完整的數據它可用于回歸和分類問題（2）缺點

　　它可能不穩定，這意味着數據的微小變化可能會導緻模型發生重大變化它傾向于過度拟合，這意味着低偏差但是方差很大：即使訓練數據得分很高，也可能對于看不見的數據表現不佳幸運的是，還有許多技術可以處理過度拟合，這是決策樹的主要缺點。通過使用bagging 或增強方法，我們可以從決策樹概念開始，通過使用RandomForestClassifier或AdaBoostClassifier等模型來提出更準确的分析。這些都是集成（ensamble）方法，但随機森林通過boostrapping生成了許多"新數據集"（即用替換品對原始數據幀進行采樣）；它适用于每個新數據幀的決策樹，并通過平均森林中的所有決策樹來預測。相反，Ada Boost是一個自适應樹，它通過調整不正确的分類實例同時使用相同的數據幀來自我學習。

　　決策樹算法原理及實現（一種像人腦工作的算法）(11)

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

職場第一次買車的保險找誰
6月份西安天氣比較熱，于是就回老家上班了，決定不來西安了。于是家裡就給我貸款買了一輛車，哈佛牌子的SUV，聽别人說這個車比較耗油，我也不懂。月底拿的車，車8萬塊錢，首付4萬，貸款4萬2年無息的，算上車保險和購置稅減半花了快9萬塊錢，是一輛黑... 2023-03-13
職場江西環境工程職業學院有學校花園
江西環境工程職業學院，位于江西省贛州市，是贛州市的兩所省示範高職之一，讓我們來看看它的前世今生。江西環境工程職業學院，始于1953年創辦的贛州林業學校，現在很多贛州人還是以林校的名字去稱呼江西環境工程職業學院的。1954年，劃歸林業部直屬。... 2022-11-13
職場怎麼樹立一個領導的威信
沒有規矩的組織，隻是一群不堪一擊的烏合之衆。而沒有威信的領導，隻是一個受人擺布的提線木偶。沒有領導者會希望自己變成傀儡，因此在組織内部樹立起威信，就是其安身立命的“必修課”。筆者研讀案例不計其數，還是認為下面案例的記錄，才真的算是“立威之術... 2023-03-09
職場巧克力廠巧克力随便吃嗎
4月13日，據網友丫。丫爆料：作為綠源的員工，繳納了88元參加了綠源商業印象的戶外拓展活動，在沒吃飽午飯的情況下就開始了下午的團隊活動。活動中的小零食德芙巧克力糖和德芙巧克力夾心脆全是過期的！該網友憤憤不平：綠源公司你怎麼看？是覺得你的員工... 2022-12-25
職場财務總監與财務經理的職責區别
财務總監與财務經理的職責區别?财務經理和财務總監是财務部的最高級崗位，統管财務工作，直接向公司總經理彙報規模小的企業一般設置一名财務經理，規模大的公司往往同時設置财務經理和财務總監，今天小編就來聊一聊關于财務總監與财務經理的職責區别?接下來... 2022-12-04
職場全職寶媽兼職工作
當女性結婚生子，生活逐漸穩定下來，一個讓人頭疼的問題困擾着他們，難以處理好孩子與工作之間的平衡。這時女性延伸出了兩個分支，一部分母親選擇成為全職媽媽，放棄工作，耐心照顧孩子，另一部分母親擔心與社會脫軌，選擇成為職場媽媽。無論哪一種選擇，都是... 2023-01-05
職場海底撈人員的待遇
提起火鍋，小夥伴們第一個想到的是哪裡的火鍋呢，沒錯啦，就是重慶，重慶是非常熱衷吃火鍋的，不管你是去出差的旅遊的，去那邊，當地人推薦，肯定就是各式各樣的火鍋店了，香噴噴的毛肚和鴨腸，蘸上配料，真是讓人大飽口福，那提到火鍋店裡面的服務，哪家店最... 2022-12-01
職場日本自動離職流程
下午5點準時打卡下班，隻做指定的日常工作，對加班說不……這是美國職場近期新詞“安靜辭職”（QuietQuitting）的顯著特征。這個詞用來描述美國職員應對職業倦怠的“躺平”狀态，他們并不會真正地遞上辭呈離開原有崗位，但會在完成分内之事後不... 2022-10-22
職場 dnf手遊選什麼職業強勢
dnf手遊選什麼職業強勢?dnf手遊選平民職業強勢平民玩家可以選擇平民職業，在這裡選擇不同的職業進行搭配，玩家可以選擇不充錢的職業，或者是充錢比例比較少的職業，下面我們就來聊聊關于dnf手遊選什麼職業強勢?接下來我們就一起去了解一下吧!dn... 2022-07-19
職場激勵努力工作的句子
激勵努力工作的句子?不要讓别人告訴你，你不能做什麼隻要有夢想，就要去追求那些做不到的人總要告訴你，你也不行想要什麼就得去努力，去追求，我來為大家講解一下關于激勵努力工作的句子?跟着小編一起來看一看吧!激勵努力工作的句子不要讓别人告訴你，你不... 2022-06-14
職場江陰職業中等專業學校
江陰職業中等專業學校?江陰網訊（記者李小英劉葭湄）近日，省教育廳、省财政廳聯合發文，公布2019年度江蘇省現代化示範性職業學校評估結果，江陰中等專業學校榮登榜單，成為全省第三批32所現代化示範性職業學校之一，下面我們就來說一說關于江陰職業中... 2022-12-26
職場張家輝籌備的電影
中新網上海4月24日電(記者徐銀康玉湛)警匪動作電影《低壓槽：欲望之城》(以下簡稱：《低壓槽》)23日在上海舉行新聞發布會。導演兼主演張家輝亮相現場，分享電影的拍攝故事與個人的心路曆程。據悉，電影《低壓槽》的故事發生在虛拟的“欲望之城”孤城... 2023-01-20
職場勵志的職場劇
随着職場劇《新居之約》《請叫我總監》分别在央視和東方衛視播出，有關職場劇的話題再度引發關注。從早期的醫療劇、律政劇，到如今涵蓋建築、商業、IT、投資、遊戲等衆多職業，職場劇在創作上不僅拓寬了職業領域，還更加關注普通人的成長。而在作品表達和叙... 2022-11-19
職場平涼市創建文明城市宣傳
文明花開幸福城——平涼市創建全國文明城市工作成效顯著平涼中心城區綠地廣場。崆峒區南山生态公園。新甘肅·甘肅日報記者田麗媛文明，是一座城市的内在氣質，賦予城市發展生生不息的力量。2021年10月，平涼市委、市政府向全市吹響了創建全國文明城市的... 2022-10-21
職場不上班的男朋友怎麼辦
我是小郁兒，點擊右上方“關注”，每天為你分享【自媒體寫作運營】與【個人精進】幹貨。跟男朋友路過周六福珠寶店，我們的目光都望向了戒指區域，兩個人嚷嚷着叫對方趕緊買戒指，最後又在嬉鬧的你追我趕中離開商場。雖然兩個人年齡加起來都50歲了，但我們很... 2022-11-20
職場公務員面試題人際關系題
公務員面試，人際關系題100道【轉發、評論、私信“人際關系”獲取人際關系100題】私信才可以獲取到哦11、你的單位來了個新領導，因不熟悉業務，導緻工作沒有順利開展，你怎麼辦?【參考答案】當務之急還是要将單位的情況、業務流程和内容及時向領導彙... 2023-03-13
職場蝙蝠俠戈登之死
丹尼·奧尼爾據外媒報道，美國漫畫作家丹尼·奧尼爾因自然原因于6月11日去世，享年81歲。丹尼·奧尼爾曾參與創作《蝙蝠俠》《偵探漫畫》《蝙蝠俠：黑暗騎士傳奇》等作品，他還與尼爾·亞當斯共同創造了“忍者大師”、“塔莉娅·阿勒古爾”、“理查德·龍... 2022-11-29
職場聯通銷号後是否可以退還話費
日常生活中，隻要想與别人通話那麼就離不了三大運營商，但是每一年都有關于三大運營商不退費的問題。近日，連女士稱自己的聯通套餐到期，裡面246元的話費卻退不出來，咨詢工作人員後回應到：先銷号再退錢。連女士稱自己一直是聯通的忠實用戶，前年4月辦了... 2022-10-22
職場公司上班遲到公司有權罰款嗎
公司上班遲到公司有權罰款嗎?随着這個冬季的寒潮再次來襲，上班需要打卡的朋友們也是越來越惱火了[流淚]，偶爾賴床享受被窩的溫暖就會遲到，有些公司就對上班打卡做了嚴格的考勤制度，那麼，上班遲到，公司罰款合法嗎？【明月律師解讀】，下面我們就來聊聊... 2022-10-16
職場大學生畢業找工作難的原因
當快畢業了卻發現專業沒學好，面臨工作難找工資低怎麼辦？近年以來，我國高校畢業生逐年增多，加上疫情影響，畢業生的就業形式受到前所未有的挑戰，甚至出現了不少失業的。因此大學生就業已成為全社會關注的熱點問題。那麼今天就讓我們一起來說說畢業之後，發... 2022-12-09
職場廈門市五一加班補休
近日，北京市順義區一家口腔牙科醫療機構因違法延長勞動者時間被罰。據媒體報道，處罰事由顯示，星火萬方齒科技術（北京）有限公司2021年7月安排91名勞動者月加班超過36小時，且涉及人數占職工總人數50%以上。順義區人力資源和社會保障局對該公司... 2022-11-01
職場大師教你泡發腐竹
大家好，今天要和大家分享的是，在對腐竹這道食材進行泡發的時候，要如何去對其進行泡發，才能讓腐竹被泡的更快的同時，讓泡出來的腐竹不夾生。，對于腐竹泡發不好，還夾生的這個現象，相信是大家都在煩惱的吧。腐竹之所以會出現這樣的現象，那是由于生活中很... 2022-12-01
職場企業人力資源管理師工資待遇
人力資源管理師已經在企業裡起到非常重要的作用，同時企業也非常的重視這個職業，前景是非常好的，崗位薪資集中在5000-10000元/月。人力資源管理師的就業前景人力資源管理師是指在企業内部主要從事人力資源規劃、招聘與配置、培訓與開發、績效管理... 2022-11-17
職場 dnf100版本刷圖裝備選擇
110級版本進入緊張的“爆肝”階段，全民為喂養新裝備詞條，正在努力的刷圖中。策劃比較體恤玩家，6.23版本體驗服，更新了一系列活動，金綠柱石開始減負！貝奇的寶藏時刻，金綠柱石減負作為110級版本核心材料，金綠柱石十分重要，無論是喂養詞條、轉... 2022-12-23
職場鹿晗關曉彤官宣戀情是幾幾年
近日，有網友在網絡上爆料鹿晗與關曉彤即将領證并結婚。為了證實言論更是曬出截圖，并宣稱周五對大衆官宣，且鹿晗工作室的通稿已經發給各個媒體。此爆料一出立馬引爆網絡，衆網友對此消息也是議論紛紛。衆所周知，鹿晗與關曉彤作為當紅藝人，其戀情一直備受廣... 2022-12-14
職場本學年學習目标工作設想
一定要謀劃好下一學年度的工作思路唐河袁丁遙想幾年前，在教育局工作的時候，每年的大年初二就開始思考新的一年的工作思路，每年的高招成績一出來就要思考新學年度的工作思路。下一學年的工作思路，乃至今後的教育工作思路，要“輕目标、看方向”。前幾天，與... 2022-11-17
職場低碳能效部經理
低碳能效部經理?南方網訊（記者/李玲）6月13日，2022年廣東省節能宣傳周正式啟動，活動主題為“綠色低碳，節能先行”活動期間，宣傳周主辦方廣東省發展和改革委員會、廣東省能源局聯合南方網推出了廣東省節能宣傳周《節能大家談》專欄本期專欄訪談，... 2022-11-26
職場求職面試應注意什麼
求職面試應注意什麼?帶多幾份簡曆前往面試，沒有比當被要求提供多一份簡曆而你卻沒有更能顯示你缺乏準備的事了，今天小編就來說說關于求職面試應注意什麼?下面更多詳細答案一起來看看吧!求職面試應注意什麼帶多幾份簡曆前往面試，沒有比當被要求提供多一份... 2022-06-13
職場反應釜的結構和原理
反應器反應器是一種實現反應過程的設備，用于實現液相單相反應過程和液液、氣液、液固、氣液固等多相反應過程。器内常設有攪拌（機械攪拌、氣流攪拌等）裝置。在高徑比較大時，可用多層攪拌槳葉。在反應過程中物料需加熱或冷卻時，可在反應器壁處設置夾套，或... 2023-01-03
職場古代歌姬是什麼職業
在當今社會，做歌手或演員是一條緻富的捷徑，而且會擁有大批的粉絲把你捧到天上去，可以說是名利雙收的絕佳職業。但是你知道在中國古代，什麼樣的人才會去做“歌手”或“演員”嗎？你知道這些人在社會上的地位嗎？今天小編給大家細細講講。古代社會是一個階級... 2022-11-16

tft每日頭條

> 職場

> 決策樹算法原理及實現

決策樹算法原理及實現

相关職場资讯推荐

热门職場资讯推荐

网友关注