随機森林正确率-tft每日頭條

随機森林正确率

生活更新时间:2025-08-17 20:13:41

【前言】：文章來自微信公衆号【機器學習煉丹術】

全文3155字，預計閱讀時間10min

文章目錄：

1 随機森林
2 Bagging
3 神秘的63.2%
4 随機森林 vs bagging
5 投票策略
6 随機森林的特點

6.1 優點
6.2 bias 與 variance
6.3 随機森林降低偏差證明

為什麼現在還要學習随機森林？

随機森林中仍有兩個未解之謎（對我來說）。随機森林采用的bagging思想中怎麼得到的62.3% 以及随機森林和bagging的方法是否有區别。

随機森林(Random Forest)就是通過集成學習的思想将多棵決策樹集成的一種算法。基本單元是決策樹。随機森林算法的提出也是為了改善決策樹容易存在過拟合的情況。
1 随機森林
習慣上，我們将衆多分類器(SVM、Logistic回歸、決策樹等)所組成的“總的分類器”，叫做随機森林。随機森林有兩個關鍵詞，一個是“随機”，一個是“森林”。森林就是成百上千棵樹，體現了集成的思想，随機将會在下面總結到。
2 bagging
Bagging，其實就是bootstrap aggregating的縮寫, 兩者是等價的，其核心就是有放回抽樣。

【bagging具體步驟】
從大小為n的樣本集中有放回地重采樣選出n個樣本；（沒錯就是n個樣本抽取n個）
在所有屬性上，對這n個樣本建立分類器(ID3信息增益、C4.5信息增益率、CART基尼系數、SVM、Logistic回歸等)
重複以上兩步m次，即獲得了m個分類器；
将預測數據放在這m個分類器上，最後根據這m個分類器的投票結果，決定數據屬于哪一類。
3 神秘的63.2%
一般被大家知曉的是：随機森林中每一次采樣的比例是63.2%。 這個比例到底是怎麼确定的呢？

在某手的面試中，我被問到了這個相關的問題，奈何學藝不精，哎。後來苦苦研究15分鐘，終于得到答案，現在分享給大家。

bagging的最初的說法其實是：n個樣本從中有放回抽樣n次，這種條件下，勢必會有抽取到相同樣本的可能性，那麼抽取到不同樣本的期望值是多少呢？其實大家心裡可能會有答案了，沒錯就是0.632n。

我們假設表示第k次抽樣抽取到不同樣本的概率。那麼則表示第k-1次抽樣抽取到不同樣本的概率。
第k-1次抽樣到不同樣本的概率：
第k-1次抽樣時，有個樣本還沒有被抽取
第k次抽樣時，還有的樣本沒有抽取
因此
,第一次抽樣的數據一定不會重複

因此k次放回抽樣的不同樣本的期望值為：

利用等比數列的性質，得到：

當n足夠大，并且k=n的情況下，上面的公式等于

所以證明完畢，每一次bagging采樣重複抽取n次其實隻有63.2%的樣本會被采樣到。
4 随機森林 vs bagging
随機森林(Random Forest)在Bagging基礎上進行了修改。 具體步驟可以總結如下:
從訓練樣本集中采用Bootstrap的方法有放回地重采樣選出n個樣本，即每棵樹的訓練數據集都是不同的 ，裡面包含重複的訓練樣本（這意味着随機森林并不是按照bagging的0.632比例采樣 ）；
從所有屬性中有選擇地選出K個屬性，選擇最佳屬性作為節點建立CART決策樹；
重複以上步驟m次，即建立了m棵CART決策樹
這m個CART形成随機森林，通過投票表決分類結果，決定數據是屬于哪一類。

随機森林(Random Forest)的随機性主要體現在兩方面，一方面是樣本随機，另一方面是屬性随機。樣本随機的原因是如果樣本不随機，每棵樹的訓練數據都一樣，那麼最終訓練出的分類結果也是完全一樣的。
5 投票策略
少數服從多數
一票否決
聽說還有貝葉斯平均的方法。但是我沒有過多了解。一般還是用少數服從多數的吧。
6 随機森林的特點6.1 優點
在當前的算法中，具有極好的準确率
能夠運行在大數據上
能夠處理具有高維特征的輸入樣本，不需要降維
能夠計算各個特征的重要度
能夠防止過拟合
其實在一些大數據競賽中，随機森林也是我第一個會嘗試的模型哦~
6.2 bias 與 variance
說到機器學習模型的誤差，主要就是bias和variance。
Bias：如果一個模型的訓練錯誤大，然後驗證錯誤和訓練錯誤都很大，那麼這個模型就是高bias。可能是因為欠拟合，也可能是因為模型是弱分類器。
Variance：模型的訓練錯誤小，但是驗證錯誤遠大于訓練錯誤，那麼這個模型就是高Variance，或者說它是過拟合。

這個圖中，左上角是低偏差低方差的，可以看到所有的預測值，都會落在靶心，完美模型；

右上角是高偏差，可以看到，雖然整體數據預測的好像都在中心，但是波動很大。

【高偏差vs高方差】

在機器學習中，因為偏差和方差不能兼顧，所以我們一般會選擇高偏差、低方差的左下角的模型。穩定性是最重要的，甯可所有的樣本都80%正确率，也不要部分樣本100%、部分50%的正确率。個人感覺，穩定性是學習到東西的體現，高方差模型與随機蒙的有什麼區别？
6.3 随機森林降低偏差證明
上面的可能有些抽象，這裡用RandomForest(RF)來作為例子：随機森林是bagging的集成模型，這裡：
RF(x)表示随機森林對樣本x的預測值；
B表示總共有B棵樹；
表示第i棵樹所使用的訓練集，是使用bagging的方法，從所有訓練集中進行行采樣和列采樣得到的子數據集。

這裡所有的，都是從所有數據集中随機采樣的，所以可以理解為都是服從相同分布的。所以不斷增加B的數量，增加随機森林中樹的數量，是不會減小模型的偏差的。【個人感覺，是因為不管訓練再多的樹，其實就那麼多數據，怎麼訓練都不會減少，這一點比較好理解】

【RF是如何降低偏差的？】直觀上，使用多棵樹和bagging，是可以增加模型的穩定性的。怎麼證明的？

我們需要計算

假設不同樹的之間的相關系數為,然後每棵樹的方差都是.

先複習一下兩個随機變量相加的方差如何表示：
Cov(X,Y)表示X和Y的協方差。協方差和相關系數不一樣哦，要除以X和Y的标準差：

下面轉成B個相關變量的方差計算，是矩陣的形式：

很好推導的，可以試一試。

這樣可以看出來了，RF的樹的數量越多，RF方差的第二項會不斷減小，但是第一項不變。也就是說，第一項就是RF模型偏差的下極限了。

【總結】
增加決策樹的數量B，偏差不變；方差減小；
增加決策樹深度，偏差減小；減小，增加；
增加bagging采樣比例，偏差減小；增加，增加；

【bagging vs boost】之前的文章也提到過了boost算法。

GBDT中，在某種情況下，是不斷訓練之前模型的殘差，來達到降低bias的效果。雖然也是集成模型，但是可以想到，每一個GBDT中的樹，所學習的數據的分布都是不同的，這意味着在GBDT模型的方差會随着決策樹的數量增多，不斷地增加。
bagging的目的：降低方差；
boost的目的：降低偏差

- END -
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活怎麼保養皮夾克
怎麼保養皮夾克?在穿着皮裝時，要避免接觸油污、酸性和堿性等物質，接下來我們就來聊聊關于怎麼保養皮夾克?以下内容大家不妨參考一二希望能幫到您!怎麼保養皮夾克在穿着皮裝時，要避免接觸油污、酸性和堿性等物質。應定期送到專業皮革保養店中進行徹底清洗... 2022-07-12
生活父愛的經典名言
父愛的經典名言?慈父之愛子，非為報也——淮南子，我來為大家講解一下關于父愛的經典名言?跟着小編一起來看一看吧!父愛的經典名言慈父之愛子，非為報也。——淮南子對做父親的人來說，失去父親不一定就是不幸；對做兒子的人來說，沒有兒子也不一定就是痛苦... 2022-06-16
生活什麼是燕窩
什麼是燕窩?燕窩又叫燕菜、燕根等，指的是部分雨燕或金絲燕分泌出來的唾液，再混合其它物質所築成的巢穴，下面我們就來聊聊關于什麼是燕窩?接下來我們就一起去了解一下吧!什麼是燕窩燕窩又叫燕菜、燕根等，指的是部分雨燕或金絲燕分泌出來的唾液，再混合其... 2022-07-12
生活行書七絕詩大全
也梅居士：資料不詳題識：寒雨連江夜入吳，平明送客楚山孤。洛陽親友如相問，一片冰心在玉壺。獨憐幽草澗邊生，上有黃鹂深樹鳴。春潮帶雨晚來急，野渡無人舟自橫。遠上寒山石徑斜，白雲深處有人家。停車坐愛楓林晚，霜葉紅于二月花。半畝方塘一鑒開，天光雲影... 2022-10-28
生活加熱眼罩可以緩解眼疲勞嗎
不少人在休息時都習慣戴上眼罩，有的是藥用的，有的是電發熱，有的是保溫的，想要以此來緩解眼部疲勞，保健眼睛。但是這樣做，真的有效嗎？電熱眼罩存在風險電熱眼罩使用有風險，若使用不慎，甚至可能會灼傷眼睛。目前市面上的電熱眼罩品類繁多，質量參差不齊... 2022-12-10
生活姜水和醋洗澡的好處
姜水和醋洗澡的好處?姜水和醋洗澡對免疫力的提高是有幫助的，還能促進寒氣的排出，生姜是具有活血驅寒的作用，下面我們就來聊聊關于姜水和醋洗澡的好處?接下來我們就一起去了解一下吧!姜水和醋洗澡的好處姜水和醋洗澡對免疫力的提高是有幫助的，還能促進寒... 2022-06-06
生活微信如何把之前關注的公衆号進行取消
微信如何把之前關注的公衆号進行取消?首先點擊微信軟件主界面上的微信公衆号菜單，現在小編就來說說關于微信如何把之前關注的公衆号進行取消?下面内容希望能幫助到你，我們來一起看看吧!微信如何把之前關注的公衆号進行取消首先點擊微信軟件主界面上的微信... 2022-07-15
生活英文名言警句簡短
英文名言警句簡短?Formanismanandmasterofhisfate.人就是人，是自己命運的主人，下面我們就來聊聊關于英文名言警句簡短?接下來我們就一起去了解一下吧!英文名言警句簡短Formanismanandmasterofhis... 2022-06-26
生活夢見吃包子
夢見吃包子?夢到吃包子，五行主土，得此夢乃是火土相生，食傷生财，與他人共同求财者事業良好，多為貴人輔佐，求才可有長久之迹象，夏天夢是吉利，秋天夢之不吉利，下面我們就來說一說關于夢見吃包子?我們一起去了解并探讨一下這個問題吧!夢見吃包子夢到吃... 2022-06-09
生活二次元頭像在線生成
翻翻通訊錄，你會看到很多人都喜歡選用卡通漫畫當頭像。好不容易看到一張喜歡的漫畫，卻總是發現和别人同款。怎樣才能生成一張獨一無二的漫畫頭像呢？今天就給大家推薦一款工具，讓你的照片一鍵換成漫畫圖。皮卡智能AI，除了能一鍵生成漫畫圖，還能給老照片... 2022-10-29
生活 2022年屬龍人的運程
2022年屬龍人的運程?進入2022年，屬龍人的整體運程還是非常值得期待的，尤其事業方面，有吉星“國印”暗中幫扶，會朝着好的方向發展，雖然有時候也會遇到一些比較難以處理的問題，但是在這個過程當中，隻要付出努力，很多困難都會得到解決，屬龍人的... 2022-06-26
生活香酥炸雞脖的做法
脆皮炸雞做法主料：三黃雞兩隻。腌料：清水200克、牛奶200克、米酒150克、奧爾良腌料40克、玉米澱粉35克、食用油30克、蔥段30克、姜片30克、精鹽20克。裹粉：面粉500克、澱粉100克、泡打粉3克、精鹽3克。詳細加工制作步驟：1、... 2022-12-06
生活 136平小戶型裝修風格
美式風格很受年輕人的喜歡，今天小編為您介紹來自孔雀大衛城小區的裝修案例，房子面積124平米，三居室戶型，裝修方式是用全包，花了11萬，我們看看設計師的設計方案。預算：11萬風格：美式案例套數：34富貴人家，精緻奢華！一個對家有追求的人，非常... 2023-01-20
生活有利于睡眠的四大食物
飽受失眠折磨的朋友們，或者睡眠質量不佳的朋友們，小編今天給大家分享幾種食物，錯過後保證你睡眠更加香甜！1.枸杞蜂蜜水蜂蜜含有的葡萄糖、維生素、鎂、磷、鈣等能夠調節神經系統、促進睡眠，誰讓喝一杯蜂蜜水對于容易失眠的人來說，可以幫助其盡快進入夢... 2023-01-01
生活翡翠是什麼屬性
翡翠是什麼屬性?翡翠是玉石，在五行中屬土翡翠（jadeite），也稱翡翠玉jadeites、翠玉、緬甸玉，是玉的一種翡翠的正确定義是以硬玉礦物為主的輝石類礦物組成的纖維狀集合體但是翡翠并不等于硬玉翡翠是在地質作用下形成的達到玉級的石質多晶集... 2022-07-10
生活沒有熟的豌豆可以吃嗎
豌豆簡介：豌豆原産地中海和中亞地區，是重要的栽培作物。我國主要分布在中部、東北部，主産區有四川、河南、湖北、江蘇、青海、江西等。豌豆是一種營養價值很高的豆類食物，富含銅、鉻元素。豌豆對造血、骨骼、腦發育都有很好的作用，可以促進糖與脂肪的代謝... 2022-11-26
生活一小孩寫作業被氣哭
2022年9月28日，早上六點過，兒子班級群裡信息不斷，把我從睡夢中吵醒過來，原來是老師通知大家趕快打卡。我是第六個完成健康碼打卡的人，看見時間還早，又鑽進被窩裡眯了一下眼睛。等我第二次醒來，已經是八點十五分，麻利地起來穿好衣服，趕緊敲兒子... 2022-10-26
生活海膽能不能冷凍保存
海膽能不能冷凍保存?海膽能冷凍保存一般來說，如果我們将海膽放在冰箱裡面冷凍保存的話，如果在一個星期之内，基本上是不會發生變質的但是如果将它放在冰箱裡面進行冷藏的話，那麼可能就隻能保存一兩天了當然，如果你直接将它放在室溫下進行保存的話，那麼可... 2022-06-18
生活感謝裝修師傅付出的話
感謝裝修師傅付出的話?今天特懷着感激的心情，對貴公司員工幾個月來，在我家裝修中所表現出的良好的職業素養、敬業精神、娴熟的技能、一絲不苟的工作作風深表感謝，下面我們就來聊聊關于感謝裝修師傅付出的話?接下來我們就一起去了解一下吧!感謝裝修師傅付... 2022-06-08
生活洗衣機使用三大誤區
洗衣機已經是家庭必備電器了，用了這麼多年，洗衣機你真的用對了嗎?我們在北京三裡屯随機對路人進行了采訪，從中發現了一些問題~1、提問：您現在家裡的洗衣機使用多久了？某路人回答：用了10年以上。提示：用了10年以上的洗衣機不建議繼續使用。其實，... 2022-11-21
生活 oppor11發布會是真的嗎
前幾日，oppo在中國九座城市同時接露全新街頭大型廣告看闆，正式啟動第一波宣傳。如此大的動作正是為了全新旗艦機型OppoR11預熱造勢。本次活動包括北京、上海、廣州、成都、重慶、濟南、南京、沈陽、西安九大城市。每一次宣傳，oppo都會喊出一... 2022-11-18
生活房子如此廉價讓人覺得不可思議
引導語：住房、拆遷，我們講求風水，卻不知道房子也能讓人越住越窮。快來看看你有沒有中槍吧，風水很重要，你的運勢也會跟着大起大落。這五種房子千萬不能住！一、長期住在地下室不少打工者初期創業時，由于經濟窘迫隻能借宿地下室。然而，假如長期住在地下室... 2022-12-04
生活冷庫大蔥的儲存方法
冷庫大蔥的儲存方法?把大蔥晾曬幹，蔥頭朝下放入紙箱裡，放入陰涼通風處紙箱能防止潮濕，大蔥保持幹燥，氣溫下降就不會把大蔥凍壞，今天小編就來聊一聊關于冷庫大蔥的儲存方法?接下來我們就一起去研究一下吧!冷庫大蔥的儲存方法把大蔥晾曬幹，蔥頭朝下放入... 2022-08-23
生活怎麼使用無線藍牙耳機
怎麼使用無線藍牙耳機?首次使用，盡量讓耳機充上2-4個小時左右，以後充2小時即可，今天小編就來說說關于怎麼使用無線藍牙耳機?下面更多詳細答案一起來看看吧!怎麼使用無線藍牙耳機首次使用，盡量讓耳機充上2-4個小時左右，以後充2小時即可。點擊手... 2022-07-31
生活蜜汁豬扒飯怎麼做
蜜汁豬扒飯怎麼做?原料：豬脊肉一塊、料酒、黑胡椒粉、鹽、面粉、雞蛋一個、面包糠、海鮮醬油、糖、洋蔥、蚝油，現在小編就來說說關于蜜汁豬扒飯怎麼做?下面内容希望能幫助到你，我們來一起看看吧!蜜汁豬扒飯怎麼做原料：豬脊肉一塊、料酒、黑胡椒粉、鹽、... 2022-07-02
生活九層妖塔原型古墓在哪裡
九層妖塔原型古墓在哪裡?1982年，青海省海西州發現了一座古墓随後，考古學家又在其附近發現數百座古墓這片古墓群被命名為“熱水墓群”，其中的“血渭一号墓”規模較大，據稱就是小說中“九層妖塔”的原型，我來為大家講解一下關于九層妖塔原型古墓在哪裡... 2022-06-17
生活什麼植物可以在鹽堿地種植
什麼是鹽堿地？鹽堿地是受土體中鹽堿成分作用的，包括各種鹽土和堿土以及其它不同程度鹽化和堿化的各種類型土壤的統稱。當土壤表層或亞表層中水溶性鹽類的累積量超過1—2g/kg或者土壤堿化層的堿化度超過5%時，土壤就屬于鹽堿地範圍。鹽堿地包含了鹽土... 2022-11-04
生活名什麼大什麼四字成語
名什麼大什麼四字成語?名山大川：指主要的山嶽和河流也作“名山勝川”出自《尚書·武成》：“厎商之罪；告于皇天後土；所過名山大川”，今天小編就來聊一聊關于名什麼大什麼四字成語?接下來我們就一起去研究一下吧!名什麼大什麼四字成語名山大川：指主要的... 2022-06-26
生活仙氣的說說句子
1/落日尤其溫柔，人間皆是浪漫，要陪在值得的人身邊一年又一年。2/每一個階段的告别，都要有儀式感，鄭重而深刻。3/脾氣暴躁和溫柔并不沖突。4/青春在走，時光在老，我們未改。5/玫瑰不是唯一的花，但你是唯一的寶貝。6/落日跌進昭昭星野，人間忽... 2022-11-24
生活跟迪麗熱巴很像的網紅
最近有位美少女，因為一段地鐵上的他拍視頻，在抖音火了。這位美少女穿着藍色無袖上衣加白色短褲，一頭棕色長發，側面編成辮子夾在耳後，皮膚白皙，妝容精緻，看似随意中又帶着精心打扮。在視頻裡，時而嘟嘴，時而擡眼看線路圖，表情賣萌又無辜。近距離看五官... 2022-11-18

tft每日頭條

> 生活

> 随機森林正确率

随機森林正确率

相关生活资讯推荐

热门生活资讯推荐

网友关注