一:模型介紹
1.線性回歸的薄弱之處:
1.1. 需要拟合所有的樣本點(局部加權線性回歸除外)但是當數據擁有衆多特征并且特征之間關系十分複雜時,構建全局模型的想法就顯得太難了,也略顯笨拙。
1.2. 生活中很多問題都是非線性的,不可能使用全局線性模型來拟合任何數據
2.解決方案:
樹回歸:将數據集切分成很多份易建模的數據,然後利用我們的線性回歸技術來建模。如果首次切分後仍然難以拟合線性模型就繼續切分。
3.回歸樹與分類決策樹的區别:
3.1. 回顧一下分類決策樹的算法
3.1.1. 基于ID3(信息增益):
原理: 每次選取當前最佳的特征來分割數據,并按照該特征的所有可能取值來切分。也就是說,如果一個特征有 4 種取值,那麼數據将被切分成 4 份。一旦按照某特征切分後,該特征在之後的算法執行過程中将不會再起作用
缺點:
1. 切分方式過于迅速
2. 不能直接處理連續型特征。隻有事先将連續型特征轉換成離散型,才能在 ID3 算法中使用。但這種轉換過程會破壞連續型變量的内在性質
3.1.2. 基于 C4.5(信息增益比)
(1)隻能分類 (2)子節點可以多分
3. 基于基尼系數的CART決策樹
(1)CART算法既可以分類,也可以回歸 (2)由無數個二叉子節點構成
3.2. 下面談談基于基尼系數的CART分類決策樹的構建特點
1. 創建分類樹遞歸過程中,CART每次都選擇當前數據集中具有最小Gini信息增益的特征作為結點劃分決策樹。
2. CART算法的二分法可以簡化決策樹的規模,提高生成決策樹的效率。
3. 不能直接處理連續型特征。隻有事先将連續型特征轉換成離散型
3. CART分類與CART回歸的區别
1. 結果不同: 分類得到類别标簽, 回歸得到數值
2. 劃分子節點方法不同: 分類采用gini系數,回歸采用最小均方差來決定回歸樹的最優劃分,該劃分準則是期望劃分之後的子樹誤差方差最小。
4.CART算法最重要的基礎
4.1. 二分(Binary Split):在每次判斷過程中,都是對觀察變量進行二分。
問題一: 對離散分布、且取值數目>=3的特征的處理:
通過組合人為的創建取值序列并取GiniGain最小者作為樹分叉決策點
問題二: 對連續特征的處理
CART算法中要以GiniGain最小作為分界點選取标準
過程如下:
1. 對特征的取值進行升序排序
2. 兩個特征取值之間的中點作為可能的分裂點,将數據集分成兩部分,計算每個可能的分裂點的GiniGain。優化算法就是隻計算分類屬性發生改變的那些特征取值
3. 選擇GiniGain最小的分裂點作為該特征的最佳分裂點(注意,若修正則此處需對最佳分裂點的Gini Gain減去log2(N-1)/|D|(N是連續特征的取值個數,D是訓練數據數目)
4.2. 單變量分割:每次最優劃分都是針對單個變量。
4.3. 剪枝策略
1.預剪枝(Pre-Pruning):根據一些原則及早的停止樹增長,如樹的深度達到用戶所要的深度、節點中樣本個數少于用戶指定個數、不純度指标下降的最大幅度小于用戶指定的幅度等
2.後剪枝(Post-Pruning):通過在完全生長的樹上剪去分枝實現的,通過删除節點的分支來剪去樹節點,
5.CART算法類别
5.1CART算法用于回歸時根據葉子是具體值還是另外的機器學習模型,分為兩種
回歸樹:回歸樹返回的是“一團”數據的均值,而不是具體的、連續的預測值
模型樹:模型樹的葉子是一個個機器學習模型,如線性回歸模型,所以更稱得上是“回歸”算法
回歸樹在選擇不同特征作為分裂節點的策略上,與分類決策樹思路類似,不同之處在于,回歸樹葉節點的數據類型不是離散型,而是連續型。決策樹每個葉節點依照訓練數據表現的概率傾向決定了其最終的預測類别;而回歸樹的葉節點卻是一個個具體的值,從預測值連續這個意義上嚴格來講,回歸樹不能稱為回歸算法。因為回歸樹的葉節點返回的是一團訓練數據的均值,而不是具體的連續的值。
6.性能評測
6.1我們希望衡量預測值與真實值之間的差距。因此可以通過多種測評函數進行評價。
1.平均絕對誤差 Mean Absolute Error, MAE
2.均方誤差 Mean Squared Error, MSE
3.R-squared:拟合度檢驗是對已制作好的預測模型進行檢驗,比較它們的預測結果與實際發生情況的吻合程度。通常是對數個預測模型同時進行檢驗,選其拟合度較好地進行試用。常用的拟合度檢驗方法有:剩餘平方和檢驗、卡方(c2)檢驗和線性回歸檢驗等。拟合度,也就是“R-squared”。
7.總結
樹模型的優點:
1. 樹模型可以解決非線性特征問題
2. 樹模型不要求對特征标準化和統一量化,即數值型和類别型特征都可以直接被應用在樹模型的構建和預測過程中
3. 樹模型也可以直觀地輸出決策過程,使得預測結果具有可解釋性
樹模型的缺點:
1. 因為它可以解決複雜的非線性拟合問題,所以更容易因為模型搭建過于複雜而失去對新數據預測的精度
2. 樹模型從上至下的預測流程會因為數據細微的更改而發生較大的結構變化,因此預測穩定性差
3. 依托訓練數據構建最佳的樹模型是NP難問題,即在有限時間内無法找到最優解的問題。因此我們使用類似貪婪算法的解法隻能找到一些次優解,所以我們經常借助集成模型,在多個次優解中找一個更高的模型性能。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!