tft每日頭條

 > 科技

 > 數據挖掘中的因子分析

數據挖掘中的因子分析

科技 更新时间:2025-02-07 14:44:59

我們都知道,數據挖掘最終的目的就是建立業務模型,然後投入到實際中做一些分類或者預測的事情,但是這個模型做的好不好,我們總要評價吧?這就需要我們對建立的模型做評估,然後根據評估指标和實際的業務情況決定是否要發布這個模型,那麼常用的模型評估指标有哪些呢?他們之間的聯系又是什麼呢?今天我們就帶着這兩個問題來學習模型評估的各個指标及含義。

首先,大家應該明白機器學習或者說數據挖掘通常的目的就是分類和回歸(就是預測),那麼我們對于評估指标也從這兩個方面分,即回歸評估指标和分類評估指标。

回歸評估指标

在前面的文章中我們講解了線性回歸算法的推導過程,從中可以看出,回歸問題就是建立一個關于自變量和因變量關系的函數,通過訓練數據得到回歸函數中各變量前系數的一個過程。那麼模型的好壞就體現到用這個建立好的函數預測得出的值與真實值的差值大小(即誤差大小),如果差值越大,說明預測的越差,反之亦然。那麼對于回歸問題來說,都有哪些具體的誤差指标呢?

  • 平均絕對誤差(MAE)

數據挖掘中的因子分析(數據挖掘之模型評估)1

MAE

  • 均方誤差(MSE)

數據挖掘中的因子分析(數據挖掘之模型評估)2

MSE

  • 均方根誤差(RMSE)

數據挖掘中的因子分析(數據挖掘之模型評估)3

RMSE

可以看到,回歸問題的評價指标公式比較好理解,這裡不再贅述(其中f表示模型預測值,y表示真實值)。

分類評估指标

相比于回歸模型評價指标,分類模型的評價指标比較多且比較抽象,下面我們先看幾個符号的定義,然後再來看各個指标的定義并結合例子來理解各指标的意義。

  • TP:将正類預測為正類數
  • FN:将正類預測為負類數
  • FP:将負類預測為正類數
  • TN:将負類預測為負類數

注:一般來說,我們将關注的類作為正類。

  • 準确率(accuracy):對于給定的測試數據集,分類器(分類模型)正确分類的樣本數與總樣本數之比。
  • 精确率(precision):

數據挖掘中的因子分析(數據挖掘之模型評估)4

精确率

  • 召回率(recall):

數據挖掘中的因子分析(數據挖掘之模型評估)5

召回率

  • F1值:是精确率和召回率的調和均值。

數據挖掘中的因子分析(數據挖掘之模型評估)6

F1值

上面是關于分類問題各個指标的定義及公式,下面我們從一個例子來理解各個指标的含義。假如寵物店裡有10隻動物,其中6隻貓和4隻狗。現在将這10條數據放入一個分類器,做出分類結果如下:7隻貓,3隻狗。如果我們将貓看為正類,那麼TP,FP,TN,FN分别為:6,0,3,1,則準确率為accuracy=(6 3)/(6 0 3 1)=90%,精确率為precision=TP/(TP FP)=6/(6 0)=1,召回率recall=TP/(TP FN)=6/(6 1)=0.86,從上面的幾個指标可以看出準确率和精确率的區别,準确率是對整個樣本而言,而精确率是正樣本而言。而F1=(2*6)/(2*6 0 1)=12/13,由此可以看F1值是精确率和召回率的調和均值,所以在看評估指标時要綜合評估,不能根據某一個值的高低評價模型的好壞,當然,在評估的時候我們還要結合實際業務。對于召回率這裡在啰嗦一點,他其實就是衡量從全部的正樣本中找出正樣本的占比,比如上面的例子中實際有7隻貓,但是分類器隻找出6隻,那麼召回率就為6/7。他們的關系總結起來就是:甯可錯殺,不可放過:低準确,高召回。甯可放過一個壞人,也絕不冤枉一個好人:高準确,低召回。

ROC曲線

roc曲線是以FDR(FDR=FP/FP TN)為橫軸,以TDR(TDR=TP/(TP FN))為縱軸的曲線,如果要理解這個曲線代表的含義,那我們首先必選了解橫縱坐标FDR和TDR的含義,FDR代表在所有實際為負類的樣本中,被錯誤地判斷為正類的比率,TDR表示在所有實際的正類樣本中,被正确的判斷為正類的比率,所以說橫軸的比值越小越好,縱軸越高越好,那麼反應到圖上就是曲線與X軸圍成的面積越大越好。如下圖,

數據挖掘中的因子分析(數據挖掘之模型評估)7

ROC曲線

好了,總結一下,本文主要講了回歸模型和分類模型的評價指标及各指标的含義,在後面模型訓練過程中我們會用sklearn中的相關函數直接求得評估指标,喜歡的請點擊關注!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved