tft每日頭條

 > 科技

 > 貝葉斯算法理論基礎

貝葉斯算法理論基礎

科技 更新时间:2024-11-25 04:37:08

說到貝葉斯模型,就算不是搞數據分析的人應該都會有所耳聞,因為它的應用範圍實在是太廣了,大數據、機器學習、數據挖掘、數據分析等領域幾乎都能夠找到貝葉斯模型的影子,甚至在金融投資、日常生活中我們都會用到,但是卻很少有人真正理解這個模型。

什麼是貝葉斯模型

在介紹貝葉斯模型之前,我們先看一個經典的貝葉斯數據挖掘案例:

如果你在一家購房機構上班,今天有8個客戶來跟你進行了購房溝通,最終你将這8個客戶的信息錄入了系統之中:

貝葉斯算法理論基礎(數據分析經典模型)1

此時又有一個客戶走了進來,經過交流你得到了這個客戶的信息:

貝葉斯算法理論基礎(數據分析經典模型)2

那麼你是否能夠判斷出這位客戶會不會買你的房子呢?

如果你沒有接觸過貝葉斯理論,你就會想,原來的8個客戶隻有3個買房了,5個沒有買房,那麼新來的這個客戶買房的意願應該也隻有3/8 。

這代表了傳統的頻率主義理論,就跟抛硬币一樣,抛了100次,50次都是正面,那麼就可以得出硬币正面朝上的概率永遠是50%,這個數值是固定不會改變的。例子裡的8個客戶就相當于8次重複試驗,其結果基本上代表了之後所有重複試驗的結果,也就是之後所有客戶買房的幾率基本都是3/8 。

但此時你又覺得似乎有些不對,不同的客戶有着不同的條件,其買房概率是不相同的,怎麼能用一個趨向結果代表所有的客戶呢?

對了!這就是貝葉斯理論的思想,簡單點講就是要在已知條件的前提下,先設定一個假設,然後通過先驗實驗來更新這個概率,每個不同的實驗都會帶來不同的概率,這就是貝葉斯公式:

貝葉斯算法理論基礎(數據分析經典模型)3

按照這個公式,我們就可以完美解決上面的這個例子:

先找出“年齡”、“性别”、“收入”、“婚姻狀況”這四個維度中買房和不買房的概率:

年齡

P(b1|a1) :30-40買房的概率是1/3

P(b1|a2) :30-40沒買房的概率是2/5

收入

P(b2|a1) --- 20-40買房的概率是2/3

P(b2|a2) --- 20-40沒買房的概率是2/5

婚姻狀況

P(b3|a1) --- 未婚買房的概率是1/3

P(b3|a2) --- 未婚沒買房的概率是3/5

性别:

P(b4|a1) --- 女性買房的概率是1/3

P(b4|a2) --- 女性沒買房的概率是1/5

OK,現在将所有的數據代入到貝葉斯公式中整合:

新用戶買房的統計概率為P(b|a1)P(a1)=0.33*0.66*0.33*0.33*3/8=0.0089

新用戶不會買房的統計概率為P(b|a2)P(a2)=0.4*0.4*0.6*0.2*5/8=0.012

所以可以得出結論:新用戶不買房的概率更大一些。

怎麼做貝葉斯模型

貝葉斯的工作流程可以分為三個階段進行,分别是準備階段、分類器訓練階段和應用階段。

貝葉斯算法理論基礎(數據分析經典模型)4

1、準備階段:

這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況确定特征屬性,并對每個特征屬性進行适當劃分,去除高度相關性的屬性,然後由人工對一部分待分類項進行分類,形成訓練樣本集合。

這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。(相當于上述例子中那8個客戶的信息,這個步驟是需要人工進行整合的)

2、分類器訓練階段:

這個階段的任務就是生成分類器,主要工作是計算每個類别在訓練樣本中的出現頻率及每個特征屬性劃分對每個類别的條件概率估計,并将結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。

這一階段是機械性階段,根據前面讨論的公式可以由程序自動計算完成。

3、應用階段:

這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類别的映射關系。

這一階段也是機械性階段,由程序完成。

貝葉斯有什麼優缺點?

貝葉斯模型的優點有4個,分别是:

  1. 貝葉斯模型發源于古典數學理論,有穩定的分類效率。
  2. 對缺失數據不太敏感,算法也比較簡單,常用于文本分類。
  3. 分類準确度高,速度快。
  4. 對小規模的數據表現很好,能處理多分類任務,适合增量式訓練,當數據量超出内存時,我們可以一批批的去增量訓練

貝葉斯模型的缺點有3個,分别是:

  1. 對訓練數據的依賴性很強,如果訓練數據誤差較大,那麼預測出來的效果就會不佳。
  2. 在實際中,屬性個數比較多或者屬性之間相關性較大時,分類效果不好。
  3. 需要知道先驗概率,且先驗概率很多時候是基于假設或者已有的訓練數據所得的,這在某些時候可能會因為假設先驗概率的原因出現分類決策上的錯誤。

貝葉斯算法理論基礎(數據分析經典模型)5

運營數據分析中的貝葉斯陷阱

通過以上案例大家對貝葉斯定律肯定都有了一定的了解,貝葉斯在運營工作中有什麼應用呢?說實話,本來我對貝葉斯在運營工作中能有多大的作用,并沒有概念,直到我在日常一活動複盤中發下了下面的案例。

我們經常會舉辦一些訓練營活動,活動分為招募期、課程期兩個時段。在招募過程我們會投放很多渠道,在結束後我們都會做複盤報告。

在複盤的過程中我們發現了一個有趣的數據,參與我們訓練營的用戶畫像調研中,工作經驗為1-3年的開發者居多,占比在70%以上。因此,我們每一期活動複盤報告中,都會如下分析:

參與活動的開發者以1-3年工作經驗者居多,說明我們的課程内容對此類開發者更具有吸引力,可以針對此類開發者,做課程設計上的優化。

那麼大家有沒有發現關于這個數據的複盤分析有沒有什麼問題?

我們的訓練營報名用戶的工作年限是1-3年居多,這是一個結果,我們隻針對這個結果進行了分析。那麼按照貝葉斯定律,很明顯我們忽略了導緻這個結果的前提條件。這個前提條件的忽略最終可能影響了我們對整件事情的判斷。這個前提條件就是:我們的投放渠道。

我們投放渠道所覆蓋的用戶的工作年限是多少?如果該活動投放的渠道所覆蓋的用戶就是1-3年工作經驗開發者居多,自然報名訓練營的用戶也會是這個群體,那我們的複盤就是錯誤的,并不能說明我們的課程對工作1-3年的開發者更具有吸引力。

如果我們的投放渠道用戶分布平均,而活動報名用戶出現了如上的分布,那我們的複盤總結便是有意義的。

在意識到以上因素後,我們在後續活動的數據模型中,增加了投放渠道用戶畫像的收集,用以完善數據完整度,避免出現原先錯誤的分析結論。

所以,以上便是貝葉斯定律在日常運營活動中的應用,掌握貝葉斯理論,在運營活動中可以避免我們做出錯誤的數據分析,以免被錯誤數據誤導而對運營策略産生影響。

來源:數據分析不是個事兒

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved