tft每日頭條

 > 科技

 > 大數據分析怎麼那麼準

大數據分析怎麼那麼準

科技 更新时间:2024-07-06 16:04:32

在讨論數據和業務的過程中,如果對方時不時蹦出個這效應,那個定律,自己沒有了解的話會感覺一臉懵!其實這些概念也沒有什麼神秘的,今天整理了一下咱們數分領域常見的效應和規律,希望可以幫大家。

大數據分析怎麼那麼準(6大數據分析效應和定律)1

01

馬太效應

馬太效應出自聖經《新約·馬太福音》裡有一則寓言:“凡有的,還要加倍給他叫他多餘;沒有的,連他所有的也要奪過來”。中國也有類似的古語,看過83版射雕英雄傳的同學應該對九陰真經裡面 “天之道,損有餘而補不足” 這句話印象深了,這句話出自老子的《道德經》。

完整的古語為“天之道,損有餘而補不足;人之道則不然,損不足以奉有餘”,意思是:自然的法則,是損減有餘來補充不足。人類社會世俗的做法卻不然,而是損減貧窮不足來供奉富貴有餘。這兩句古語比較直觀地表述了馬太效應,通俗地解釋為 “強的越強,弱的越弱”

馬太效應在業務中非常常見。比如在推薦算法中,被判定為質量較好的用戶所得到的資源就越多,這種情況也會形成反饋,得到的資源越多越會被判定為質量較好的用戶,從而加劇這種效應(類似于短視頻點贊越多曝光越多,曝光越多點贊越多)

02

虹吸效應

有些同學小時候可能做過這樣的事情,把一根軟管子一頭插入水槽裡面,用嘴把水吸出來,然後把軟管子的另一頭放得比水槽裡水面低,那麼水就能源源不斷地流出來,其中的道理就是虹吸效應:液态分子間存在引力與位能差能,使液體會由壓力大的一邊流向壓力小的一邊。在業務中的虹吸效應指的是,某一主體将資源吸引過去,從而使得自身相比其他主體更加有吸引力,并導緻其他主體營養不良的現象。

這與馬太效應有相似之處但是并不相同,如果說馬太效應通俗理解為“強者越強,弱者越弱”,那麼虹吸效應的通俗解釋為“大樹地下不長草”。強者越強不一定是以犧牲弱者為代價,而虹吸就像一塊幹海綿,把周邊的資源吸幹,導緻周邊沒有資源可用甚至寸草不生。

比如,在勞動力市場,每年985、211畢業的本科研究生數量是有限的,大公司用誘人的薪資待遇吸引人才,導緻這部分人才大部分流向大公司,小公司則相對較難招聘到這部分畢業生,這也是一種虹吸現象。

再比如,在渠道投放時,假如渠道投放的總體預算是固定的,假如增加某一廠商渠道A的費用使此渠道的ECPM值(可以理解為廠商對品牌方的一種評價指标,ECPM值越高在投放中将獲得更好的資源)上漲,進而導緻渠道A的成本下降,渠道投放人員就有可能把其他渠道的預算轉移到A,久而久之A渠道的預算占比會越來越高,其他渠道預算占比越來越低,長尾的小渠道可能會停止投放。

03

幸存者偏差

幸存者偏差講的是目光聚焦于“幸存下來”的群體具備的某些特征,但是忽略了“幸存下來”的群體是否也是具備相同的特征。這裡“幸存”的概念,其實更合理的說法應該是“篩選”。

在二戰中統計學家沃德教授曾受到美國軍方邀請,為降低飛機被擊落的概率提出建議。經過觀察發現機翼是被擊中最多的地方,而機尾被擊中的概率比較小。當時軍方的指揮官認為應該加強機翼的防禦,但是沃德教授的結論是要加強機尾的防禦。原因在于樣本僅統計了返航的飛機,機翼被擊中多次依然能夠返航說明機翼并非是緻命的地方。機尾被打中的飛機,會導緻引擎受損而無法返航。

04

辛普森悖論

辛普森悖論指的是,當對比AB兩個群體的數據,并将數據拆分成多個維度時,A組在各個維度下的表現均好于B,整體A組的表現卻并不一定好于B。

舉一個栗子,對比AB兩個競品的留存,将留存拆分成新用戶和老用戶兩部分,競品A新老用戶的留存均高于競品B,但是競品A的整體留存卻低于競品B。

出現這種情況的原因在于兩點,第一是兩個競品新老用戶的占比不一緻;第二是競品A老用戶的留存高于競品B新用戶的留存(也可以是競品A新用戶的留存高于競品B老用戶的留存,在此以其中一種情況進行說明)。如果競品A老用戶占比高于競品B,那麼競品B在老用戶留存累計的優勢就有可能抹平競品B新用戶留存積累的劣勢,使得整體留存高于A。

通俗地講,就好比兩個拳擊手X、Y對打,Y在各個方面都比X有優勢,如果X采取以牙還牙的策略定是赢不了Y,所以X需要集中優勢力量攻打Y的軟肋,雖然X自己也會受到攻擊,但是如果X對Y造成的傷害遠遠高于自己可以承受的傷害,就有可能先把Y撂倒。

那“農村包圍城市,武裝奪取政權” 是否也有類似的思想呢?

05

本福特定律

本福特定律,是說一堆從實際生活得出的數據中,以1為首位數字的數的出現幾率約為總數的三成(30.1%),所以此定律經常用在檢測上市公司财報是否造假以及選舉中是否有舞弊現象。

06

帕累托定律

這個名字大家可能并不熟悉,但是一定聽過二八定律,管理學家帕累托通過研究大量事實發現:社會上20%的人占有80%的社會财富。後來經過豐富與發展這個定律表述為,在任何一組東西中,最重要的隻占其中一小部分,約20%,其餘80%盡管是多數,卻是次要的。

比如活躍用戶中僅有20%的付費用戶,付費用戶中20%的用戶貢獻了80%的收入等等。當然20%與80%隻是一個統計數據,其實質講的是 “在因果、努力和收獲之間,普遍存在着不平衡的關系” , 即不平衡關系存在的确定性和可預測性。

二八定律告訴我們把精力放在更本質的事情上,不經規劃地做事情很有可能會浪費80%的精力去産出20%的東西。有些同學在做分析的時候,可能有這種感受,跑了n個sheet的數據,結果寫報告的時候,隻用了四五個數據。所以在分析的習慣是先思考産生問題的原因,并對每個可能的原因賦予權重,然後以最簡單快捷的方式來驗證各個原因,快速排除錯誤方向,而不是在每個原因上都做詳細的解釋。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved