tft每日頭條

 > 科技

 > 統計學數據分析的依據和方法

統計學數據分析的依據和方法

科技 更新时间:2025-01-06 10:42:33

統計學數據分析的依據和方法?在我們的日常的企業級App或者網站的數據中,通常會遇到一些問題、男女生點擊率增加,總體為何減少?,我來為大家科普一下關于統計學數據分析的依據和方法?以下内容希望對你有幫助!

統計學數據分析的依據和方法(數據分析-需要掌握統計學的基本概念)1

統計學數據分析的依據和方法

在我們的日常的企業級App或者網站的數據中,通常會遇到一些問題、男女生點擊率增加,總體為何減少?

同事在處理數據時可能遇到各種疑問,協方差是什麼?與相關系數的區别和聯系是什麼?等等一些靈魂性的拷問。本文将一些日常工作中零碎的細節做了整理。

以備學習理解使用。

1.男女生點擊率同時增加,總體為何減少?

先看結論:因為男女的點擊率可能有較大差異,同時低點擊率群體的占比增大。

如原來男性20人,點擊1人;女性100人,點擊99人,總點擊率100/120。現在男性100人,點擊6人;女性20人,點擊20人,總點擊率26/120。即那個段子“A系中智商最低的人去讀B,同時提高了A系和B系的平均智商。”

2.協方差與相關系數的區别和聯系。

協方差:

協方差表示的是兩個變量的總體的誤差,這與隻表示一個變量誤差的方差不同。

如果兩個變量的變化趨勢一緻,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值,那麼兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值,另外一個卻小于自身的期望值,那麼兩個變量之間的協方差就是負值。

相關系數:

研究變量之間線性相關程度的量,取值範圍是[-1,1]。

相關系數也可以看成協方差:一種剔除了兩個變量量綱影響、标準化後的特殊協方差。

3.中心極限定理

中心極限定理定義:(1)任何一個樣本的平均值将會約等于其所在總體的平均值。(2)不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,并且呈正态分布。中心極限定理作用:(1)在沒有辦法得到總體全部數據的情況下,我們可以用樣本來估計總體。(2)根據總體的平均值和标準差,判斷某個樣本是否屬于總體。

4.什麼是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟

(1)聚類分析是一種無監督的學習方法,根據一定條件将相對同質的樣本歸到一個類總(俗話說人以類聚,物以群分)

正式一點的:聚類是對點集進行考察并按照某種距離測度将他們聚成多個“簇”的過程。聚類的目标是使得同一簇内的點之間的距離較短,而不同簇中點之間的距離較大。

(2)聚類方法主要有:a. 層次聚類層次法(hierarchical methods),這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。。具體又可分為“自底向上”和“自頂向下”兩種方案。

b. 劃分聚類:(經典算法為kmeans)劃分法(parTITIoning methods),給定一個有N個元組或者紀錄的數據集,分裂法将構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:  (1)每一個分組至少包含一個數據紀錄;  (2)每一個數據紀錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以後通過反複叠代的方法改變分組,使得每一次改進之後的分組方案都較前一次好,而所謂好的标準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。

c. 密度聚類基于密度的方法(density-based methods),基于密度的方法與其它方法的一個根本區别是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法隻能發現“類圓形”的聚類的缺點。

經典算法:DBSCAN:DBSCAN算法是一種典型的基于密度的聚類算法,該算法采用空間索引技術來搜索對象的鄰域,引入了“核心對象”和“密度可達”等概念,從核心對象出發,把所有密度可達的對象組成一個簇。這個方法的指導思想:隻要一個區域中的點的密度大過某個阈值,就把它加到與之相近的聚類中去。

d. 網格聚類基于網格的方法(grid-based methods),這種方法首先将數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這麼處理的一個突出的優點就是處理速度很快,通常這是與目标數據庫中記錄的個數無關的,它隻與把數據空間分為多少個單元有關。經典算法:STING:利用網格單元保存數據統計信息,從而實現多分辨率的聚類

e. 模型聚類:高斯混合模型基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然後去尋找能夠很好地滿足這個模型的數據集。

這樣一個模型可能是數據點在空間中的密度分布函數或者其它數據。它的一個潛在的假定就是:目标數據集是由一系列的概率分布所決定的。(3)k-means比較好介紹,選k個點開始作為聚類中心,然後剩下的點根據距離劃分到類中;找到新的類中心;重新分配點;叠代直到達到收斂條件或者叠代次數。 優點是快;缺點是要先指定k,同時對異常值很敏感。

5.線性回歸和邏輯回歸的區别

線性回歸針對的目标變量是區間型的, 邏輯回歸針對的目标變量是類别型的。

線性回歸模型的目标變量和自變量之間的關系假設是線性相關的 ,邏輯回歸模型中的目标變量和自變量是非線性的。線性回歸中通常會用假設,對應于自變量x的某個值,目标變量y的觀察值是服從正态分布的。

邏輯回歸中目标變量y是服從二項分布0和1或者多項分布的

邏輯回歸中不存在線性回歸中常見的殘差參數估值上,線性回歸采用最小平方法,邏輯回歸采用最大似然法。

6、為什麼說樸素貝葉斯是“樸素”的?

樸素貝葉斯是一種簡單但極為強大的預測建模算法。

之所以稱為樸素貝葉斯,是因為它假設每個輸入變量是獨立的。這是一個強硬的假設,實際情況并不一定,但是這項技術對于絕大部分的複雜問題仍然非常有效。

7、K-Means 和 KNN 算法的區别是什麼?

首先,這兩個算法解決的是數據挖掘中的兩類問題。

K-Means 是聚類算法,KNN 是分類算法。

其次,這兩個算法分别是兩種不同的學習方式。

K-Means 是非監督學習,也就是不需要事先給出分類标簽,而KNN 是有監督學習,需要我們給出訓練數據的分類标識。

最後,K值的含義不同。K-Means 中的 K 值代表 K 類。KNN 中的 K 值代表 K 個最接近的鄰居。

8. 邏輯斯蒂回歸和線性回歸的區别

邏輯斯蒂回歸的預測值是兩元的,0或1;而線性回歸的預測值是連續的。

9.數據建模

(1)描述logistic回歸與線性回歸的區别(2)簡述有監督學習和無監督學習的區别與聯系(3)請舉出幾個分類模型的評估指标,請舉出幾個回歸模型的評估指标(4)簡述工作的工作或者學校項目中,統計模型建模的基本流程(可結合分析項目說明)

10. PCA為什麼要中心化?PCA的主成分是什麼?

結論:因為要算協方差。單純的線性變換隻是産生了倍數縮放,無法消除量綱對協方差的影響,而協方差是為了讓投影後方差最大。

在統計學中,主成分分析(PCA)是一種簡化數據集的技術。它是一個線性變換。這個變換把數據變換到一個新的坐标系統中,使得任何數據投影的第一大方差在第一個坐标(稱為第一主成分)上,第二大方差在第二個坐标(第二主成分)上,依次類推。

主成分分析經常用減少數據集的維數,同時保持數據集的對方差貢獻最大的特征。

這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面。但是,這也不是一定的,要視具體應用而定。

主成分分析的原理是設法将原來變量重新組合成一組新的相互無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。

主成分分析是設法将原來衆多具有一定相關性(比如P個指标),重新組合成一組新的互相無關的綜合指标來代替原來的指标。

通常數學上的處理就是将原來P個指标作線性組合,作為新的綜合指标。

最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指标)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。

如果第一主成分不足以代表原來P個指标的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。

11. 極大似然估計

利用已知的樣本結果,反推最有可能(最大概率)導緻這樣結果的參數值。

12.置信度與置信區間是什麼意思?

置信區間是我們所計算出的變量存在的範圍,置信水平就是我們對于這個數值存在于我們計算出的這個範圍的可信程度。

舉例來講,如果我們有95%的把握,讓真正的數值在我們所計算的範圍裡,那麼在這裡,95%是置信水平,而計算出的範圍,就是置信區間。如果置信度為95%, 則抽取100個樣本來估計總體的均值,由100個樣本所構造的100個區間中,約有95個區間包含總體均值。

13.說出兩種不同的參數估計方法,并詳細介紹其中一種估計方法,對某未知參數,如何比較兩個不同估計量的優劣。

極大似然估計,最小二乘估計(最小均方誤差),矩估計(用樣本 k 階矩代替總體的 k 階矩)。

矩估計法(也稱數字特征法):

直觀意義比較明顯,但要求總體 k 階矩存在。缺點是不唯一,此時盡量使用樣本低階矩。觀測值受異常值影響較大,不夠穩健,實際中避免使用樣本高階矩。估計值可能不落在參數空間

極大似然估計法:

具有一些理論上的優點(不變性、相合性、漸近正态性)缺點是如果似然函數不可微,沒有一般的求解法則。

14.詳細介紹一種非參數統計的方法,并叙述非參數統計的優缺點

非參數統計:對總體的分布不作假設或僅作非常一般性假設條件下的統計方法。

機器學習:決策樹,随機森林,SVM;假設檢驗:符号,符号秩,秩和檢驗

優點:非參數統計方法要求的假定條件比較少,因而它的适用範圍比較廣泛。多數非參數統計方法要求的思想與運算比較簡單,可以迅速完成計算取得結果。

缺點:由于方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是說,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。對于大樣本,如不采用适當的近似,計算可能變得十分複雜。

15.談談對假設檢驗中,顯著性水平,第一類錯誤,第二類錯誤,p值,真實水平的理解。

假設檢驗:是根據樣本來推斷總體的一些給定陳述是否成立的過程第一類錯誤(type I error):拒絕了正确零假設第二類錯誤(type II error):接受了不正确零假設顯著性水平(level of significance) : 拒絕了正确零假設的最大概率(事先給定)檢驗功效(power) : 拒絕了不正确零假設概率檢驗的p-值:根據樣本,在原假設成立的前提下,出現與樣本相同或者更極端的情況的概率

16.餘弦距離與歐式距離求相似度的差别。

1)歐氏距離能夠體現個體數值特征的絕對差異,所以更多的用于需要從維度的數值大小中體現差異的分析,如使用用戶行為指标分析用戶價值的相似度或差異。

餘弦距離更多的是從方向上區分差異,而對絕對的數值不敏感,更多的用于使用用戶對内容評分來區分興趣的相似度和差異,同時修正了用戶間可能存在的度量标準不統一的問題(因為餘弦距離對絕對數值不敏感)。

2)總體來說,歐氏距離體現數值上的絕對差異,而餘弦距離體現方向上的相對差異。(1)例如,統計兩部劇的用戶觀看行為,用戶A的觀看向量為(0,1),用戶B為(1,0);此時二者的餘弦距很大,而歐氏距離很小;我們分析兩個用戶對于不同視頻的偏好,更關注相對差異,顯然應當使用餘弦距離。(2)而當我們分析用戶活躍度,以登陸次數(單位:次)和平均觀看時長(單:分鐘)作為特征時,餘弦距離會認為(1,10)、(10,100)兩個用戶距離很近;但顯然這兩個用戶活躍度是有着極大差異的,此時我們更關注數值絕對差異,應當使用歐氏距離。

17.如何判斷一個模型的好壞?

(1)是否具備清晰的概念、足夠的準确性(2)計算效率與表現形式(3)可移植性(推廣應用價值)(4)易用性

18.用全部的數據做線性回歸,這樣是什麼錯誤?

過度拟合

希望本文的内容對大家的學習或者工作能帶來一定的幫助,每天進步一點點,加油♥。

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved