tft每日頭條

 > 科技

 > 大數據分析方法和技巧

大數據分析方法和技巧

科技 更新时间:2024-06-25 13:13:12

從事大數據分析行業,理論知識必不可少,尤其是一些數學知識。我整理了一些基礎的數學名詞:

大數據分析方法和技巧(大數據分析必備理論)1

分位數(Quantile),亦稱分位點,是指将一個随機變量的概率分布範圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等。對于有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,則中位數不唯一,通常取最中間的兩個數值的平均數作為中位數,即二分位數。

衆數(Mode)是統計學名詞,在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平(衆數可以不存在或多于一個)。 修正定義:是一組數據中出現次數最多的數值,叫衆數,有時衆數在一組數中有好幾個。用 M 表示。 理性理解:簡單的說,就是一組數據中占比例最多的那個數。

極差(Range)又稱範圍誤差或全距,以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值後所得之數據。 即最大值-最小值(也就是極差)來評價一組數據的離散度

四分位差(quartile deviation),它是上四分位數(Q3,即位于75%)與下四分位數(Q1,即位于25%)的差。 計算公式為:Q = Q3-Q1 四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極值的影響。

方差(variance)用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。方差是衡量源數據和期望值相差的度量值。

标準差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。标準差是方差的算術平方根。标準差能反映一個數據集的離散程度。平均數相同的兩組數據,标準差未必相同。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved