tft每日頭條

 > 科技

 > 大數據的基本分析方法

大數據的基本分析方法

科技 更新时间:2024-11-30 18:54:40

大數據的基本分析方法(大數據分析必備理論)1

上一篇是介紹數學名稱基礎知識,此文來總結一些大數據分析常用的系數和基本方法:

離散系數(coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為标準差與平均值之比。離散系數又稱變異系數,是統計學當中的常用統計指标。離散系數是測度數據離散程度的相對統計量,主要是用于比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。

偏态系數(deviation coefficient)又稱偏差系數,說明随機系列分配不對稱程度的統計參數,用Cs表示。和Cv隻能反映頻率密度分配曲線的平均情況和離散程度,而不能反映其對稱(即偏态)情況,所以必須再引入一個參數,即偏差系數Cso。偏态系數絕對值越大,偏斜越嚴重。以平均值與中位數之差對标準差之比率來衡量偏斜的程度,沒有百年以上的資料,偏态系數的計算結果很難得到一個合理的數值。

峰度系數(kurtosis)是用來反映頻數分布曲線頂端尖峭或扁平程度的指标。有時兩組數據的算術平均數、标準差和偏态系數都相同,但他們分布曲線頂端的高聳程度卻不同。峰度系數(Kurtosis)用來度量數據在中心聚集程度。

一些常用的數學分析方法:

移動平均法是用一組最近的實際數據值來預測未來一期或幾期内公司産品的需求量、公司産能等的一種常用方法。移動平均法适用于即期預測。當産品需求既不快速增長也不快速下降,且不存在季節性因素時,移動平均法能有效地消除預測中的随機波動,是非常有用的。

簡單指數平滑預測是加權平均的一種特殊形式, 它是把t期的實際值Yt和t期的平滑值St加權平均 作為t 1期的預測值。 也用于中短期經濟發展趨勢預測,所有預測方法中,指數平滑是用得最多的一種。

最小二乘法(又稱最小平方法)是一種數學優化技術。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,并使得這些求得的數據與實際數據之間誤差的平方和為最小。最小二乘法還可用于曲線拟合。其他一些優化問題也可通過最小化能量或最大化熵用最小二乘法來表達。

離差平方和法,Ward提出來的,所以又稱為Ward法。該方法的基本思想來自于方差分析,如果分類正确,同類樣品的離差平方和應當較小,類與類的離差平方和較大。具體做法是先将 n個樣品各自成一類,然後每次縮小一類,每縮小一類,離差平方和就要增大,選擇使方差增加最小的兩類合并,直到 所有的樣品歸為一類為止。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved