tft每日頭條

 > 科技

 > 數據的标準差的取值

數據的标準差的取值

科技 更新时间:2024-11-23 08:28:50

variability被稱作變異性或者可變性,它描述了數據點彼此之間以及距分布中心的距離。

可變性有時也稱為擴散或者分散。 因為它告訴你點是傾向于聚集在中心周圍還是更廣泛地分散。

低變異性是理想的,因為這意味着可以根據樣本數據更好地預測有關總體的信息。 高可變性意味着值的一緻性較低,因此更難做出預測。在統計學中,我們的目标是測量一組特定數據或一個分布的變異性。簡單來說,如果一個分布中的數據值是相同的,那麼它沒有變異性。

數據的标準差的取值(數據變異性的度量)1

上圖中盡管數據服從正态分布,但每個樣本都有不同的分布。 樣品 A 的變異性最大,而樣品 C 的變異性最小。

可以使用多種不同的方式對變異度進行度量

極差(Range)

數據的标準差的取值(數據變異性的度量)2

極差,又稱全距,可以顯示數據從分布中的最低值到最高值的分布。

例如,考慮以下數字:1、3、4、5、5、6、7、11。對于這組數字,極差是 11-1 或 10。

數據的标準差的取值(數據變異性的度量)3

極差的度量僅使用了 2 個數字因此受異常值影響很大,并且不會提供有關值分布的任何信息。 所以它最好與其他方法結合使用。

四分位距(Interquartile range)

數據的标準差的取值(數據變異性的度量)4

四分位距又被稱作四分差,可以提供數據分布中間的分布。

對于從低到高排序的任何分布,四分位距包含數據中一半的值。 第一個四分位數 (Q1) 包含前 25% 的值,而第四個四分位數 (Q4) 包含最後 25% 的值。

它衡量數據如何圍繞均值分布。 基本公式為:IQR = Q3 - Q1

就像極差一樣,四分位距在其計算中僅使用 2 個值。 但是IQR受異常值的影響較小:這2個值來自數據集的中間一半,所以不太可能是極端分數。

數據的标準差的取值(數據變異性的度量)5

小知識:每個分布都可以使用五個數字摘要進行組織:

  • 最低值
  • Q1:第 25 個百分位
  • Q2:中位數
  • Q3:第 75 個百分位
  • 最高值 (Q4)

數據的标準差的取值(數據變異性的度量)6

方差(Variance)

數據的标準差的取值(數據變異性的度量)7

方差表示數據集的分布範圍,但它是一個抽象數字。它反映了數據集中的分散程度。 數據越分散,方差與均值的關系就越大。

數據的标準差的取值(數據變異性的度量)8

  • 小方差 - 數據點往往非常接近均值且彼此非常接近
  • 高方差 - 數據點與均值和彼此之間非常分散
  • 零方差——所有數據值都相同
标準差(Standard Deviation)

标準偏差是數據集中的平均變異量。 它平均表示每個數據點與平均值相差多遠。标準差越大,數據集的可變性越大。

數據的标準差的取值(數據變異性的度量)9

為什麼使用 n - 1 作為樣本标準差?

當擁有總體數據時可以獲得總體标準差的準确值。 可以從每個總體成員收集數據,因此标準差反映了分布(總體)中的精确變異量。

但當無法獲得所有數據時,就可以對整體數據進行抽樣(抽樣方式這就不詳細介紹)。抽樣的結果就被稱作樣本,樣本的作用是對總體的數據進行統計推斷的。當使用樣本數據時,樣本标準差始終用作總體标準差的估計值。 在這個公式中使用 n 往往會給你一個有偏差的估計,它總會低估可變性。

将樣本 n 減少到 n - 1 會使标準偏差人為地變大,從而提供對變異性的保守估計。雖然這不是無偏估計,但它是對标準差的偏少估計:高估而不是低估樣本的可變性更好

數據的标準差的取值(數據變異性的度量)10

标準差低 - 數據點往往接近平均值 标準差高 - 數據點分布在大極差的值上

什麼是變異性的最佳衡量标準?

可變性的最佳衡量标準取決于不同衡量标準和分布水平。

對于在序數水平上測量的數據,極差和四分位距是唯一合适的變異性度量。

對于更複雜的區間和比率的數據,标準差和方差也适用。

對于正态分布,可以使用所有度量。 但标準差和方差是首選,因為它們考慮了整個數據集,但這也意味着它們很容易受到異常值的影響。

對于偏态分布或具有異常值的數據集,四分位距是最好的度量。 它受極值影響最小,因為它側重于數據集中間的部分。

作者;Ashish Kumar Singh

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved