tft每日頭條

 > 科技

 > excel在抽樣推斷中的應用心得

excel在抽樣推斷中的應用心得

科技 更新时间:2024-10-08 22:51:27

昨天那篇講了幾種抽樣的方法,今天主要内容集中在三個地方:

1) Excel自帶的抽樣工具

2) 一般什麼情況下用得到抽樣操作

3) 抽樣數量

excel在抽樣推斷中的應用心得(Excel數據分析抽樣)1

正題開始:

1) 自帶的工具:如果已經裝過數據分析加載項的親可以直接在菜單的數據頁面打開數據分析工具,在裡面找到抽樣這一項

excel在抽樣推斷中的應用心得(Excel數據分析抽樣)2

excel在抽樣推斷中的應用心得(Excel數據分析抽樣)3

裡面提供了兩種抽樣方法,對應了昨天提到的系統抽樣和随機抽樣

excel在抽樣推斷中的應用心得(Excel數據分析抽樣)4

分層抽樣本身算是随機抽樣的一個進階版,在實際應用中算是同一類方法,其餘請自行嘗試~~~

2) 此處僅列出兩個我在教材裡看到的用處:一個是在總體數據量太大的情況下,用抽樣的方法來精簡數據,另一個是在建立數據挖掘(也能叫機器學習)的項目前期,把現有的一堆數據,切割成訓練集、驗證集和測試集,其中訓練集需要占到最大比例,測試集少些,但還是要能盡量體現數據整體情況,驗證集不是每次都需要,即便需要的時候也用不着多少

還有還有,切割數據集時,教材實名推薦分層抽樣(果然是哪個麻煩按哪個來)

3) 抽樣數量:昨天舉的例子裡,我們在一萬行數據中,自行定義了抽取一半,即5000行數據出來,雖然很多情況下很多人都是堅決果斷地決定下來就做了,但是這種拍腦袋拍出來的比例有個小小的問題:當我們抽取出來的樣本太少的時候,它就算是用的方法再科學再系統都很難表示全部數據的特征

所以,雖然怎麼定義抽取的比例是可以根據實際需要自由決定的,但是如果有需要讓抽取的部分最低限度能達到和總體一緻,我們還是有必要整個規矩,也就是抽取數量的最低底線

以不放回的抽樣方式為例,教材裡提供了這樣一個公式:

excel在抽樣推斷中的應用心得(Excel數據分析抽樣)5

怎麼樣,是不是開始産生窒息的感覺了?别急,這裡的計算結果n是底線的樣本數量,其餘的幾個部件分别是這樣:

· 大寫N是總體的數據量

· δ是标準差,角标上加個2就是方差,在這個公式裡代表數據的分布越分散,方差越大,需要的樣本數量越多(不信的親可以自己試)

· △是樣本平均值和總體平均值之間的允許的誤差率上限,由我們指定,要是我們希望抽取的樣本平均值和總體越接近,誤差就應該越小,上标的2還是平方,别想太多了

· Za/2是置信系數對應的區間,意思是說我們如果對同一個總體反反複複的做n多次的随機抽樣,就相應會得到n多個不同的樣本平均值,而這n多個樣本平均值和總體平均值的差,從理論角度上來說會呈現一個鐘型曲線的圖,這個鐘型曲線大名叫正态分布(見過别的地方也有叫高斯分布的),而我們對着這個鐘型曲線限制它的取值區間,取值區間Za/2越大,考慮進去的樣本平均和總體平均的差異可能性越多,整個結果的可靠度就越高(這裡比較繞,我看得也很暈),而且這個可靠度能高出多少是有實際數據的,一般有幾個常用的正态分布概率,數據如下:

Za/2=1,對應置信水平68.27%

Za/2=2,對應置信水平95.45%

Za/2=3,對應置信水平99.73%

具體的正态分布細講起來還挺啰嗦,我明天單獨開篇

也就是說其實這東西在公式裡的作用是個倍數,你希望樣本可靠性多高,對應就把樣本總量翻上4倍、9倍甚至16倍(且注意這上頭還是有個平方的)

現在代幾個數進去試試,假設一萬行數據裡,總體平均值300,标準差250,我們希望樣本平均值的誤差控制在5%以内,可靠程度95%附近,那麼計算出來至少需要樣本數:

n=10000*2^2*250^2/(10000*(300*0.05)^2 2^2*250^2)= 1000

——别問我為啥會算出整數,這個真的是湊巧。。。。。。

---------------------End---------------------

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved