tft每日頭條

 > 生活

 > 大樣本抽樣優缺點

大樣本抽樣優缺點

生活 更新时间:2024-09-30 19:26:32

大樣本抽樣優缺點(八種樣本抽樣方法介紹)1

介紹

你肯定很熟悉以下情況:你下載了一個比較大的數據集,并開始分析并建立你的機器學習模型。當加載數據集時,你的計算機會爆出"内存不足"錯誤。

即使是最優秀的人也會遇到這種事。這是我們在數據科學中面臨的最大障礙之一,在受計算限制的計算機上處​​理大量數據(并非所有人都擁有Google的資源實力!)。

那麼我們如何克服這個問題呢?是否有一種方法可以選擇數據的子集并進行分析,并且該子集可以很好地表示整個數據集?

這種方法稱為抽樣。我相信你在學校期間,甚至在你的職業生涯中,都會遇到這個名詞很多次。抽樣是合成數據子集并進行分析的好方法。但是,那我們隻是随機取一個子集呢?

我們将在本文中進行讨論。我們将讨論八種不同類型的抽樣技術,以及每種方法的使用場景。這是一篇适合初學者的文章,會介紹一些統計的知識

目錄
  1. 什麼是抽樣?
  2. 為什麼我們需要抽樣?
  3. 抽樣步驟
  4. 不同類型的抽樣技術
  5. 概率抽樣的類型
  6. 非概率抽樣的類型
什麼是抽樣?

讓我們從正式定義什麼是抽樣開始。

抽樣是一種方法,它使我們能夠基于子集(樣本)的統計信息來獲取總體信息,而無需調查所有樣本。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)2

上圖完美地說明了什麼是抽樣。讓我們通過一個例子更直觀的進行理解。

我們想要找到Delhi這個城市所有成年男性的平均身高。Delhi的人口大約為3千萬,男性大約為1500萬(這些都是假想數據,不要當成實際情況了)。你可以想象,要找到Delhi所有男性的身高來計算平均身高幾乎是不可能的。

我們不可能接觸到所有男性,因此我們無法真正分析整個人口。那麼,什麼可以我們做的呢?我們可以提取多個樣本,并計算所選樣本中個體的平均身高。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)3

但是,接下來我們又提出了一個問題,我們如何取樣?我們應該随機抽樣嗎?還是我們必須問專家?

假設我們去籃球場,以所有職業籃球運動員的平均身高作為樣本。這将不是一個很好的樣本,因為一般來說,籃球運動員的身高比普通男性高,這将使我們對普通男性的身高沒有正确的估計。

這裡有一個解決方案,我們在随機的情況下随機找一些人,這樣我們的樣本就不會因為身高的不同而産生偏差。

為什麼我們需要抽樣?

我确定你在這一點上已經有了直覺的答案。

抽樣是為了從樣本中得出關于群體的結論,它使我們能夠通過直接觀察群體的一部分(樣本)來确定群體的特征。

  • 選擇一個樣本比選擇一個總體中的所有個體所需的時間更少
  • 樣本選擇是一種經濟有效的方法
  • 對樣本的分析比對整個群體的分析更方便、更實用
抽樣步驟

将概念形象化是在記憶的好方法。因此,這是一個以流程圖形式逐步進行抽樣的流程圖!

大樣本抽樣優缺點(八種樣本抽樣方法介紹)4

讓我們以一個有趣的案例研究為例,将這些步驟應用于執行抽樣。幾個月前,我們在印度舉行了大選。你一定看過當時每個新聞頻道的民意調查:

大樣本抽樣優缺點(八種樣本抽樣方法介紹)5

這些結果是根據全國9億選民的意見得出的還是根據這些選民的一小部分得出的?讓我們看看是怎麼做的。

第一步

抽樣過程的第一步是明确定義目标群體。

因此,為了進行民意調查,投票機構僅考慮18歲以上且有資格在人口中投票的人。

第二步

抽樣框架(Sampling Frame) –這是構成樣本總體的個體列表。

因此,這個例子的抽樣框架将是是名字出現在一個選區的所有投票人列表。

第三步

一般來說,使用概率抽樣方法是因為每一張選票都有相等的價值。不考慮種姓、社區或宗教,任何人都可以被包括在樣本中。不同的樣品取自全國各地不同的地區。

第四步

樣本量(Sample Size)-是指樣本中所包含的個體的數量,這些個體的數量需要足量以對期望的準确度和精度進行推斷。

樣本量越大,我們對總體的推斷就越準确。

在民意調查中,各機構試圖讓盡可能多的不同背景的人參與抽樣調查,因為這有助于預測一個政黨可能赢得的席位數量。

第五步

一旦确定了目标人群,抽樣框架,抽樣技術和樣本數量,下一步就是從樣本中收集數據。

在民意測驗中,機構通常會向人民提出問題,例如他們要投票給哪個政黨或前政黨做了什麼工作,等等。

根據答案,各機構試圖解釋選民投票給誰,以及一個政黨要赢得多少席位。

不同類型的抽樣技術

這裡是另一個圖解!這一個是關于我們可以使用的不同類型的采樣技術:

大樣本抽樣優缺點(八種樣本抽樣方法介紹)6

  • 概率抽樣: 在概率抽樣中,總體中的每個個體都有相等的被選中的機會。概率抽樣給了我們最好的機會去創造一個真正代表總體的樣本
  • 非概率抽樣:在非概率抽樣中,所有元素被選中的機會都不相等。因此,有一個顯著的風險,即最終得到一個不具代表性的樣本,它不會産生可推廣的結果

例如,假設我們的人口由20個人組成。每個個體的編号從1到20,并由特定的顔色(紅色、藍色、綠色或黃色)表示。在概率抽樣中,每個人被選中的概率是1/20。

對于非概率抽樣,這些概率是不相等的。一個人被選中的機會可能比别人大。現在我們對這兩種抽樣類型有了一定的了解,讓我們分别深入了解每種抽樣類型,并理解每種抽樣的不同類型。

概率抽樣的類型

簡單随機抽樣

這是你一定要遇到的一種抽樣技術。在這裡,每個人都是完全由随機選擇的,人口中的每個成員都有被選擇的機會。

簡單的随機抽樣可減少選擇偏差。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)7

這種技術的一大優點是它是最直接的概率抽樣方法。但它有一個缺點,它可能不會選擇特别多我們真正感興趣的個體元素。蒙特卡羅方法采用重複随機抽樣的方法對未知參數進行估計。

系統抽樣

在這種類型的抽樣中,第一個個體是随機選擇的,其他個體是使用固定的“抽樣間隔”選擇的。讓我們舉一個簡單的例子來理解這一點。

假設我們的總體大小是x,我們必須選擇一個樣本大小為n的樣本,然後,我們要選擇的下一個個體将是距離第一個個體的x/n個間隔。我們可以用同樣的方法選擇其餘的。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)8

假設,我們從第3個人開始,樣本容量是5。因此,我們要選擇的下一個個體将是(20/5)= 4,從第3個人開始,即7(3 4),依此類推。

3、3 4=7、7 4=11、11 4=15、15 4=19 . 3、7、11、15、19

大樣本抽樣優缺點(八種樣本抽樣方法介紹)9

系統抽樣比簡單随機抽樣更方便。然而,如果我們在人群中選擇項目時存在一種潛在的模式,這也可能導緻偏差(盡管這種情況發生的幾率非常低)。

分層抽樣

在這種類型的抽樣中,我們根據不同的特征,如性别、類别等,把人口分成子組(稱為層)。然後我們從這些子組中選擇樣本:

大樣本抽樣優缺點(八種樣本抽樣方法介紹)10

在這裡,我們首先根據紅、黃、綠、藍等不同的顔色将我們的種群分成不同的子組。然後,從每一種顔色中,我們根據它們在人口中的比例選擇一個個體。

當我們想要從總體的所有子組中得到表示時,我們使用這種類型的抽樣。然而,分層抽樣需要适當的人口特征的知識。

整群抽樣

在整群抽樣中,我們使用總體的子組作為抽樣單位,而不是個體。全體樣本被分為子組,稱為群,并随機選擇一個完整的群作為抽樣樣本。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)11

在上面的例子中,我們将人口分為5個群。每個群由4個個體組成,我們在樣本中選取了第4個群。我們可以根據樣本大小包含更多的群。

當我們集中在一個特定領域或區域時,就會使用這種類型的抽樣。

非概率抽樣的類型

便利抽樣

這可能是最簡單的抽樣方法,因為個人的選擇是基于他們的可用性和參與意願。

這裡,假設編号為4、7、12、15和20的個體想要成為樣本的一部分,因此,我們将把它們包含在樣本中。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)12

便利抽樣容易産生顯著的偏見,因為抽樣可能不能代表諸如宗教或人口的性别等具體特征。

配額抽樣

在這種抽樣中,我們根據預先确定的總體特征來選擇樣本。考慮到我們必須為我們的樣本我們選擇一個倍數為4的個體:

大樣本抽樣優缺點(八種樣本抽樣方法介紹)13

因此,編号為4、8、12、16和20的個人已經為我們的樣本保留。

在配額抽樣中,選擇的樣本可能不是未考慮的人口特征的最佳代表。

判斷抽樣

這也稱為選擇性抽樣。在選擇要求參加者時,取決于專家判斷。

大樣本抽樣優缺點(八種樣本抽樣方法介紹)14

假設,我們的專家認為,應該将編号為1、7、10、15和19的人作為我們的樣本,因為它們可以幫助我們更好地推斷人口。你可以想象,配額抽樣同樣也容易受到專家的偏見,不一定具有代表性。

雪球抽樣

我很喜歡這種抽樣方法。現有的人被要求推薦更多他們認識的人,這樣樣本的大小就會像滾雪球一樣增加。當抽樣框架難以識别時,這種采樣方法是有效的。

在這裡,我們随機選擇了1個人作為樣本,然後他推薦了6個人,6個人推薦了11個人,依此類推。

1-> 6-> 11-> 14-> 19

雪球抽樣有很大的選擇偏見風險,因為被引用的個體将與推薦他們的個體具有共同的特征。

結尾

在本文中,我們了解了抽樣的概念,抽樣所涉及的步驟以及不同類型的抽樣方法。抽樣在統計世界和現實世界中都有廣泛的應用。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved