tft每日頭條

 > 科技

 > 數據抽樣的方法有幾種

數據抽樣的方法有幾種

科技 更新时间:2025-01-07 02:39:02
全文共3210字,預計學習時長6分鐘

你一定經曆過這種情況:下載了一個大型數據集,開始進行分析并建立機器學習模型。但在嘗試加載數據集時,計算機突然顯示“内存不足”錯誤。

這是數據科學中面臨的最大障礙之一——用運算能力有限的計算機處理大量數據。

那麼如何克服這個長期存在的問題呢?是否有一種方法可以選擇數據的子集進行分析,還可以很好地表示整個數據集呢?

數據抽樣的方法有幾種(用八種抽樣技術)1

有的!這種方法稱為抽樣法。在學校或大學期間,甚至在職業生涯中,都經常碰到這個術語。抽樣是收集數據子集并進行分析的好方法。但是,是否應該随機挑選子集呢?

本文将探讨八種不同類型的抽樣技術,及其适用的情況。這是一篇适合初學者的文章,其中一些描述性統計的知識也很有用。

數據抽樣的方法有幾種(用八種抽樣技術)2

目錄

1. 什麼是抽樣?

2. 為什麼需要抽樣?

3. 抽樣的步驟

4. 不同類型的抽樣技術

5. 概率抽樣的類型

6. 非概率抽樣的類型

數據抽樣的方法有幾種(用八種抽樣技術)2

什麼是抽樣?

首先,抽樣的定義如下。

抽樣是一種可以基于總體子集(樣本)的統計信息來獲取總體信息,而無需分别調查每條信息的方法。

數據抽樣的方法有幾種(用八種抽樣技術)4

上圖完美地說明了什麼是抽樣。可以通過示例更直觀地了解抽樣。

比如,求德裡所有成年男性的平均身高。德裡的人口大約為3千萬,男性大約為1500萬(這些隻是該例的一種假設,因此請不要信以為真!)。可以想象,要知道德裡所有男性的平均身高幾乎是不可能的。

也不可能接觸到所有男性,因此無法真正地分析整個人口。那麼能做什麼呢?可以提取多個樣本,計算所選樣本中個體的平均身高。

數據抽樣的方法有幾種(用八種抽樣技術)5

但是,接下來又有一個問題:如何取樣呢?應該随機抽樣嗎?還是必須詢問專家?

假設調查者可以去籃球場,以所有職業籃球運動員的平均身高作為樣本。這不是一個好樣本,因為一般而言,籃球運動員的身高要比一般男性高,這樣對平均男性身高的估計不準确。

有一個潛在的解決方案:在随機情況下尋找任意的人,這些人的樣本不會因為身高問題産生偏差。

數據抽樣的方法有幾種(用八種抽樣技術)2

為什麼需要抽樣?

你一定知道答案。

進行抽樣是為了從樣本中得出有關人群的結論,以便通過直接觀察群體的一部分(或樣本)來确定該人群的特征。

· 與選擇群體中的每個個體相比,選擇樣本所需的時間更少

· 樣本是一種經濟高效的方法

· 與分析整個群體相比,對樣本進行分析簡單方便而且更加實用

數據抽樣的方法有幾種(用八種抽樣技術)2

抽樣步驟

通過将概念可視化可以記得更牢固。因此,下面以流程圖的形式呈現抽樣的各個步驟。

數據抽樣的方法有幾種(用八種抽樣技術)8

可進行一個有趣的案例研究,并按照以下步驟進行抽樣。幾個月前,印度舉行了大選。當時每個新聞頻道都在跟進民意測驗:

數據抽樣的方法有幾種(用八種抽樣技術)9

這些結果涵蓋了印度所有9億選民的意見,還是僅考慮了一小部分選民的意見呢?一起看看這是如何進行的。

第1步

抽樣過程的第一步是明确目标人群。

因此,為了進行民意調查,投票機構僅考慮18歲以上且有資格進行投票的人群。

第2步

抽樣框架:構成抽樣樣本的個體或人群的列表。

因此,抽樣框架會将所有選民姓名都寫在某選區選民名單上。

第3步

通常,使用概率抽樣方法是因為每個投票人都具有同樣的價值,并且任何人都可以被包括在樣本中,而不管其種姓、社區或宗教信仰如何。從該國家不同地區選取不同樣本。

第4步

樣本數量——樣本中要采集的個人或物品的數量,要足夠對這一人群做出精準的推斷。

樣本量越大,對這一人群的推斷就越準确。

對于民意測驗而言,機構試圖讓有不同背景的人群盡可能多地包括在樣本中,因為這将有助于預測一個政黨可以赢得的席位數。

第5步

一旦确定了目标人群、抽樣框架、抽樣技術和樣本數量,下一步就是從樣本中收集數據。

在民意測驗中,機構通常會向人們提一些問題,例如要投票給哪個政黨或之前的政黨做了什麼工作等等。

根據答案,各機構會試圖解讀出選民将投票給誰,以及某個政黨大約可以赢得多少席位。這項非常令人興奮,對吧?

數據抽樣的方法有幾種(用八種抽樣技術)2

不同類型的抽樣技術

這是另一個圖解說明,介紹了不同類型的抽樣技術:

數據抽樣的方法有幾種(用八種抽樣技術)11

· 概率抽樣:在概率抽樣中,群體中的每個人都有被選擇的平等機會。概率抽樣提供了一個真正代表群體的樣本。

· 非概率抽樣:在非概率抽樣中,群體中的每個人都沒有被選擇的平等機會。因此,可能出現非代表性樣本,這種樣本無法産生概括性的結果。

例如,假設某個人群有20個人。每個人從1到20進行編号,并用特定的顔色(紅色、藍色、綠色或黃色)表示。每個人在概率抽樣中被選出的幾率為20分之一。

對于非概率抽樣,這些幾率并不相等。一個人可能比别人更有可能被選中。現在,已經對這兩種抽樣類型有了一個概念,再深入了解每種抽樣類型,了解每個部分下的不同抽樣類型。

數據抽樣的方法有幾種(用八種抽樣技術)2

概率抽樣的類型

簡單随機抽樣

這種抽樣技術十分常見。在簡單随機抽樣中,每個人都是被偶然選出來的,群體中的每個成員被選中的機會均等。

簡單的随機抽樣可減少選擇偏差。

數據抽樣的方法有幾種(用八種抽樣技術)13

該技術的一大優勢在于這是概率抽樣的最直接方法。但有一個警告——可能無法選擇出具有所需特征的足夠多的個體。蒙特卡洛方法通過重複随機抽樣來估計未知參數。

系統抽樣

在這種抽樣方式中,第一個個體是随機選擇的,而其他個體則使用固定的“采樣間隔”來進行選擇。舉一個簡單的例子來理解這一點。

假設某一群體的規模是x,需要選擇的樣本量為n。然後,選擇的下一個個體将是第一個個體的x / n個間隔。可以用相同的方式選擇其餘樣本。

數據抽樣的方法有幾種(用八種抽樣技術)14

假設從3号開始,需要的樣本數量為5。因此,接下來将選擇的第二人與第三人的間隔為(20/5)=4,或7 (3 4), 等等。

3, 3 4=7, 7 4=11, 11 4=15, 15 4=19 = 3,7, 11, 15, 19

數據抽樣的方法有幾種(用八種抽樣技術)15

數據抽樣的方法有幾種(用八種抽樣技術)16

系統抽樣比簡單随機抽樣更加方便。但是,如果存在某種潛在模式,則可能導緻偏差(盡管這種情況發生的機率非常小)。

分層抽樣

在這種類型的抽樣中,根據性别、類别等不同特征将群體分為多個子分組(稱為階層)。然後,從以下子分組中選擇樣本:

數據抽樣的方法有幾種(用八種抽樣技術)17

首先根據紅色、黃色、綠色和藍色這些不同顔色将群體分為多個子分組。然後,從每種顔色數字在群體中的比例選出個體。

當需要該群體所有子分組的典型代表時,可以使用這種類型的抽樣。但是,分層抽樣需要了解一定的群體特征。

聚類抽樣

在聚類樣本中,使用群體的子分組作為抽樣單位,而不是個體。群體分為多個子分組,可稱為聚類,随機選擇某個聚類以進行研究:

數據抽樣的方法有幾種(用八種抽樣技術)18

上例中将群體分為5類。每個聚類由4個個體組成,在樣本中采用了第4個聚類。根據樣本量,可以包括更多的聚類。

當需要關注特定地區或區域時,可以使用這種類型的抽樣。

數據抽樣的方法有幾種(用八種抽樣技術)2

非概率抽樣的類型

方便抽樣

這可能是最簡單的抽樣方法,根據個人的可用性和參與意願來選擇樣本。

假設編号為4、7、12、15和20的個人希望參與抽樣調查,那就把他們包含在樣本中。

數據抽樣的方法有幾種(用八種抽樣技術)20

方便抽樣容易産生明顯的偏差,因為樣本可能無法代表某些特征,例如群體的宗教、性别等特征。

配額抽樣

配額抽樣根據群體的預定特征選擇項目。比如在本例中,必須選擇數字為四的倍數的個人作為樣本:

數據抽樣的方法有幾種(用八種抽樣技術)21

因此,編号為4、8、12、16和20的個人已經成為預定樣本。

在配額抽樣中,所選樣本可能無法較好地呈現未考慮的群體特征。

判斷抽樣

也稱為選擇性抽樣。對樣本的選擇取決于專家的判斷。

數據抽樣的方法有幾種(用八種抽樣技術)22

假設,專家認為,應該将編号為1、7、10、15和19的個人作為樣本,因為這些樣本可以幫助更好地推斷這一群體。可以想象,配額抽樣也容易受到專家的影響,也不一定具有代表性。

雪球抽樣

這種抽樣技術要求現有抽樣人員推薦更多自己所認識的其他人員,以便樣本的數量像滾雪球一樣增加。當抽樣框架難以識别時,這種抽樣方法很有效。

數據抽樣的方法有幾種(用八種抽樣技術)23

例如,随機選擇了1号人員作為樣本,然後他(她)推薦了6号人員,6号人員又推薦了11号人員,依此類推。

1-> 6->11-> 14-> 19

雪球抽樣也可能存在選擇偏見,因為被選擇的個體與推薦他們的個體具有共同的特征。

數據抽樣的方法有幾種(用八種抽樣技術)24

留言 點贊 關注

我們一起分享AI學習與發展的幹貨

如需轉載,請後台留言,遵守轉載規範

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved