全文共3210字,預計學習時長6分鐘你一定經曆過這種情況:下載了一個大型數據集,開始進行分析并建立機器學習模型。但在嘗試加載數據集時,計算機突然顯示“内存不足”錯誤。
這是數據科學中面臨的最大障礙之一——用運算能力有限的計算機處理大量數據。
那麼如何克服這個長期存在的問題呢?是否有一種方法可以選擇數據的子集進行分析,還可以很好地表示整個數據集呢?
有的!這種方法稱為抽樣法。在學校或大學期間,甚至在職業生涯中,都經常碰到這個術語。抽樣是收集數據子集并進行分析的好方法。但是,是否應該随機挑選子集呢?
本文将探讨八種不同類型的抽樣技術,及其适用的情況。這是一篇适合初學者的文章,其中一些描述性統計的知識也很有用。
目錄
1. 什麼是抽樣?
2. 為什麼需要抽樣?
3. 抽樣的步驟
4. 不同類型的抽樣技術
5. 概率抽樣的類型
6. 非概率抽樣的類型
什麼是抽樣?
首先,抽樣的定義如下。
抽樣是一種可以基于總體子集(樣本)的統計信息來獲取總體信息,而無需分别調查每條信息的方法。
上圖完美地說明了什麼是抽樣。可以通過示例更直觀地了解抽樣。
比如,求德裡所有成年男性的平均身高。德裡的人口大約為3千萬,男性大約為1500萬(這些隻是該例的一種假設,因此請不要信以為真!)。可以想象,要知道德裡所有男性的平均身高幾乎是不可能的。
也不可能接觸到所有男性,因此無法真正地分析整個人口。那麼能做什麼呢?可以提取多個樣本,計算所選樣本中個體的平均身高。
但是,接下來又有一個問題:如何取樣呢?應該随機抽樣嗎?還是必須詢問專家?
假設調查者可以去籃球場,以所有職業籃球運動員的平均身高作為樣本。這不是一個好樣本,因為一般而言,籃球運動員的身高要比一般男性高,這樣對平均男性身高的估計不準确。
有一個潛在的解決方案:在随機情況下尋找任意的人,這些人的樣本不會因為身高問題産生偏差。
為什麼需要抽樣?
你一定知道答案。
進行抽樣是為了從樣本中得出有關人群的結論,以便通過直接觀察群體的一部分(或樣本)來确定該人群的特征。
· 與選擇群體中的每個個體相比,選擇樣本所需的時間更少
· 樣本是一種經濟高效的方法
· 與分析整個群體相比,對樣本進行分析簡單方便而且更加實用
抽樣步驟
通過将概念可視化可以記得更牢固。因此,下面以流程圖的形式呈現抽樣的各個步驟。
可進行一個有趣的案例研究,并按照以下步驟進行抽樣。幾個月前,印度舉行了大選。當時每個新聞頻道都在跟進民意測驗:
這些結果涵蓋了印度所有9億選民的意見,還是僅考慮了一小部分選民的意見呢?一起看看這是如何進行的。
第1步
抽樣過程的第一步是明确目标人群。
因此,為了進行民意調查,投票機構僅考慮18歲以上且有資格進行投票的人群。
第2步
抽樣框架:構成抽樣樣本的個體或人群的列表。
因此,抽樣框架會将所有選民姓名都寫在某選區選民名單上。
第3步
通常,使用概率抽樣方法是因為每個投票人都具有同樣的價值,并且任何人都可以被包括在樣本中,而不管其種姓、社區或宗教信仰如何。從該國家不同地區選取不同樣本。
第4步
樣本數量——樣本中要采集的個人或物品的數量,要足夠對這一人群做出精準的推斷。
樣本量越大,對這一人群的推斷就越準确。
對于民意測驗而言,機構試圖讓有不同背景的人群盡可能多地包括在樣本中,因為這将有助于預測一個政黨可以赢得的席位數。
第5步
一旦确定了目标人群、抽樣框架、抽樣技術和樣本數量,下一步就是從樣本中收集數據。
在民意測驗中,機構通常會向人們提一些問題,例如要投票給哪個政黨或之前的政黨做了什麼工作等等。
根據答案,各機構會試圖解讀出選民将投票給誰,以及某個政黨大約可以赢得多少席位。這項非常令人興奮,對吧?
不同類型的抽樣技術
這是另一個圖解說明,介紹了不同類型的抽樣技術:
· 概率抽樣:在概率抽樣中,群體中的每個人都有被選擇的平等機會。概率抽樣提供了一個真正代表群體的樣本。
· 非概率抽樣:在非概率抽樣中,群體中的每個人都沒有被選擇的平等機會。因此,可能出現非代表性樣本,這種樣本無法産生概括性的結果。
例如,假設某個人群有20個人。每個人從1到20進行編号,并用特定的顔色(紅色、藍色、綠色或黃色)表示。每個人在概率抽樣中被選出的幾率為20分之一。
對于非概率抽樣,這些幾率并不相等。一個人可能比别人更有可能被選中。現在,已經對這兩種抽樣類型有了一個概念,再深入了解每種抽樣類型,了解每個部分下的不同抽樣類型。
概率抽樣的類型
簡單随機抽樣
這種抽樣技術十分常見。在簡單随機抽樣中,每個人都是被偶然選出來的,群體中的每個成員被選中的機會均等。
簡單的随機抽樣可減少選擇偏差。
該技術的一大優勢在于這是概率抽樣的最直接方法。但有一個警告——可能無法選擇出具有所需特征的足夠多的個體。蒙特卡洛方法通過重複随機抽樣來估計未知參數。
系統抽樣
在這種抽樣方式中,第一個個體是随機選擇的,而其他個體則使用固定的“采樣間隔”來進行選擇。舉一個簡單的例子來理解這一點。
假設某一群體的規模是x,需要選擇的樣本量為n。然後,選擇的下一個個體将是第一個個體的x / n個間隔。可以用相同的方式選擇其餘樣本。
假設從3号開始,需要的樣本數量為5。因此,接下來将選擇的第二人與第三人的間隔為(20/5)=4,或7 (3 4), 等等。
3, 3 4=7, 7 4=11, 11 4=15, 15 4=19 = 3,7, 11, 15, 19
系統抽樣比簡單随機抽樣更加方便。但是,如果存在某種潛在模式,則可能導緻偏差(盡管這種情況發生的機率非常小)。
分層抽樣
在這種類型的抽樣中,根據性别、類别等不同特征将群體分為多個子分組(稱為階層)。然後,從以下子分組中選擇樣本:
首先根據紅色、黃色、綠色和藍色這些不同顔色将群體分為多個子分組。然後,從每種顔色數字在群體中的比例選出個體。
當需要該群體所有子分組的典型代表時,可以使用這種類型的抽樣。但是,分層抽樣需要了解一定的群體特征。
聚類抽樣
在聚類樣本中,使用群體的子分組作為抽樣單位,而不是個體。群體分為多個子分組,可稱為聚類,随機選擇某個聚類以進行研究:
上例中将群體分為5類。每個聚類由4個個體組成,在樣本中采用了第4個聚類。根據樣本量,可以包括更多的聚類。
當需要關注特定地區或區域時,可以使用這種類型的抽樣。
非概率抽樣的類型
方便抽樣
這可能是最簡單的抽樣方法,根據個人的可用性和參與意願來選擇樣本。
假設編号為4、7、12、15和20的個人希望參與抽樣調查,那就把他們包含在樣本中。
方便抽樣容易産生明顯的偏差,因為樣本可能無法代表某些特征,例如群體的宗教、性别等特征。
配額抽樣
配額抽樣根據群體的預定特征選擇項目。比如在本例中,必須選擇數字為四的倍數的個人作為樣本:
因此,編号為4、8、12、16和20的個人已經成為預定樣本。
在配額抽樣中,所選樣本可能無法較好地呈現未考慮的群體特征。
判斷抽樣
也稱為選擇性抽樣。對樣本的選擇取決于專家的判斷。
假設,專家認為,應該将編号為1、7、10、15和19的個人作為樣本,因為這些樣本可以幫助更好地推斷這一群體。可以想象,配額抽樣也容易受到專家的影響,也不一定具有代表性。
雪球抽樣
這種抽樣技術要求現有抽樣人員推薦更多自己所認識的其他人員,以便樣本的數量像滾雪球一樣增加。當抽樣框架難以識别時,這種抽樣方法很有效。
例如,随機選擇了1号人員作為樣本,然後他(她)推薦了6号人員,6号人員又推薦了11号人員,依此類推。
1-> 6->11-> 14-> 19
雪球抽樣也可能存在選擇偏見,因為被選擇的個體與推薦他們的個體具有共同的特征。
留言 點贊 關注
我們一起分享AI學習與發展的幹貨
如需轉載,請後台留言,遵守轉載規範
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!