數據抽樣的方法有幾種-tft每日頭條

數據抽樣的方法有幾種

科技更新时间:2026-07-23 14:00:20

全文共3210字，預計學習時長6分鐘
你一定經曆過這種情況：下載了一個大型數據集，開始進行分析并建立機器學習模型。但在嘗試加載數據集時，計算機突然顯示“内存不足”錯誤。

這是數據科學中面臨的最大障礙之一——用運算能力有限的計算機處理大量數據。

那麼如何克服這個長期存在的問題呢？是否有一種方法可以選擇數據的子集進行分析，還可以很好地表示整個數據集呢？

有的！這種方法稱為抽樣法。在學校或大學期間，甚至在職業生涯中，都經常碰到這個術語。抽樣是收集數據子集并進行分析的好方法。但是，是否應該随機挑選子集呢？

本文将探讨八種不同類型的抽樣技術，及其适用的情況。這是一篇适合初學者的文章，其中一些描述性統計的知識也很有用。

目錄

1. 什麼是抽樣？

2. 為什麼需要抽樣？

3. 抽樣的步驟

4. 不同類型的抽樣技術

5. 概率抽樣的類型

6. 非概率抽樣的類型

什麼是抽樣？

首先，抽樣的定義如下。

抽樣是一種可以基于總體子集（樣本）的統計信息來獲取總體信息，而無需分别調查每條信息的方法。

上圖完美地說明了什麼是抽樣。可以通過示例更直觀地了解抽樣。

比如，求德裡所有成年男性的平均身高。德裡的人口大約為3千萬，男性大約為1500萬（這些隻是該例的一種假設，因此請不要信以為真！）。可以想象，要知道德裡所有男性的平均身高幾乎是不可能的。

也不可能接觸到所有男性，因此無法真正地分析整個人口。那麼能做什麼呢？可以提取多個樣本，計算所選樣本中個體的平均身高。

但是，接下來又有一個問題：如何取樣呢？應該随機抽樣嗎？還是必須詢問專家？

假設調查者可以去籃球場，以所有職業籃球運動員的平均身高作為樣本。這不是一個好樣本，因為一般而言，籃球運動員的身高要比一般男性高，這樣對平均男性身高的估計不準确。

有一個潛在的解決方案：在随機情況下尋找任意的人，這些人的樣本不會因為身高問題産生偏差。

為什麼需要抽樣？

你一定知道答案。

進行抽樣是為了從樣本中得出有關人群的結論，以便通過直接觀察群體的一部分（或樣本）來确定該人群的特征。

· 與選擇群體中的每個個體相比，選擇樣本所需的時間更少

· 樣本是一種經濟高效的方法

· 與分析整個群體相比，對樣本進行分析簡單方便而且更加實用

抽樣步驟

通過将概念可視化可以記得更牢固。因此，下面以流程圖的形式呈現抽樣的各個步驟。

可進行一個有趣的案例研究，并按照以下步驟進行抽樣。幾個月前，印度舉行了大選。當時每個新聞頻道都在跟進民意測驗：

這些結果涵蓋了印度所有9億選民的意見，還是僅考慮了一小部分選民的意見呢？一起看看這是如何進行的。

第1步

抽樣過程的第一步是明确目标人群。

因此，為了進行民意調查，投票機構僅考慮18歲以上且有資格進行投票的人群。

第2步

抽樣框架：構成抽樣樣本的個體或人群的列表。

因此，抽樣框架會将所有選民姓名都寫在某選區選民名單上。

第3步

通常，使用概率抽樣方法是因為每個投票人都具有同樣的價值，并且任何人都可以被包括在樣本中，而不管其種姓、社區或宗教信仰如何。從該國家不同地區選取不同樣本。

第4步

樣本數量——樣本中要采集的個人或物品的數量，要足夠對這一人群做出精準的推斷。

樣本量越大，對這一人群的推斷就越準确。

對于民意測驗而言，機構試圖讓有不同背景的人群盡可能多地包括在樣本中，因為這将有助于預測一個政黨可以赢得的席位數。

第5步

一旦确定了目标人群、抽樣框架、抽樣技術和樣本數量，下一步就是從樣本中收集數據。

在民意測驗中，機構通常會向人們提一些問題，例如要投票給哪個政黨或之前的政黨做了什麼工作等等。

根據答案，各機構會試圖解讀出選民将投票給誰，以及某個政黨大約可以赢得多少席位。這項非常令人興奮，對吧？

不同類型的抽樣技術

這是另一個圖解說明，介紹了不同類型的抽樣技術：

· 概率抽樣：在概率抽樣中，群體中的每個人都有被選擇的平等機會。概率抽樣提供了一個真正代表群體的樣本。

· 非概率抽樣：在非概率抽樣中，群體中的每個人都沒有被選擇的平等機會。因此，可能出現非代表性樣本，這種樣本無法産生概括性的結果。

例如，假設某個人群有20個人。每個人從1到20進行編号，并用特定的顔色（紅色、藍色、綠色或黃色）表示。每個人在概率抽樣中被選出的幾率為20分之一。

對于非概率抽樣，這些幾率并不相等。一個人可能比别人更有可能被選中。現在，已經對這兩種抽樣類型有了一個概念，再深入了解每種抽樣類型，了解每個部分下的不同抽樣類型。

概率抽樣的類型

簡單随機抽樣

這種抽樣技術十分常見。在簡單随機抽樣中，每個人都是被偶然選出來的，群體中的每個成員被選中的機會均等。

簡單的随機抽樣可減少選擇偏差。

該技術的一大優勢在于這是概率抽樣的最直接方法。但有一個警告——可能無法選擇出具有所需特征的足夠多的個體。蒙特卡洛方法通過重複随機抽樣來估計未知參數。

系統抽樣

在這種抽樣方式中，第一個個體是随機選擇的，而其他個體則使用固定的“采樣間隔”來進行選擇。舉一個簡單的例子來理解這一點。

假設某一群體的規模是x，需要選擇的樣本量為n。然後，選擇的下一個個體将是第一個個體的x / n個間隔。可以用相同的方式選擇其餘樣本。

假設從3号開始，需要的樣本數量為5。因此，接下來将選擇的第二人與第三人的間隔為（20/5）=4，或7 (3 4), 等等。

3, 3 4=7, 7 4=11, 11 4=15, 15 4=19 = 3,7, 11, 15, 19

系統抽樣比簡單随機抽樣更加方便。但是，如果存在某種潛在模式，則可能導緻偏差（盡管這種情況發生的機率非常小）。

分層抽樣

在這種類型的抽樣中，根據性别、類别等不同特征将群體分為多個子分組（稱為階層）。然後，從以下子分組中選擇樣本：

首先根據紅色、黃色、綠色和藍色這些不同顔色将群體分為多個子分組。然後，從每種顔色數字在群體中的比例選出個體。

當需要該群體所有子分組的典型代表時，可以使用這種類型的抽樣。但是，分層抽樣需要了解一定的群體特征。

聚類抽樣

在聚類樣本中，使用群體的子分組作為抽樣單位，而不是個體。群體分為多個子分組，可稱為聚類，随機選擇某個聚類以進行研究：

上例中将群體分為5類。每個聚類由4個個體組成，在樣本中采用了第4個聚類。根據樣本量，可以包括更多的聚類。

當需要關注特定地區或區域時，可以使用這種類型的抽樣。

非概率抽樣的類型

方便抽樣

這可能是最簡單的抽樣方法，根據個人的可用性和參與意願來選擇樣本。

假設編号為4、7、12、15和20的個人希望參與抽樣調查，那就把他們包含在樣本中。

方便抽樣容易産生明顯的偏差，因為樣本可能無法代表某些特征，例如群體的宗教、性别等特征。

配額抽樣

配額抽樣根據群體的預定特征選擇項目。比如在本例中，必須選擇數字為四的倍數的個人作為樣本：

因此，編号為4、8、12、16和20的個人已經成為預定樣本。

在配額抽樣中，所選樣本可能無法較好地呈現未考慮的群體特征。

判斷抽樣

也稱為選擇性抽樣。對樣本的選擇取決于專家的判斷。

假設，專家認為，應該将編号為1、7、10、15和19的個人作為樣本，因為這些樣本可以幫助更好地推斷這一群體。可以想象，配額抽樣也容易受到專家的影響，也不一定具有代表性。

雪球抽樣

這種抽樣技術要求現有抽樣人員推薦更多自己所認識的其他人員，以便樣本的數量像滾雪球一樣增加。當抽樣框架難以識别時，這種抽樣方法很有效。

例如，随機選擇了1号人員作為樣本，然後他（她）推薦了6号人員，6号人員又推薦了11号人員，依此類推。

1-> 6->11-> 14-> 19

雪球抽樣也可能存在選擇偏見，因為被選擇的個體與推薦他們的個體具有共同的特征。

留言點贊關注

我們一起分享AI學習與發展的幹貨

如需轉載，請後台留言，遵守轉載規範
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技本田1.5缤智儀表裡面的時間要怎樣調
1、第一步，先啟動汽車，找到儀表盤右側下方的調節按鈕；2、一直長按住調節按鈕，這時候時間小時的位置就會開始跳動，跳動後改成短按，按到想調整的小時數後放手；3、這時候它會自動跳到下一個分鐘的位置；4、跟小時的調整方式一緻，先一直短按按到想調整的分鐘數，然後松手，這時候時間就調整完畢了。 2023-07-10
科技發動機噪音大跟機油有關系嗎
1、随着機油的流動性，清潔，潤滑等性能喪失，從而造成噪音加大，甚至還會引發其他各方面的問題，建議卡友按照車輛使用手冊上的保養說明按時保養，或者按照機油桶上的說明來保養。2、不同品牌用的技術配方不同，不同的配方可能會産生不良化學反應，改變其本身自有的特性，對潤滑系統機件造成磨損，噪音變大。3、很多混加... 2023-07-10
科技輪胎慢慢漏氣是什麼原因
1、異物紮進輪胎。紮到異物是輪胎最常見的損傷。容易紮進輪胎的異物包括鐵釘、螺絲、鐵絲、玻璃碎片、尖石子、瓦片等。在這些異物當中，鐵釘和螺絲最容易将輪胎刺穿，造成輪胎暗漏，而且還會插在輪胎破損處，不及時清理的話，可能會加劇輪胎破損部位的破損程度。2、輪胎側面及内沿破損。除了輪胎正面容易被硬物暗算”外，輪胎側面和内沿也是薄弱環節。有的車主位置感不佳，經常讓輪胎側面蹭馬路牙子，久而久之就會磨損輪胎側面； 2023-07-10
科技打印機連接不上電腦是怎麼回事
演示機型：華為MateBookX&&HP6078系統版本：win101、驅動版本安裝錯誤，重新安裝正确的驅動版本。2、數據線質量有問題、損壞或過長，更換新的數據線，usb口損壞或質量有問題，更換其它的usb接口。3、沒有正常通電，檢查電源是否正常。4、打印機和系統有沖突，重新插拔數據線，并且重啟打印機和電腦。5、打印機硬件質量有問題，聯系售後詳細檢測。打印機：打印機（Printer）是計算機的輸出 2023-07-10
科技天問一号深空自拍如何實現
1、由天問一号攜帶的分離測量傳感器拍攝。2、傳感器安裝于探測器外側壁，在地面控制下與探測器本體分離，... 2023-07-10
科技定頻和變頻有什麼區别
1、定頻的壓縮機的轉速是恒定的;變頻的壓縮機轉速為随時可變的。2、使用定頻空調的房間,溫度有小幅波動... 2023-07-10
科技辦公用的電腦技巧
1、有時候要離開電腦去做其他的事情，又不想别人偷看自己的電腦，不妨按住windows鍵後，再按L鍵，... 2023-07-10
科技直角轉彎的技巧是什麼
1、入直角時，當車輛進入考試區域時，保持車頭右側的三分之一與邊線重合。2、此時右側車輪距離邊線30cm的距離。3、轉彎時，當左側前門小三角窗支柱與直角突出點重合時，迅速向左打死方向。4、出角時，對準出口時迅速将轉方向盤回正，繼續前行，完全駛出直角即可。 2023-07-10
科技山路彎道駕駛技巧有哪些
1、一定要減速慢行，這是過山路彎道的必要條件，大家過山路的時候看到轉彎的地方就要提前減速了，隻有慢速才能預防可能出現的危險。2、山路過彎道的時候一定要走好路線，如果大家走的一側是靠山體的那麼轉彎的時候一定要貼近山體，如果靠懸崖的一側則一定要靠近中間分割線，這樣才是最安全的轉彎。3、山路的彎道一般都是... 2023-07-10
科技寶馬x1變速箱是幹式還是濕式
1、濕式。2、寶馬x1是濕式雙離合變速箱，搭載的是排量2.0至3.0的L4/L6發動機，可輸出245馬力的最大動力和350Nm的峰值扭矩，可達到37.5mpg的組合燃油經濟性英國)和186克/公裡的二氧化碳排放量。3、寶馬X1是寶馬車身最為緊湊的SUV車型，車型非常優雅，修長的引擎艙蓋和不算高的車身讓X1呈現出一副休旅車的親民狀态。X1誇張的雙腎型進氣格栅出現在車身尺寸不大的X1身上，再加上天使眼 2023-07-10
科技天翼網關2.4g是千兆嗎
演示機型：華為MateBookX系統版本：win10天翼網關2.4g是千兆。使用光貓網口1接出網線，直接插在電腦上。打開網絡和共享中心-本地連接-詳細信息-速度顯示1.0G就是千兆光貓。若100M變成1.0G，則也說明該光貓就是千兆光貓。千兆網線有什麼好處：1、傳輸速度快，百兆網線，雖然裡面有8根線，傳送時，隻用了4根線。而千兆網線，傳送時，要用到8根線。2、為了達到更好的網絡體驗，現在多數用的都 2023-07-10
科技特殊符号箭頭
1、左斜上箭頭，其實想要在鍵盤上實現這個左斜上箭頭是很容易的，按住ALT+43081（小鍵盤的）輸入... 2023-07-10
科技筆記本外接顯示器對筆記本有傷害嗎
1、連接外置顯示器，屬于正常的使用，不會對電腦壽命産生較大影響，可能會因為顯示内容的增加而提高了顯卡... 2023-07-10
科技開車走直線技巧有哪些
1、首先駕駛員直線行駛時要目視前方注意兩旁，必須選定好參照物，保持直線行駛，及時修正方向，時刻注意前方各種交通情況，做到及時發現、及時處理。2、要看遠顧近握正方向，駕駛員應随着車速的變化調整目視前方的距離。車速較快，應看得遠些；車速較慢，應适當看得近些；并用餘光适時注意車輛周圍的情況。3、操作方向盤... 2023-07-10
科技手機内存已滿怎麼移到内存卡
1、在手機桌面上，找到設置”的圖标；2、打開設置，找到【應用程序】，并點擊打開；3、打開以後會顯示所安裝的全部應用，找到要搬家的應用；4、點擊以後，在界面下方會出現移至外置存儲卡”，點擊即可， 2023-07-10
科技如何做學習計劃
第一、在做學習計劃的時候，首先要自己在紙上羅列一下自己需要完成的目标和任務，然後分成細化每一個部分分成每天每個時間段，具體要幹什麼。第二、在做好學習計劃的時候就要這樣嚴格執行，而且在執行的過程中，我們可以見縫插針的利用起自己的空閑時間，比如說早上教室還沒開門之前，我們就可以在教室門口看一下書。第三、在這學習計劃的時候，切不可以過于急躁。可以先定一些小目标完成以後再一步步制定大一點的目标，而不要一上 2023-07-10
科技汽車玻璃水怎麼加
1、在選購玻璃水時，若生活在北方，應選擇防凍型玻璃水，防止冬季時，玻璃水結冰将管路凍裂玻璃水有冬季與夏季的分别，選購時要注意)。2、若生活在南方，要選擇含有除蟲膠成分的玻璃水。3、發動機艙左側有個水壺，蓋上帶着前檔噴水标志的即為玻璃水容器。4、打開蓋子後，将玻璃水灌進去，但不要灌太滿，不要超過MAX... 2023-07-10
科技 snapplugin是什麼文件夾可以...
演示機型：華為MateBookX系統版本：win10snapplugin是360安全浏覽器的截圖文件夾，可以進行删除。snapplugin可以查看電腦浏覽器保存的截圖，打開截圖，可以選擇截圖方式，通過win10的照片工具查看，可以修改截圖、裁剪畫面、将截圖發送到其他平台。電腦使用小技巧：1、快速切換程序：按Alt+Tab一鍵搞定。或按Windows鍵+Tab鍵，還有3D切換效果（适用于Win7和W 2023-07-10
科技野豬養殖技術要點有什麼
1、喂養方法。現在不管是什麼品種，都是選擇圈養的方式比較合适，而且還要給它們投喂精飼料，這樣不經能夠讓它們長的更快，增膘的速度也會有顯而易見的提高。在平時的飼養方面，也有很多要講究的地方。比如說每天投喂的次數不能少于2次，一般是上午8-9點的時候，一次，然後晚上5-6點的時候一次，這樣既可以讓它們養... 2023-07-10
科技汽車機油燈亮怎麼回事
1、機油粘度過大：機油的粘度與機油的品質息息相關，粘度越高，機油的抗高溫性越強，反之亦然。但并不是說粘度越大越好，我們應該使用和自己發動機相匹配的機油牌号。2、限壓閥堵塞或調整不當：為了防止潤滑系油壓過高而增加發動機功率消耗，造成油路中密封連接處漏油等，在主油道或機油泵上設有限壓閥。其作用是限制潤滑... 2023-07-10
科技開車上坡用幾檔好
1、在上坡的時候，我們是要根據汽車的發動機轉速來決定挂幾檔.若挂在三檔上坡時，發動機轉速降到2000轉以下時，在這個時候，一定要降低一檔，此時需要改挂二檔，當坡太陡又滿載，可能還要挂一檔才能上坡。2、對于在下坡時，建議應挂在一定的檔位上行駛，這個時候建議根據坡度來決定挂幾檔3、若是陡坡建議直接挂二檔... 2023-07-10
科技剪映怎麼使用
1、首先是打開手機桌面，然後點擊剪映APP。2、打開剪映APP首頁，然後點擊新建項目”，新建項目下方的草稿箱是沒有完成的項目，點擊未完成項目後可以繼續進行剪輯，前提是視頻素材沒有被删除。3、打開照片/視頻界面點選視頻素材，然後點擊添加到項目”。注意，必須要點選至少1個素材，可以同時添加多個素材。4、打開視頻剪輯界面後，項目就新建完成了。 2023-07-10
科技 ipad越獄是什麼意思啊
演示機型：iPadPro系統版本：iOS14.4.1以iPadPro、ios14為例。越獄是指開放用戶的操作權限，就是root權限，使得用戶可以随意擦寫任何區域的運行狀态。隻有越獄以後的iPad的文件系統才出獄可讀寫（RW）狀态，這樣才能安裝和運行第三方程序。iPad，是一款蘋果公司于2010年發布的平闆電腦，定位介于蘋果的智能手機iPhone和筆記本電腦産品之間，通體隻有四個按鍵，與iPhone 2023-07-10
科技 c1科目二多少分及格
1、80分。C1駕照考試中，科目二統稱小路考，分為5個必考項目80分（含80）以上為及格，考試完當場出成績。2、科目二，又稱小路考，是機動車駕駛證考核的一部分，是場地駕駛技能考試科目的簡稱，小車C1考試項目包括倒車入庫、側方停車、坡道定點停車和起步、直角轉彎、曲線行駛（俗稱S彎）五項必考（部分地區還... 2023-07-10
科技國産suv哪個最省油
1、寶駿560。相信大家對寶駿來說非常的熟悉，它在我們的國産品牌中發展得順風順水。寶駿汽車不僅皮實耐用，而且它的發動機是采用的通用的，不論是技術還是在燃油經濟性上都非常出色。雖然這款緊湊型SUV已經停産，但是它也成了我們國産SUV中最省油的。根據專業數據來看，其中最省油的為1.5T的手動車型，百公裡... 2023-07-10
科技安卓手機遊戲閃退怎麼解決
1、程序緩存過多：在手機設置--應用程序--全部--找到出現停止運行的程序--清理數據。2、手機内存過低：系統運行程序多，内存不足，在設置—應用程序—正在運行，關閉其他後台運行程序。3、安裝位置不對：進入設置--儲存--首選安裝位置--由系統決定，更改儲存位置。4、程序不兼容：建議卸載重新安裝該程序或卸載了一些與系統不兼容的程序。5、程序本身問題：有些程序本身存在問題，如前期騰訊組件出現問題，導緻 2023-07-10
科技集線器的作用
1、集線器的作用:集線器的主要功能是對接收到的信号進行再生整形放大,以擴大網絡的傳輸距離,同時把所有... 2023-07-10
科技圖片上的小程序怎麼識别
1、首先呢，我們打開我們手機上的微信，在微信上找一個可以識别圖片上文字的小程序，識别圖片文字的小程序... 2023-07-10
科技手機恢複出廠的方法
1、先要在手機上找到“設置”；2、然後進入到手機的設置菜單，目前是在常用設置頁面；3、點右邊的“全部... 2023-07-10
科技蘋果x怎麼分屏幕
1、點擊下載splitwebBrowser。2、在搜索欄中輸入一個視頻網站。3、然後在另一個搜索欄中輸入另外一個需要分屏的網站。4、輸入完成之後，我們就可以在一個屏幕上分屏成功了。 2023-07-10

tft每日頭條

> 科技

> 數據抽樣的方法有幾種

數據抽樣的方法有幾種

相关科技资讯推荐

热门科技资讯推荐

网友关注