現實生活中有太多的現象都可以用正态分布來表示,如成年人的身高分布,正态曲線中間高兩邊低,大部分是中等身高,像姚明這種身高極其少。為什麼會有這種現象,中心極限定理闡述了其中的原因,該定理是統計學最專業部分的開端,說它是統計學的靈魂并不為過。
總體和樣本
作為一家飲料公司的老闆,為了能生産出讓每個客戶都滿意的飲料,肯定會很渴望知道每一個客戶的口味偏好。但是,客戶數量非常龐大,需要花費大量的金錢和時間來做全員調查研究,這是不現實的。所以,從客戶群體中選擇一部分具有代表性的消費者作為樣本,對樣本人群的口味進行調研,是更合适的方法。
無論是科學家還是企業家,在研究問題時,都存在時間和金錢的限制,所以最好的辦法是從研究對象中選取一部分來進行研究。研究對象的整個群體稱為總體,從中選取的一部分稱為樣本,如圖 8-1 所示。
圖8-1樣本和總體
抽樣
從整體中選取樣本的過程稱為抽樣。抽樣的目的是研究對象總體的特征,如果希望推斷的結果更加準确,抽取的樣本就應該盡量和總體的特征相近。統計學發展到今天,有很多抽樣設計方法,本節介紹應用最為廣泛的随機抽樣方法。其意義是,在選取樣本時,能保證總體中的每個個體都有同樣的機會被選中。
作為飲料公司的調研員,希望用簡單的随機抽樣方法去調研目标人群的口味喜好,可能嘗試過如下選取規則。
1. 周末在超市門口無規則地選取一部分人做訪談。這樣的方法會讓那些隻進行網購不進超市的人群永遠沒有機會得到訪談,這個樣本的限制條件是願意走入實體超市的人群,而真實的總體是實體店和網店的全部顧客。
2. 運用掃碼技術進行有獎征集,在飲料瓶上印刷二維碼,顧客掃碼後填寫調查問卷。這個方法會遺漏潛在客戶,沒買過該品牌飲料的客戶沒有機會接受調研,同時這個方法也會遺漏對獎品不感興趣的客戶,這個樣本的限制條件是對獎品感興趣的老客戶,無法觀察到總體的特征。
3. 在所有的大型綜合性網站投放調查問卷,由于信息不對稱和投放經費限制,不可能在所有網站全部投放,那麼喜歡上垂直細分類網站的客戶會被遺漏,同樣綜合性網站中也不是每個人都能看到調查問卷。最後這個樣本的限制條件是經常登錄綜合性網站且被廣告投放送達的人。
在現實世界中,完美的随機抽樣是很難找到的,總會有一些原因造成樣本和總體之間的偏差,這就是抽樣誤差。抽樣誤差越大,對總體的判斷就越不準确。抽樣誤差越小,對總體的判斷就越精确。
幸運的是,随着信息科技的發展,有很多工具可以用來進行随機抽樣,隻要能用計算機存儲的總體數據就可以進行随機抽樣。下面介紹用 Excel 對總體進行随機抽樣的方法。
用Excel進行抽樣
某銀行給 150 個客戶發放個人貸款,貸款發放後的 3 個月,銀行要對這一批客戶計算逾期率,并且要核查逾貸款期率與個人征信分數是否相關。所有客戶的個人征信分如圖8-2所示。
圖 8-2 150 個貸款客戶的個人征信分
現在需要從 150 個客戶中随機抽取 30 個客戶,用 Excel 來實現随機抽樣,步驟如下。
步 驟 1單擊【數據】→【數據分析】按鈕,打開【數據分析】對話框。
步 驟 2在【數據分析】對話框的【分析工具】列表框中選擇【抽樣】選項,單擊【确定】按鈕,打開【抽樣】對話框。
步 驟 3在【抽樣】對話框中設置相關參數。
(1)單擊【輸入區域】編輯框右側的折疊按鈕,選擇總體數據所在的 A2:C151 單元格區域。
注意: Excel 的抽樣工具隻能做數值抽樣,因此抽樣範圍應選取客戶編号而不是客戶姓名。也不可以對征信分抽樣,一個征信分可能對應多個客戶,隻有客戶編号才是和客戶一一對應的。
(2)在【抽樣方法】選項區域中選中【随機】單選按鈕,并将【樣本數】設置為 30。
(3)在【輸出選項】選項區域中選中【輸出區域】單選按鈕,然後單擊右側的折疊按鈕,選擇要存放結果的單元格(如 E2)。最後單擊【确定】按鈕關閉對話框,如圖 8-3 所示。
圖 8-3 抽樣設置
從散點圖中可以直觀看出變量之間的關系,如圖 7-61 所示。如果所有點之間的關系可以近似地表現為一條直線,那麼就稱為數據線性相關。
在 F2 單元格輸入以下公式,并向下向右複制填充到 F3:G31 單元格區域,補全客戶信息,如圖 8-4 所示。
=VLOOKUP($E2,$A:$C,COLUMN()-4,0)
圖 8-4 随機抽樣結果
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!