tft每日頭條

 > 圖文

 > 連續變量和離散變量統計學

連續變量和離散變量統計學

圖文 更新时间:2024-11-16 06:10:31

大家在學習統計時,可能會過于重視分析方法的使用,而忽略了數據收集和整理的重要性。一般而言,統計分析最重要的一步實際上是先将數據整理形成便于分析的數據形式,比如下表:

連續變量和離散變量統計學(每日丁點定量和定性變量)1

上表中雖然全是數字,但卻可以回答很多問題。比如:每個人的年齡多大?是什麼學曆?婚姻狀況如何?就業情況如何?家裡有幾口人?

這些問題的答案都是我們所調查對象的一系列特征或屬性,統計學上稱為變量(variable),也就是上表頂行各條目的名稱。初學統計學一定要訓練自己學會利用“變量”來表達。

每個被調查對象被稱為一個觀測單位(case 或 observation),變量就是觀測單位的某種特征或屬性,變量的具體取值稱為“變量值”。

由此,上表中的一系列問題對應的變量就是:年齡、學曆、婚姻狀況、就業情況、家庭人口數、ABO血型等

進一步觀察,可以發現,有些變量的取值如年齡、家庭人口數是具體的、有實際意義的數值;而有些變量的取值如學曆、婚姻狀況雖用數字來表示,但其意義卻隻是一個“代号”,背後都需要特定的文字進行定義說明,比如規定“0=未婚,1=已婚”。

因此,像年齡、家庭人口數這類變量,其取值是定量的、有計算意義的,我們稱之為定量變量(quantitative variable)

而像學曆、婚姻狀況和就業狀況這類變量的取值是定性的、主要起代号作用,稱之為定性變量(qualitative variable)。

另一方面,為了對定性變量進行統計學處理,往往需要對其進行編碼,比如“男為0,女為1”。所以,在實際的統計工作中,要避免輸入漢字,而是要注意将其轉換為相應的數字。

甚至變量名稱,如上述的“編号、年齡、學曆等”也盡量采用英文或漢語拼音來表示,避免統計軟件出錯。

更進一步思考會發現,年齡、人口數等變量一般是有單位的,并且不同人的年齡差異在理論上可以無限小,如1年、1個月、1天、1小時、0.1小時、0.01小時……

所以,年齡變量的取值範圍在理論上可以取任意正實數,注意不是正整數,比如一個人的年齡可以記為17.55歲,表示年齡為17歲6個月18天,甚至還可以利用出生時刻的信息精确到更小的時間單位(如“分、秒”)。因此,這類變量稱為連續變量(continuous variable),主要是因為其取值範圍在理論上是連續不斷的。

相反,家庭人口數這一變量就是相對于連續變量的另一類,即離散變量(discrete variable),因為不同家庭的人口數隻可能相差0、1、2,而不能相差1.1、1.2等,它的取值範圍是間斷而不連續的。

由此可見,一般僅定量變量有連續和離散之分,即一個定量變量要麼是連續的、要麼是離散的。

相較而言,定性變量從數據表現上雖然和離散變量類似,但由于它隻具有“代号”意義,所以一般不把它視為離散變量。

除此之外,定性變量的取值往往表現為互不交叉的類别(所以定性變量也稱分類變量),同時這些類别有時會存在細微的差别。

如學曆這類定性變性變量的取值為“文盲、小學、初中、高中……”,透露出一種等級或順序的感覺,因此也稱之為有序分類變量,這是指其取值的各類别之間存在着程度上的差别。

另外一個常見的例子是“滿意程度”,包括“很不滿意、不滿意、一般、滿意、非常滿意”。這類有序分類變量給人一種“半定量”的感覺,也稱為“等級變量”

與之相對的另一類定性變量,即無序分類變量,其各個取值則不存在程度的差異,比如性别、血型等。

對于無序分類變量,根據取值的不同又可分為“二項分類變量”和“多項分類變量”,比如性别(一般情況)隻分為男女兩類,所以稱之為二分類,而血型類别較多,可稱為多分類。

理清了各種變量的含義,還需要明白各種類型的變量間是可以進行轉換的。

比如血壓值一般記為定量變量,但其可按照一定的臨床标準,将其轉換為定性變量,例如根據血壓值分為:正常血壓( 收縮壓<120,舒張壓 <80)、正常高值 (120-139 80-89)、高血壓( ≥140 ≥90)。

這種變量的轉換具有方向性,隻能由“細”向“粗”轉換,即定量→有序分類→二項分類。

同時,要知道這種轉換會導緻信息損失,并且也不能作相反方向的轉化,比如隻知道某人血壓為“正常高值”,我們就無法精确得知其具體數值,所以,在統計分析過程中,如果涉及變量轉化,需要意識到這一點。

值得一提的是,變量類型的區分還與分析的基本單位有關。例如,以“是否患病”為研究變量,以個體為基本分析單位,則其為“二分類變量”,比如用“1=患病,0=未患病”;

但若以某個地區為測量和分析單位,比如比較全國各城市高血壓的患病率,此時患病率則為“定量變量”。因此,變量的設定可以依據研究目的而靈活處理

注:文章有參考,來源為《衛生統計學》(人衛第八版)

連續變量和離散變量統計學(每日丁點定量和定性變量)2

丁點幫你公衆号現推出“每日丁點 | 統計系列”,每天給你講透一個統計小問題,讓我們一起每天進步一丁點!

注:文章有參考,來源為《衛生統計學》(人衛第八版)

丁點幫你公衆号現推出“每日丁點 | 統計系列”,每天給你講透一個統計小問題,讓我們一起每天進步一丁點!

歡迎掃描下方二維碼關注我們的微信公衆号“丁點幫你”,獲取更多精彩。

“丁點幫你”是由畢業于北京大學的丁小丁和丁小點共同創立的,旨在搭建一個知識分享和一對一咨詢平台。

希望通過我們的努力,給大家分享有價值的觀點和知識,同時讓您的問題得到及時的、有針對性的回答。

歡迎交流,歡迎投稿!

現提供公衛考研——衛生統計部分一對一輔導和答疑服務,詳情可掃描下方二維碼關注了解。

連續變量和離散變量統計學(每日丁點定量和定性變量)3

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved