分類數據是一組信息的集合。如果一個組織或機構試圖獲取其員工的生物數據,則生成的數據被稱為分類數據。該數據被稱為分類數據,因為它可以根據生物數據中存在的變量(例如性别、居住狀态等)進行分組。
分類數據可以采用數值(例如“1”表示是,“0”表示否),這些數字沒有數學意義,既不能将它們加在一起,也不能彼此相減。
依舊使用天津的少兒英語培訓機構舉例來說。數據來源 教育寶,使用爬蟲抓取機構的名稱和口碑。
假設這102家機構入住到同一所3層大樓中,我們依照口碑如何進行樓層的劃分?(雖然這種方式不太合理)
樓層 |
口碑範圍 |
類别轉化 |
入駐商家數量 |
3 |
3-3.8 |
一般 |
35 |
2 |
3.9-4.3 |
好 |
45 |
1 |
4.4-4.9 |
較好 |
22 |
這種叫做 分組,編程語言裡稱作 聚合。每一層作為一個分區,稱作 組 。
可以嘗試計算一下每個組的一個的一個占比情況,也稱作相對次序。
相對次序 = 所屬組别的個數 / 數據總數
口碑分組 |
組中值 |
次數 |
相對次數 |
3-3.8 |
3.4 |
35 |
34.3% |
3.9-4.3 |
4.1 |
42 |
41.1% |
4.3-4.9 |
4.6 |
22 |
24.51% |
根據分類的百分比可以制作一個條形圖來表示。
是一種用于命名變量而不提供任何數值的數據。這種數據類型源自拉丁語命名法 Nomen(意思是名稱)是分類數據的子類别。
名義數據有時稱為『标記』或『命名』數據。名義數據的示例包括姓名、頭發顔色、性别等。
主要通過調查或問卷收集,這種數據類型是描述性的,因為它有時允許受訪者自由輸入回複。盡管這一特征有助于得出更好的結論,但有時也會給研究人員帶來問題,因為他們必須處理如此多不相關的數據。
序數數據這是一種具有固定順序或比例的數據類型。這個順序沒有一個标準的尺度來衡量每個尺度中變量的差異。
序數數據示例包括:李克特量表、區間量表、錯誤嚴重程度、客戶滿意度調查數據等。這些示例中的每一個可能有不同的收集和分析技術,但它們都是有序數據。
分類數據特征
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!