數值數據是一種以數字表示的數據類型,而不是自然語言描述。有時稱為定量數據,數值數據總是以數字形式收集。數值數據與其他數字形式數據類型的區别在于它能夠對這些數字進行算術運算。
數值型數據應用方法
應用方法基于描述性統計分析,主要方法有以下幾種。
次數分布和直方圖我們以天津的少兒英語培訓機構舉例來說。數據來源 教育寶,使用爬蟲抓取機構的名稱和口碑。
假設這100家機構入住到同一所3層大樓中,我們依照口碑如何進行樓層的劃分?(雖然這種方式不太合理)
樓層 |
口碑範圍 |
入駐商家數量 |
3 |
3-3.8 |
35 |
2 |
3.9-4.3 |
45 |
1 |
4.4-4.9 |
22 |
這種叫做 分組,編程語言裡稱作 聚合。每一層作為一個分區,稱作 組 。
可以嘗試計算一下每個組的一個占比情況,也稱作相對次序。
相對次序 = 所屬組别的個數 / 數據總數
口碑分組 |
組中值 |
次數 |
相對次數 |
3-3.8 |
3.4 |
35 |
34.31% |
3.9-4.3 |
4.1 |
42 |
41.12% |
4.3-4.9 |
4.6 |
22 |
24.57% |
依據這個次序分布表可以制作直方圖,進行數據的可視化,表示數據間占比的情況。
平均數
算數平均數
幾何平均數
排序後處于中間位置上的值。
- 中位數的應用,例如平均某城市平均工資是6000,但是3、4K的工資占絕大多數,這是為什麼?
标準差标準差表示一組數據中 平均離散程度的指标 。 标準差的數據區間為 [0, ∞] 。
例如兩個球隊某場比賽中打成平手,數值分布如下,是否能看出來哪隊的平均勢力更強一些?
标準差的計算公式如下:
以未分組的情況舉例,因為兩隊的數據相互獨立。
A隊 = [ 38 ,73 ,86 ,90 ,111 ,124 ]
B隊 = [ 71 ,84 ,85 ,89 , 90 , 103 ]
通過計算得到結果為 A組 = 27.5 ,B組 = 9.5 。
推斷統計和描述統計推斷統計用于根據從樣本群體中收集的數據對大量群體進行預測或推斷。
離散數據表示可數項,可以采用數字和分類形式,具體取決于使用情況。采用可以分組到列表中的值,其中列表可能是有限的或無限的。 無論是有限的還是無限的,離散數據都采用從 1 到 10 或從 1 到無窮大的數,這些數組分别是可數有限和可數無限的。
連續數據表示測量值的數值數據,值被描述為實數線上的間隔,而不是計數。例如 5分評分系統中的累積平均績點(CGPA)将一等學生定義為 CGPA 低于4.50 - 5.00,二等高為3.50 - 4.49,二等低為2.50 - 3.49,三等學生為 1.5 - 2.49,通過為 1.00 - 1.49,失敗為 0.00 - 0.99,以此類推
連續數據可以細分為兩種類型,即間隔和比率數據。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!