統計學是涉及數據的收集,組織,分析,解釋和呈現的學科。
統計的類型
1) 描述性統計
描述性統計是以數字和圖表的形式來理解、分析和總結數據。對不同類型的數據(數值的和分類的)使用不同的圖形和圖表來分析數據,如條形圖、餅圖、散點圖、直方圖等。所有的解釋和可視化都是描述性統計的一部分。重要的是要記住,描述性統計可以在樣本和總體數據上執行,但并不會使用總體數據。
2) 推論統計
從總體數據中提取一些數據樣本,然後從這些數據樣本中,推斷一些東西(結論)。數據樣本被用作對該總圖作出結論的基礎。這可以通過各種技術來實現,比如數據可視化和操作。
數據的類型1、數字數字
數字數據就是指數字或數值型的數據。數值數據又分為離散和連續兩類數值變量。
I) 離散數值變量——離散變量的概念是指具有有限取值範圍的變量,例如教室中的排名、系中教授的數量等。
II) 連續數值變量——連續變量的值可以是無限的,可能是範圍内的任意數值,例如員工的工資。
2、分類數據-
分類數據類型是數據的字符類型表示,例如名稱和顔色。一般來說,這些也有兩種類型。
I) 序數變量—序數分類變量,其值可以在一系列值中排序,例如學生的年級(a、B、C),或高、中、低。
II) 名義變量——這些變量沒有排名,隻是包含名稱或一些類别,如顔色名稱、主題等。
集中趨勢量數的度量集中趨勢的度量給出了數據中心的概念,即數據的中心是什麼。其中有幾個術語,如平均值、中位數和衆數。
一個特定數值變量的平均值是其中所有數值的平均值。當數據包含異常值時,不建議找出平均值并将其用于任何類型的操作,因為單個異常值會嚴重影響平均值。
中值是對所有數字排序後的中心值。如果總數是偶數,那麼它就是中心2值的平均值。它不依賴或影響異常值,除非一半的數據是異常值(這樣的話就不是異常值了)。
衆數是觀察結果中出現最多的數值。Numpy沒有提供查找衆數的函數,但是Scipy有。
在使用的時候,不要隻使用他們嗯三個的一個,可以試着全部使用這三種方法,這樣就可以理解數據的本質。
數據分布度的度量分布度度量描述了特定變量(數據項)的觀察值集的相似性或變化程度。 分布度的度量包括範圍,四分位數和四分位數範圍,方差和标準差。
1、範圍
通過比較數據的最大和最小值(最大值)來定義範圍。
2、四分位數
四分位數是按數字列表分為四分之一的值。找到四分位數的步驟是。
可以通過描繪25、50、75和100的百分位數來找到4個四分位數。其中Q2也被稱為中位數。
它通過描述與平均值的絕對偏差來描述數據的變化,也稱為平均絕對偏差(MAD)。
3、四分位數範圍(IQR)
四分位間範圍(IQR)是前75個和後部25個百分位數之間分散體的量度。它經常出現在異常值檢測和處理的情況下。
4、平均絕對偏差
它通過描述與平均值的絕對偏差來描述數據的變化,也稱為平均絕對偏差(MAD)。簡單地說,它告訴集合中每個點與平均絕對距離。
5、差方
方差衡量的是數據點離均值的距離。要計算方差,需要找出每個數據點與平均值的差值,然後平方,求和,然後取平均值。可以直接用numpy計算方差。
方差的問題在于:由于是平方,它與原始數據不在同一個計量單位内。因為它不是直觀的,所以大多數人更喜歡标準差。
6、标準差
方差的平方根是标準差,因為我們對原始單位平方,所以我們再次得到相同測量的标準差。使用Numpy,可以直接計算這個。
正态分布正态分布是鐘形曲線形式的分布,機器學習中的大多數數據集遵循正态分布,如果不是正态分布,一般會嘗試将其轉換為正态分布,許多機器學習算法在此分布上會有很好的效果,因為在現實中, 世界情景也許多用例也遵循此分配。
如果任何數據遵循正态分布或高斯分布,那麼它也遵循三個條件,稱為經驗公式
P[mean - std_dev <= mean std_dev] = 68%P[mean - 2*std_dev <= mean 2*std_dev] = 95%P[mean - 3*std_dev <= mean 3*std_dev] = 99.7%
在進行探索性數據分析的同時也可以将任何變量分布轉化為标準正态分布。
偏态偏度是對分布對稱性的一種度量,可以用直方圖(KDE)來繪制,它在數據衆數方面有一個高峰。偏度一般分為左偏數據和右偏數據兩種。有些人也把它理解為三種類型,第三種是對稱分布,即正态分布。
一、數據右偏(正偏分布)
右偏态分布是指數據有一個向右的長尾(正軸)。右偏的一個經典例子是财富分配,很少人擁有很高的财富大多數人處于中等範圍。
二、數據左偏(負偏分布)
左偏态分布是指數據有一個長尾朝向左側(負軸)。一個例子可以是學生的成績,将會有更少的學生得到更少的成績,最大的學生将會在及格類别。
中心極限定理
中心極限定理:分析任意總體的樣本數據做一些統計測量後,标準差的均值和樣本均值會近似相等。這隻是中心極限定理。
概率密度函數(PDF)如果你知道直方圖,然後你把數據進行分箱,就可以對數據進行可視化的分析。但是如果我們想對數值數據進行多類分析,那麼很難使用直方圖進行操作。這是就需要使用概率密度函數。概率密度函數是僅使用KDE(内核密度估計)在直方圖内繪制的線。
在上面的圖中,編寫3個區分分類3個類的條件該怎麼做? 使用直方圖和PDF可以輕松的看到區别。
從上方直方圖中可以看出,如果值小于2,則是setosa。 如果大于2且小于4.5,那麼它是versicolor。從5到7都是virginica。 但是4.5之後的重疊區域會對判斷進行幹擾,在這裡PDF可以為我們提供更多的理論支持。
累積分布函數(CDF)CDF可以告訴我們有多少百分比的數據小于某個特定的數字。找到CDF的過程是,将在指定點之前的所有的直方圖相加。另一種方法是使用微積分,使用曲線下面積,找到想要CDF的點,畫出直線,然後求出内部面積。可以對PDF進行積分得到CDF,對CDF求導得到PDF。
如何計算PDF和CDF我們将計算setosa的PDF和CDF。我們将花瓣長度轉換為10個分箱,并提取每個箱的樣本數和邊緣值,這些邊緣表示容器的起點和終點。為了計算PDF,我們将每個頻率計數值除以總和,我們得到概率密度函數,找到PDF,就可以繼續計算得到CDF。
ounts, bin_edges = np.histogram(iris_setosa[‘PL’], bins=10)pdf = counts / sum(counts)cdf = np.cumsum(pdf)print(pdf)print(cdf)
作者:Anjali Dharmik
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!