tft每日頭條

 > 教育

 > 一本書讀懂大數據讀書筆記

一本書讀懂大數據讀書筆記

教育 更新时间:2024-07-03 18:05:59


一本書讀懂大數據讀書筆記(大數據的道與術-讀書筆記2關鍵術語解讀)1

直方圖:
直方圖(Histogram)又稱質量分布圖。是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。一般用橫軸表示數據類型,縱軸表示分布情況。


平均數:
平均數(Mean)是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。


極差: 極差(Range)是指一組測量值内最大值與最小值之差,又稱範圍誤差或全距。


方差:
方差(variance)是在概率論和統計方差衡量随機變量或一組數據時離散程度的度量。概率論中方差用來度量随機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分别與其平均數之差的平方的和的平均數。


标準差:
标準差(Standard Deviation)是方差的算術平方根,反映一個數據集的離散程度。


相關系數:
相關系數是用以反映變量之間相關關系密切程度的統計指标。其中,最常見的皮爾遜相關系數(Correlation coefficient)是按積差方法計算的,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度,着重研究線性的單相關系數。


準确率和召回率:
準确率和召回率是評價分類模型效果的兩個指标。準确率(Precision Rate,又稱“精度”、“正确率”)為分類正确的正樣本除以所有被分類為正樣本所得到的比率。召回率(Recall Rate,也叫查全率)是分類正确的正樣本除以所有真實的正樣本所得到的比率。

回歸分析:
回歸分析(Regression Analysis)是确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。如果在回歸分析中,隻包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。


大數定律:
在随機事件的大量重複出現中,往往呈現幾乎必然的規律,這個規律就是大數定律。通俗地說,這個定理就是,在試驗不變的條件下,重複試驗多次,随機事件的頻率近似于它的概率。


概率分布:
概率分布是概率論的基本概念之一,用以表述随機變量取值的概率規律。事件的概率表示了一次試驗某一個結果發生的可能性大小。若要全面了解試驗,則必須知道試驗的全部可能結果及各種可能結果發生的概率,即必須知道随機試驗的概率分布(Probability Distribution)。


假設檢驗:
假設檢驗(Hypothesis Testing)是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體做法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合适的統計量,這個統計量的選取要使得在假設H0成立時,其分布為已知;由實測的樣本,計算出統計量的值,并根據預先給定的顯著性水平進行檢驗,做出拒絕或接受假設H0的判斷。


區間估計:
參數估計的一種形式。通過從總體中抽取的樣本,根據一定的正确度與精确度的要求,構造出适當的區間,以作為總體的分布參數(或參數的函數)的真值所在範圍的估計。


過拟合:
給定一個假設空間H,一個假設h屬于H,如果存在其他的假設h'屬于H,使得在訓練樣例上h的錯誤率比h'小,但在整個實例分布上h'比h的錯誤率小,那麼就說假設h過度拟合訓練數據。

A/B測試:
又稱對照組實驗,也稱平行組實驗,是指既有實驗組又有對照組(控制組)的一種實驗方法。實驗組即實驗單位,對照組是同實驗組進行對比的單位。兩組在範圍,特征等方面基本相同。在對照組實驗中,要同時對兩個觀察客體,對照是實驗所控制的手段之一,目的在于消除無關變量對實驗結果的影響,增強實驗結果的可信度。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关教育资讯推荐

热门教育资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved