一文看懂幾個統計學概念-tft每日頭條

一文看懂幾個統計學概念

生活更新时间:2025-04-04 22:26:44

在數據科學藝術的執行中，統計可以說是一個強大的工具。從高層次來看，統計學是利用數學對數據進行分析的學科。基本的可視化（柱狀圖等）會給受衆一些深層的信息，但通過統計，我們可以用一種更富有信息驅動力和更有針對性的方式對數據進行操作。統計中的數學可以幫助我們對數據形成具體的結論，而不僅僅是猜測。

通過統計，我們可以獲得更深入、更細緻入微的見解，能夠了解數據的确切結構，并在此基礎上了解如何應用其他數據科學技術來獲取更多信息。今天，我們來看看數據科學家需要掌握的5個基本統計概念及其應用。

統計特征（Statistical Features）

統計特征可能是數據科學中最常用的統計概念。它通常是你在研究數據集時使用的第一種統計技術，包括偏差（bias）、方差（variance）、平均值（mean）、中位數（median）、百分位數（percentiles）等。這很好理解，在代碼中也非常容易實現。下圖可以說明這些特征。

一文看懂幾個統計學概念（人人都需要掌握的）1

一個基本的箱須圖（box- whisker-plot）

中間的那條線是數據的中位數（median），中位數比平均值（mean）更常用，因為它更不容易受到極端數值的影響。第一四分位數（first quartile，Q1）實際上是第25%的數，換句話說，是樣本所有數值由小到大排列後第25%的數字。第三四分位數（third quartile，Q3）是第75%的數，即樣本所有數值由小到大排列後第75%的數字。上限和下限即樣本數據非異常範圍内的最大值和最小值。第一四分位數和第三四分位數組成箱須圖中的箱子（box plot），第一四分位數-下限以及第三四分位數-上限連接的線段即須（whisker）

箱須圖完美地說明了我們可以用基本統計特征得出什麼結論：

當箱子較短時，意味着樣本的數據差别不大，因為在較小範圍裡有許多值。
當箱子較長時，意味着樣本的數據差别很大，因為數據分散在較大範圍内。
如果中位數接近箱子底部，那麼就意味着樣本中更多數據的數值較小，呈左偏态分布；如果中位數接近箱子頂部，那麼就意味着樣本中更多數據的數值較大，呈右偏态分布。基本上，如果中位數的那條線不在箱子中間，那麼就意味着數據分布偏态。
“須”很長？這意味着你的樣本數據有較高的标準差和方差，換句話說，數據分布分散。如果箱子一邊有很長的須，而另一邊較短，那麼你的數據可能隻在一個方向上更為分散。

所有這些信息都來自于很容易計算的簡單統計特征！當你需要快速獲取有意義的數據統計圖時，你可以試着畫箱須圖。

概率分布（Probability Distributions）

概率能夠反映随機事件出現的可能性大小。在數據科學中，概率通常被量化在0-1之間，概率為0意味着不可能事件（一定條件下必然不發生的事件），概率為1表示必然事件（一定條件下必然發生的事件）。概率分布是一個函數，表示實驗中所有可能值的概率。下圖可以幫你理解概率分布。

一文看懂幾個統計學概念（人人都需要掌握的）2

常見的概率分布。

均勻分布（左）、正态分布（中）、泊松分布（右）

均勻分布（Uniform Distribution）是3種概率分布中最基本的一種。它在區間内隻有一個值，也就是說在相同長度間隔的分布概率是等可能的，範圍之外的概率都是0。相當于一個“開或關”的分布。我們也可以把它看作是一個有兩個類别的分類變量：0或者那個一定的值。你的分類變量可能有多個值，不僅僅是0，但我們可以把它看作多重均勻分布的分段函數。
正态分布（Normal distribution），又稱高斯分布（Gaussian Distribution），由其平均值和标準差定義。正态分布的對稱軸是樣本平均值，随着樣本平均值的變化在坐标軸上左右移動，标準差描述了正态分布的離散程度（即數據是廣泛分布還是高度集中）。它由平均數所在處開始，分别向左右兩側逐漸均勻下降。與其他分布（如泊松分布）相比，正态分布的标準偏差在所有方向上都是相同的。因此，通過正态分布，我們就可以清楚知道樣本的平均值和離散程度。
泊松分布（Poisson Distribution）和正态分布相似，但多了偏斜率。如果偏度值非常小，那麼泊松分布在各個方向上的分布就和正态分布相似，相對均勻。但當偏度值很大時，數據在不同方向上的分布就不同：在一個方向上，它将非常分散；而在另一個方向上，它将高度集中。泊松分布很适合描述單位時間内随機事件發生的次數。

還得說一句題外話，除了上述三種分布之外，還有其他非常多的概率分布，你都可以深入研究，但這三種分布已經給我們提供了相當多的價值。我們可以用均勻分布快速查看和解釋分類變量。如果看到高斯分布，那我們知道有許許多多算法，它們在默認情況下都會執行地非常優異，我們應該選擇它們。對于泊松分布，我們發現必須謹慎地選擇一種算法，它擁有足夠的魯棒性應對時空的變量。

維數約簡（Dimensionality Reduction）

維數約簡這個術語很好理解：有一個數據集，我們想減少它的維度數量。在數據科學中，這個數量是特征變量的數量。維數約簡的意義就是降低原來的維數，并保證原數據庫的完整性，在約簡後的空間中執行後續程序将大大減少運算量，提高數據挖掘效率，且挖掘出來的結果與原有數據集所獲得結果基本一緻。更廣泛的說就是防止了維數災難的發生。看下圖獲得更詳細的解釋：

一文看懂幾個統計學概念（人人都需要掌握的）3

維數約簡

立方體代表我們的樣本數據集，它有三個維度，共1000個點。以現有的計算能力，1000個點很容易就能處理，但處理更大範圍的數據還是會遇到問題。然而，僅僅從二維的角度來看數據集，比如從立方體的一側來看，我們可以看到區分所有的顔色還是很容易的。通過維數約簡，我們可以将三維數據投射（project）到二維平面上。這把我們需要計算的點數減少到100，有效地節約了大量的計算時間。

另一種維數約簡的方式是特征修剪（feature pruning）。利用特征修剪，我們基本可以删去對我們的分析不重要的特征。例如，研究一個數據集之後，我們可能發現該數據集有10個特征，其中，有7個特征與輸出有很高的相關性，而其餘3個相關性不高。那麼這3個低相關性特征可能就不值得計算了，我們可以在不影響輸出的情況下從分析中删掉它們。

最常用的維數約簡方法是主成分分析（PCA），本質上是創建新的向量，這些向量可以盡可能多地反映原始變量的信息特征（即它們的相關性）。PCA可用于上述兩種維數約簡方式。在這個教程中可以獲得更多相關信息。

過采樣和欠采樣（Over and Under Sampling）

過采樣和欠采樣是用于分類問題的統計技術。有時，分類數據集可能過于偏向于一邊。例如，類别1有2000個樣本，類别2隻有200個。我們能夠用來建模、預測的許多機器學習技術都沒法用了！但是，過采樣和欠采樣可以解決這個問題。請看這張圖：

一文看懂幾個統計學概念（人人都需要掌握的）4

欠采樣（左）和過采樣（右）

上圖裡，兩張數據圖中藍色類别的樣本比橙色多多了。在這種情況下，我們有兩個預處理選項，可以幫助訓練我們的機器學習模型。

欠采樣意味着我們從多數類中選擇一些數據，隻使用和少數類數量一緻的樣本。這種選擇不是随便挑選的，而是要保證類的概率分布不變。這很容易！我們選取少量樣本，使樣本數據集更加均勻。

過采樣意味着創建少數類樣本的副本，使少數類與多數類擁有數量一緻的樣本。副本創建需要保證少數類的概率分布不變。我們不需要收集更多的樣本就能使樣本數據集更加均勻。

貝葉斯統計（Bayesian Statistics）

想要完全理解為什麼我們要用貝葉斯統計，首先需要理解頻率統計（Frequency Statistics）的缺陷。頻率統計是大多數人聽到“概率”一次時首先會想到的一種統計類型，頻率統計檢測一個事件（或者假設）是否發生，它通過長時間的試驗計算某個事件發生的可能性（試驗是在同等條件下進行的），唯一計算的數據是先驗數據（prior data）。

一文看懂幾個統計學概念（人人都需要掌握的）5

可以看這個例子。假如我給你一個骰子，問你擲出6的幾率是多少。大多數人會說是1/6。确實如此，如果做頻率分析，某人抛擲骰子10000次，計算每個數字出現的頻率，那麼我們可以看到結果每個數字出現的頻率大約是1/6。

但如果有人告訴你，給你的骰子不那麼規整，總是6朝上呢？由于頻率分析隻考慮了之前的數據，上述分析中，骰子不規整的因素沒有被考慮進去。

而貝葉斯統計就考慮了這一點。我們可以用下圖的貝葉斯法則（Baye’s Theoram）來說明：

一文看懂幾個統計學概念（人人都需要掌握的）6

貝葉斯法則

方程中，H代表一個事件，E代表另一個，P即某事件發生的概率。

P(H)即先驗概率，基本上就是數據分析的結果，即之前事件H發生的概率。

P(E|H)被稱作相似度，指假設事件H成立時，事件E發生的概率。

P(E)指事件E成立的先驗概率，也被稱作标準化常量。

P(H|E)即後驗概率，指E發生後，發生H的概率。

例如，如果你想投擲骰子10000次，前1000次全擲出的是6，你很懷疑骰子不規整了。如果我告訴你骰子确實不規整，你是相信我，還是認為這是個騙局呢？

如果頻率分析沒有什麼缺陷，那麼我們會比較自信地認定接下來的投擲出現6的概率仍是1/6。而如果骰子确實不規整，或是不基于其自身的先驗概率及頻率分析，我們在預測接下來數字出現的概率時，就必須要考慮到骰子的因素。當我們不能準确知悉一個事物的本質時，可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。正如你從方程式中能能看到的，貝葉斯統計把所有因素都考慮在内了。當你覺得之前的數據不能很好地代表未來數據和結果的時候，就應該使用貝葉斯統計。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活企業的性質有哪些怎麼區分
企業的性質有哪些怎麼區分?産業和社會不能割裂來看，特别是把企業當作經濟領域中的營利組織，而忽略了企業的社會性産業社會是由一個個組織機構組成的，其中最重要的是工商企業每個組織機構都參與到社會再生産循環之中，共同為一個社會的正常運作做貢獻，今天... 2023-04-01
生活支付寶裡面的餘額寶到底靠譜嗎
支付寶裡面有一個理财産品，相信大家也在第一時間想到，說的就是餘額寶，剛推出餘額寶之後，因為收益高吸引投資者青睐，可以說非常好的理财産品。畢竟每一款産品有利也有弊，那麼，支付寶的餘額寶有什麼利弊？下面一起看一看。利：1、流動性好：餘額寶贖回将... 2022-10-31
生活日本動漫界三大黑幫
拖着疲憊的身體......剛剛完成陌陌直播2018年度17驚喜夜晚會，回到上海立刻開始進入某集團的年終慶典晚會的彩排和編導工作。我這個和“改革開放”同齡的人，最近的3天隻睡了4個小時！各位看官老爺，曆史漫畫《戰國泥趣史》系列的第四位主人公，... 2023-01-10
生活手相怎麼看最近好運
名利紋位于無名指的第三指節，靠近無名指根部的地方，若是有圓形的車輪紋、井字形的金井紋、口字形的金印紋三種紋路符号時，則被統稱為名利紋。手相名利紋的人，最有生意頭腦，理财有招，生财有道，最容易憑着自己高超的理财生财能力，獲得巨大财富，富貴享福... 2023-03-18
生活微信為什麼顯示來自朋友驗證消息
微信為什麼顯示來自朋友驗證消息?首先這種是要在微信中設置【好友驗證】才會有“來自朋友驗證消息”，今天小編就來說說關于微信為什麼顯示來自朋友驗證消息?下面更多詳細答案一起來看看吧!微信為什麼顯示來自朋友驗證消息首先這種是要在微信中設置【好友驗... 2022-08-08
生活吃雞中的金币要怎麼用
大家好，歡迎來到《刺激實戰教室》，我是你們的老朋友刺激哥。不知道大家在玩《和平精英》的時候，有沒有遇到金币和服飾币太多，用不完的困擾呢？老實講，刺激哥倒是沒有這種困擾，即使之前存了5000多的服飾币，仍然感覺到不夠用。而遊戲金币同樣也是如此... 2022-11-11
生活進擊的巨人兵長顔值
《進擊的巨人最終季》PART2開播了，制作依然是MAPPA社。第二part開始就是沖擊性的畫面，隻見利威爾兵長已經化作一團焦黑，韓吉抱着他的屍體，說了一句“他死了”……這個開端其實是比較懵逼的，因為我清楚記得16集結尾的部分明明是艾倫變身巨... 2022-12-18
生活九寨溝金秋景色美輪美奂宛若仙境
中查溝牧民的黃牛在樹下休息。張浪攝中查溝牧民的黃牛在啃食青草。張浪攝古老的藏族村寨掩映在漫山紅葉中。張浪攝中查溝深秋如畫。張浪攝中查溝深秋如畫。張浪攝位于中查溝的九寨魯能美麗彙小鎮全景。張浪攝蜿蜒的山路與漫山紅葉相映生輝。張浪攝牛兒和馬匹在... 2023-03-23
生活花椒鹽姜醋有什麼用
花椒鹽姜醋有什麼用?生姜和花椒都屬于味辛性溫的食物，花椒鹽姜醋主要是能起到促進血管擴張和血液循環等一系列作用，所以一起用來泡腳就可以起到十分明顯的養生保健作用，我來為大家科普一下關于花椒鹽姜醋有什麼用?以下内容希望對你有幫助!花椒鹽姜醋有什... 2022-06-07
生活方特夢幻王國旅遊攻略株洲
株洲方特夢幻王國遊玩攻略來了，沒有複雜的各種指南，沒有超多的注意事項，直接告訴你方特夢幻王國最好玩的五大項目，優先體驗一定不要錯過！1.叢林飛龍、極地快車去樂園怎麼能少了過山車呢？先來一個過山車套餐提提神吧。《叢林飛龍》是木質過山車，夢幻王... 2023-02-22
生活獅子座性格分析
#獅子座##獅子座性格#獅子座男性獅子男很善于表現自己的魅力來吸引諸多異性。但當人們看到獅子座身上散發出的男性魅力時，幾乎所有人都會被他的魅力所折服。不懼怕與任何異性溝通，坦白直率地說出内心真正的想法，喜歡就是喜歡，從不去掩飾。當然，從某種... 2023-03-26
生活星冰樂可以要求少糖嗎
星冰樂可以要求少糖嗎?星冰樂是可以要求少糖的，但是不可能沒有任何甜味，因為星冰樂主要是由濃縮咖啡、低脂牛奶、幹果膠粉、可可粉、冰塊以及砂糖混合制成的，有的更是需要兩種以上糖漿進行混合，所以基本上口味都是偏甜的，今天小編就來說說關于星冰樂可以... 2022-08-11
生活描寫古典四大美女的詩句
俗話說，“美女配英雄，才子愛佳人”，全世界的人們都愛美，數千年都一樣。中國最早的詩歌集《詩經》第一篇就說，“窈窕淑女，君子好逑”。前段時間，在深受西方思想影響的媒體眼中，中國美女的形象是“細眼、大嘴、古銅色膚色”。但這不是中國人的審美觀念，... 2023-04-03
生活幼齒男戀上熟齡女
文/飄雨桐與你年輕時相比，我更愛你現在備受摧殘的容貌。——杜拉斯《情人》親愛的，我終于回來啦！這次出差的時間實在太長，整整一個星期彼此隻能通過電話來相互聯系。我切身感受到，什麼叫作“一日不見、如隔三秋”的煎熬滋味。你總是好言相勸：“事業才剛... 2022-11-25
生活唯品會新款女裝
2月19日，唯品會MO&Co.edition女裝專場正在售賣中，全場春季尖貨直降一折起。MO&Co.edition是EPO旗下高端女裝品牌，汲取西方時裝設計内涵，融合東方文化與當地藝術靈感，以時裝設計展現當代女性精神;涉及材質天然、工藝先進... 2023-03-15
生活網格布上麻繩地墊的編法
布條或毛線編的地墊坐墊小編給大家也介紹過不少但是粗繩子來回繞幾圈就有了一張結實耐用的地墊這些繩編法，運用到生活上的各種家居小用品可以幫助我們不少編織成餐墊小杯墊隔熱墊等有繩子在手就可以一起來看看吧！繩編墊DIY地墊或坐墊用這些編法夏天用起來... 2023-02-14
生活什麼樣的繡眼鳥才能大唱
繡眼鳥因其精巧善鳴，深受鳥友們的喜歡，喂養者也甚多。但我相信，大多數養繡的人都會遇到自己養的繡眼幾個月，甚至一年、兩年隻是單叫、小叙，從來沒聽到過大唱，實際上這種情況也正常，其原因除了沒有正常精心喂養外，最關鍵的是沒有選好鳥。下面，咱們就聊... 2023-04-04
生活大行d8 評測
大行D8（KBA083）全貌，從外觀上看和常見的K架車有兩處不同：01全新折疊扣全新折疊扣設計，結構和外觀擺脫了市面上現有折疊扣的影子，官方稱為“暴龍接口”。一些車友認為車子比較有肌肉，是因為此車采用了方形管，放棄了過去常見的橢圓管車架，折... 2023-02-10
生活怎樣才能讓自己得上社交恐懼症
怎樣才能讓自己得上社交恐懼症?很多人都有社交恐懼症，他們不喜歡跟陌生人打交道，這種恐懼症嚴重影響他們的生活和工作，因此人們應該學習一些緩解和治療社會恐懼症的方法，這樣才有益于人際關系的發展，我來為大家講解一下關于怎樣才能讓自己得上社交恐懼症... 2022-10-24
生活社區團購如何起步
社區團購如何起步?穩定的供貨源：多方考察，尋找優質的貨源，保證供貨持續、穩定，下面我們就來聊聊關于社區團購如何起步?接下來我們就一起去了解一下吧!社區團購如何起步穩定的供貨源：多方考察，尋找優質的貨源，保證供貨持續、穩定。建立社群：建立QQ... 2022-06-14
生活一般的香腸是怎麼制作的
特色風味香腸配方1提前預制：1.豬後臀肉50千克洗淨，瀝幹水分，切成1厘米見方的小丁；腌漬腸衣用清水浸泡10分鐘，然後反複搓揉3-4次，洗去表面的鹽分，再用清水浸泡2小時備用。2.肉丁納盆，加白糖3500克、姜汁3000克、辣椒面2500克... 2022-12-02
生活書法的藝術和境界
談書法藝術之風骨自叙帖(局部)懷素編者按：古人對藝術“風骨”的論述、評論、心得，無不高古精深，雅儒靈動，字字芬芳，讀之醍醐灌頂，足見傳統文化之寶貴！詩人陸子寫過一首題為《虎标本》的短詩：“一眼便能認出/你是神旺的老虎/沒有皮看得更清/看這骨... 2023-03-01
生活寶格麗rettangolo系列老款表
[腕表之家表款品鑒]意大利腕表珠寶品牌寶格麗，以源自古希臘羅馬的文化精髓，打造尊貴古典、風格大膽獨特的腕表。寶格麗的女士腕表一直在腕表界占有重要地位，精緻奢華的款式深得女性喜愛。今天腕表之家為大家帶來一款寶格麗BVLGARI•BVLGARI... 2023-03-24
生活八佰目前票房最新
根據貓眼專業版數據，電影《八佰》在8月23日22時21分43秒票房突破8億，用時2天13小時。電影《八佰》的成功離不開演員嘔心瀝血的表演，在預告片放出時，電影裡有個年紀很小的士兵就吸引了大家的注意。電影上映後，這位叫"小湖北"... 2023-03-24
生活胃不好可以吃什麼養胃
胃不好可以吃什麼養胃?木瓜，木瓜含木瓜酵素，有助于分解并加速蛋白質吸收，可緩解消化不良和胃炎，木瓜也是健脾胃、治胃痛的好食物木瓜偏寒，不建議空腹食用尤其是胃寒、體虛者不宜多吃，否則容易導緻腹瀉食用木瓜多是産于南方的番木瓜，可以生吃，也可作為... 2022-06-19
生活朝鮮奧運奪金項目
朝鮮選手李成今20日奪得本屆亞運會女子48公斤級舉重金牌。(韓聯社)據韓聯社20日報道，在剛剛結束的2018雅加達亞運會女子舉重48公斤級決賽上，朝鮮選手李成今(音)奪得女子48公斤級舉重金牌，為朝鮮隊拿下本屆亞運首金。報道稱，李成今在決賽... 2023-01-04
生活相信未來兒童朗誦
相信未來兒童朗誦?遼甯廣播電視台首屆《我和主播一起讀》大型詩歌朗誦會，今天小編就來聊一聊關于相信未來兒童朗誦?接下來我們就一起去研究一下吧!相信未來兒童朗誦遼甯廣播電視台首屆《我和主播一起讀》大型詩歌朗誦會主持人蝈蝈和孩子們朗誦的《相信未來... 2022-11-14
生活 104歲馬識途近況
封面新聞記者張傑實習生李心月作家王火今年98歲了。2021年是他度過的比較艱苦的一年。因為疫情，外部環境不容易，他自己身體也有恙。幾次心肌梗塞發作之後，被家人送去醫院做了心髒支架手術。住院一段時間後，現在家休養，但他一直惦記着自己的親朋好友... 2023-02-03
生活小孩作業理解能力差拖拉怎麼解決
小孩作業理解能力差拖拉怎麼解決?開學兩周有餘，不少一年級新生家長吐槽：孩子做作業拖拖拉拉，上學狀态自由散漫，還沒交到什麼朋友……如何幫助孩子做好過渡？家長們又該怎樣調整好自己的角色轉變？記者采訪了青島太平路小學教導處副主任、資深語文老師王冬... 2023-02-23
生活常見緻癌的食物有哪些
歌手傅松年紀輕輕因嚼槟榔得口腔癌去世而引起多方關注，槟榔也被多地要求下架。此時，大家才再次意識到槟榔這個國際公認一級緻癌物有多危險。相信不少人都認為緻癌物離自己很遠，但你知道嗎？在我們的餐桌上就有一種常見食物，也是一類緻癌物，不少家庭一日三... 2022-11-16

tft每日頭條

> 生活

> 一文看懂幾個統計學概念

一文看懂幾個統計學概念

相关生活资讯推荐

热门生活资讯推荐

网友关注