數據分析之統計學-tft每日頭條

數據分析之統計學

科技更新时间:2026-01-26 04:36:33

本文講述了數據分析師應當了解的五個統計基本概念：統計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統計方法。

從高的角度來看，統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式，會給你更加全面的信息。但是，通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論，而不僅僅是猜測。

利用統計學，我們可以更深入、更細緻地觀察數據是如何進行精确組織的，并且基于這種組織結構，如何能夠以最佳的形式來應用其它相關的技術以獲取更多的信息。今天，我們來看看數據分析師需要掌握的5個基本的統計學概念，以及如何有效地進行應用。

01 特征統計

特征統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術，包括偏差、方差、平均值、中位數、百分數等等。理解特征統計并且在代碼中實現都是非常容易的。請看下圖：

數據分析之統計學（數據分析師都了解的統計基本概念）1

上圖中，中間的直線表示數據的中位數。中位數用在平均值上，因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數，即數據中的25%要低于該值。第三個四分位數是第七十五百分位數，即數據中的75%要低于該值。而最大值和最小值表示該數據範圍的上下兩端。

箱形圖很好地說明了基本統計特征的作用:

當箱形圖很短時，就意味着很多數據點是相似的，因為很多值是在一個很小的範圍内分布;
當箱形圖較高時，就意味着大部分的數據點之間的差異很大，因為這些值分布的很廣;
如果中位數接近了底部，那麼大部分的數據具有較低的值。如果中位數比較接近頂部，那麼大多數的數據具有更高的值。基本上，如果中位線不在框的中間，那麼就表明了是偏斜數據;
如果框上下兩邊的線很長表示數據具有很高的标準偏差和方差，意味着這些值被分散了，并且變化非常大。如果在框的一邊有長線，另一邊的不長，那麼數據可能隻在一個方向上變化很大

02 概率分布

我們可以将概率定義為一些事件将要發生的可能性大小，以百分數來表示。在數據科學領域中，這通常被量化到0到1的區間範圍内，其中0表示事件确定不會發生，而1表示事件确定會發生。那麼，概率分布就是表示所有可能值出現的幾率的函數。請看下圖：

數據分析之統計學（數據分析師都了解的統計基本概念）2

數據分析之統計學（數據分析師都了解的統計基本概念）3

數據分析之統計學（數據分析師都了解的統計基本概念）4

常見的概率分布，均勻分布(上)、正态分布(中間)、泊松分布(下)：

均勻分布是其中最基本的概率分布方式。它有一個隻出現在一定範圍内的值，而在該範圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量：0或另一個值。分類變量可能具有除0之外的多個值，但我們仍然可以将其可視化為多個均勻分布的分段函數。
正态分布，通常也稱為高斯分布，具體是由它的平均值和标準偏差來定義的。平均值是在空間上來回變化位置進行分布的，而标準偏差控制着它的分布擴散範圍。與其它的分布方式的主要區别在于，在所有方向上标準偏差是相同的。因此，通過高斯分布，我們知道數據集的平均值以及數據的擴散分布，即它在比較廣的範圍上擴展，還是主要圍繞在少數幾個值附近集中分布。
泊松分布與正态分布相似，但存在偏斜率。象正态分布一樣，在偏斜度值較低的情況下，泊松分布在各個方向上具有相對均勻的擴散。但是，當偏斜度值非常大的時候，我們的數據在不同方向上的擴散将會是不同的。在一個方向上，數據的擴散程度非常高，而在另一個方向上，擴散的程度則非常低。

如果遇到一個高斯分布，那麼我們知道有很多算法，在默認情況下高思分布将會被執行地很好，因此首先應該找到那些算法。如果是泊松分布，我們必須要特别謹慎，選擇一個在空間擴展上對變化要有很好魯棒性的算法。

03 降維

降維這個術語可以很直觀的理解，意思是降低一個數據集的維數。在數據科學中，這是特征變量的數量。請看下圖：

數據分析之統計學（數據分析師都了解的統計基本概念）5

上圖中的立方體表示我們的數據集，它有3個維度，總共1000個點。以現在的計算能力，計算1000個點很容易，但如果更大的規模，就會遇到麻煩了。然而，僅僅從二維的角度來看我們的數據，比如從立方體一側的角度，可以看到劃分所有的顔色是很容易的。通過降維，我們将3D數據展現到2D平面上，這有效地把我們需要計算的點的數量減少到100個，大大節省了計算量。

另一種方式是我們可以通過特征剪枝來減少維數。利用這種方法，我們删除任何所看到的特征對分析都不重要。例如，在研究數據集之後，我們可能會發現，在10個特征中，有7個特征與輸出具有很高的相關性，而其它3個則具有非常低的相關性。那麼，這3個低相關性的特征可能不值得計算，我們可能隻是能在不影響輸出的情況下将它們從分析中去掉。

用于降維的最常見的統計技術是PCA，它本質上創建了特征的向量表示，表明了它們對輸出的重要性，即相關性。PCA可以用來進行上述兩種降維方式的操作。

04 過采樣和欠采樣

過采樣和欠采樣是用于分類問題的技術。例如，我們有1種分類的2000個樣本，但第2種分類隻有200個樣本。這将抛開我們嘗試和使用的許多機器學習技術來給數據建模并進行預測。那麼，過采樣和欠采樣可以應對這種情況。請看下圖：

數據分析之統計學（數據分析師都了解的統計基本概念）6

在上面圖中的左右兩側，藍色分類比橙色分類有更多的樣本。在這種情況下，我們有2個預處理選擇，可以幫助機器學習模型進行訓練。

欠采樣意味着我們将隻從樣本多的分類中選擇一些數據，而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們隻是通過更少的抽樣來讓數據集更均衡。

過采樣意味着我們将要創建少數分類的副本，以便具有與多數分類相同的樣本數量。副本将被制作成保持少數分類的分布。我們隻是在沒有獲得更多數據的情況下讓數據集更加均衡。

貝葉斯統計

完全理解為什麼在我們使用貝葉斯統計的時候，要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候，頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率，明确地說，我們唯一計算的數據是先驗數據(prior data)。

數據分析之統計學（數據分析師都了解的統計基本概念）7

假設我給了你一個骰子，問你擲出6點的幾率是多少，大多數人都會說是六分之一。

但是，如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數據，而給你作弊的骰子的因素并沒有被考慮進去。

貝葉斯統計确實考慮了這一點，我們可以通過貝葉斯法則來進行說明:

數據分析之統計學（數據分析師都了解的統計基本概念）8

在方程中的概率P(H)基本上是我們的頻率分析，給定之前的關于事件發生概率的數據。方程中的P(E|H)稱為可能性，根據頻率分析得到的信息，實質上是現象正确的概率。例如，如果你要擲骰子10000次，并且前1000次全部擲出了6個點，那麼你會非常自信地認為是骰子作弊了。

如果頻率分析做的非常好的話，那麼我們會非常自信地确定，猜測6個點是正确的。同時，如果骰子作弊是真的，或者不是基于其自身的先驗概率和頻率分析的，我們也會考慮作弊的因素。正如你從方程式中看到的，貝葉斯統計把一切因素都考慮在内了。當你覺得之前的數據不能很好地代表未來的數據和結果的時候，就應該使用貝葉斯統計方法。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技染發劑上的4.0是什麼意思
染發的時候，經常被染發劑上的數字代碼搞得稀裡糊塗，在大部分人心裡，顔色不就是赤橙黃綠青藍紫嗎，這些數字符号又代表的是什麼意思？下面就給大家講解一下，染發劑的數字代碼，你就清楚每個數字代表的是什麼意思，組合在一起又代表的是什麼顔色了。國際标準... 2022-09-29
科技手機怎麼把錄音轉為文字
在我們日常工作和日常學習中，當我們面臨将很多音頻文件轉換成文字時，如果按照傳統的手打？我們的速度和準确度都無法保證，而且花費的時間也很多。今天就教大家兩個錄音件轉文字的方法，不知道怎樣把手機錄音轉換成文字的小夥伴可以看過來啦。方法一、語音轉... 2023-01-08
科技智能電視最新電影點播軟件
智能電視最新電影點播軟件?雙十二買的電視怎麼看直播點播，打開當貝市場安裝當貝影視快搜即可搞定雙十二期間購買智能電視的童鞋陸續收到貨了，然而不少用戶發現看直播資源是個問題由于智能電視的品牌不同系統不同，所以電視自帶的内容資源也不同，有些影視資... 2022-10-09
科技 iphone6s和小米6買哪個
我昨天寫過一篇文章是統計了一下去年發布手機的數量，算起來應該是有134部新的手機發布。這樣的一個數量是對過去手機的一個很大的沖擊，每一個手機廠商在發布新的手機之前會對以前老的手機進行更新降價清倉處理，這是一個一般經常做的手法，所以很多以前的... 2023-02-05
科技蘋果11新包裝裡的數據線
前言蘋果一年一度的秋季新品發布會于北京時間2022年9月8日淩晨拉開帷幕，本次發布會不僅帶來了新款iPhone，還推出了新一代AirPodsPro和三款AppleWatch，看點頗多。此次發布的全新iPhone14系列機型，不僅“毫不意外”... 2022-11-26
科技歐萊雅全線洗發水測評
洗發水是洗發、護發的基礎，市面上的洗發水産品和種類真的是多種多樣，讓人挑得眼花缭亂。其實隻要是正規廠家的正規出場的洗發水，并沒有絕對，但相對來說，一些大牌的洗發水在使用感和護發效果上是更為優越的。但前提是要選擇适合自己發質的洗發水才行，那麼... 2022-11-22
科技高通骁龍778都有哪些手機
2022年雖然才過去三個月，但手機已經很熱鬧了，不少新機已經陸續發布，并且是覆蓋了多個價位，相信不少人已經有換上了新機，或是在準備換機的路上，那麼現在有哪些值得購買性價比的機型呢？最近安兔兔已經公布了三月安卓陣營的性價比排行榜，或許我們可以... 2022-12-03
科技魅族手機系統正在啟動一直打不開
魅族手機系統正在啟動一直打不開?我們首先按住手機的電源和音量加,進入系統的刷機模式，接下來我們就來聊聊關于魅族手機系統正在啟動一直打不開?以下内容大家不妨參考一二希望能幫到您!魅族手機系統正在啟動一直打不開我們首先按住手機的電源和音量加,進... 2022-06-11
科技銘瑄h610itx缺點
上周買内存的時候，發現銘瑄出了一款ITX主闆，做工還不錯，沒有主打燈效，而是務實的以性能為核心，很适合拿來作為日常工作學習的小主機使用，這款叫做MS-挑戰者H510ITX的主闆則是可以支持10代和11代的Intel，前兩天到手後裝機試了試，... 2023-01-09
科技為什麼有道詞典不提醒背單詞
背單詞，是所有學習英語的朋友們繞不過的問題，單詞不僅數量多，更可氣的是背過還容易忘。先說說什麼情況下需要專門背單詞。我認為，從沒學過英語，和需要考試，并且題目和閱讀題中大部分單詞都看不懂的情況才需要。如果是作文水平不行，更高效的方法應該直接... 2022-12-30
科技永劫無間steam版本國服能玩嗎
《永劫無間》數據查詢工具V6.0版本終于上線了，我們已全面支持Steam版玩家，并優化了生涯數據展示，修複了海量的bug，助您馳騁聚窟州！進入戰績查詢PC端後，在箭頭指向的框内輸入您的國服遊戲昵稱。國服點選“網易遊戲”，Steam版點選“S... 2022-11-25
科技造夢西遊4手機版升級路線
《造夢西遊4手機版》在4月14日10:00--12:00進行了版本更新，下面97973手遊網小編就帶大家來看一下新版本有哪些改動，希望這篇攻略能夠幫助大家！造夢西遊4手機版4月14日版本更新詳解更新獎勵：5W金币、5W靈魂、50元寶(獎勵将... 2023-02-27
科技新番計劃推薦
測評：《相親對象是強硬問題兒學生》類型：泡面、愛情今年日本采取了新方式，把2集裡番分成12段，每段做成4分鐘的泡面番，比如《僧侶之夜》《裙下有野獸》等等，和如今十月出的《相親對象是強硬問題兒學生》一樣，内容上都是裡番。看到這類裡番，老白覺得... 2022-11-20
科技大牌女生持久留香香水測評
嗯，這是一篇幹貨滿滿的聞香測評。緣由是最近想入手gucci那個粉色少女心香水和蒂凡尼的鑽石瓶香水，但不知道味道是不是适合我。看了小紅薯和官網，上面都是對前後調的花香介紹，鬼知道到底什麼味道？所以八婆就萌生了自己來寫一篇聞香測評，以自己的親身... 2022-12-13
科技鄰居空調外機安裝影響鄰裡關系
“天氣這麼熱，空調卻裝不了，這套房子等于白買了。”今天上午，1007接到車友張女士的投訴，說自己位于福州閩侯高新大道中海寰宇天下小區43棟的房子要安裝空調，但外機多次被鄰居強制拆掉。對此，鄰居表示，是張女士先不講理在先。張女士稱空調外機多次... 2022-11-16
科技英語look後加什麼詞性
點擊關注“零食英語”，獲取最實用的英語學習知識。今天我們一起來分享一組簡單詞彙的辨析：appear、look和seem，這三個單詞都有“看似、看起來”的意思，那麼，它們有什麼樣的區别呢？以上就是關于appear、look和seem的區别了，... 2022-11-25
科技 oppo無線閃充支持一加8pro嗎
一句充電五分鐘，通話兩小時的廣告語，甚至可以說成就了一個品牌。在智能手機帶給人們諸多生活便利的時候，電池電量消耗大，充電時間長确實是困擾用戶的一大難題。面對這種局面各大廠商也是絞盡腦汁，一方面增加電池容量，一方面在快充技術上下功夫。受限于現... 2022-11-06
科技怎麼測試手機是lcd還是oled
怎麼測試手機是lcd還是oled?最近有很個朋友正打算換機，于是他問到了筆者這裡，希望我能推薦幾款合适的LCD屏幕手機我自己倒是很意外，沒想到朋友還是LCD情懷黨，要知道如今LCD日薄西山，真正的“死忠粉”其實不多了，接下來我們就來聊聊關于... 2022-10-13
科技窗簾軌道如何自己安裝
窗簾軌道如何自己安裝?窗子是我們家裡不可以缺少的一部分，我們在裝飾窗子的時候，為了避免戶外過于強烈的陽關，通常都會在窗子上安裝窗簾窗簾的款式有很多種，但是不管是哪一種窗簾，安裝的時候都離不開固定的軌道，在家裡的窗子上安裝窗簾也是一個簡單的活... 2023-01-25
科技老公和太監有什麼不同
作者：學思知行中國的漢語詞語博大精深，一個詞語往往因為語氣的不同就可以解讀出不同的意思，或者配上一個表情包，就變成了另外的一個意思，那背後的文化讓人不勝歎服。據說，某外國留學生在觀看今年女排與日本的球賽後，他翻看幾個朋友圈的微信，發現表述的... 2023-02-10
科技世界五大慢跑鞋品牌
慢跑已經漸漸融入人們的日常生活之中，畢竟在這個物質極度豐富的年代，精神追求已經被人越來越重視。身心健康是被人們擺在首位的事情，而慢跑的運動特性讓其可以用最經濟實惠的運動量達到最好的愉悅效果。工欲善其事必先利其器，沒有一雙好的慢跑鞋，我們就不... 2023-01-26
科技短的正确思維方式
短的正确思維方式?新華社鄭州7月13日電(記者劉高陽)“你必須要透過眼睛看到的表象，深入思考事物的本質人們往往執着于自己所看到的，—旦深入其中，便難以自拔”，下面我們就來說一說關于短的正确思維方式?我們一起去了解并探讨一下這個問題吧!短的正... 2023-02-10
科技電腦硬件故障維修教程
最近幾天工作實在繁忙，一直在出差，今天繼續和大家分享電腦硬件的維修心得。當電腦出現故障後，首先不要手忙腳亂，要有條不紊的逐步分析故障的原因并檢測相應部件，然後将故障排除。電腦硬件故障的具體處理流程為：先了解故障情況，在判斷定位故障，最後維修... 2023-02-23
科技 b站up常用的剪輯器
随着越來越多人喜歡用手機來拍攝視頻短片，有記錄生活VLOG、也有視頻UP主等，為了讓視頻更炫酷，需要通過視頻編輯軟件來剪輯和加特效。目前視頻剪輯軟件選擇也非常多，例如專業的PR、AE、FinalCutPro，但是這些都需要付費，并且不太适合... 2022-12-05
科技哪部小說重生回自己十三歲時
#逆襲故事#葉晨八歲那年，算命老道說你十八歲那年将黃袍加身，天天山珍海味為伴！我信你個鬼你這糟老頭子！外賣員的黃顔色工作服也是黃袍加身？結果葉晨果真成了黃袍加身魚肉為伴的外賣員，不過……他的外賣能夠聯通萬界！>>>>>>>>>>作品：《我在... 2022-11-19
科技如何加密pdf文件隻可查看不可編輯
在我們日常辦公和日常學習中，經常會收到一些加密的PDF文件，這些文件隻能查看，不能複制、不能合并、不能拆分、不能打印，這個問題困擾了我很久，我有WPS會員都無法解決解除PDF權限的問題。今天無意中找到了解決辦法。這裡我隻介紹自己的一種方法，... 2022-11-21
科技主闆電池放電的方法
如果想要将主闆BIOS設置恢複出廠，為了方便我們會将主闆電池進行放電，相信不少用戶會“電池放電”一詞不知道如何操作。那麼主闆電池怎麼放電？下面裝機之家分享一下電腦主闆電池放電的方法。電腦主闆電池放電操作步驟：其實主闆電池放電很容易，就是在... 2022-12-18
科技 win10系統桌面删除文件
小夥伴都可能會使用第三方工具來進行修複，其實我們隻需要使用一個命令，一起來看看下面方法吧。1、按winr鍵打開“運行”窗口，輸入01ie4uinit-show命令後按回車，如圖所示：2、然後你會看到桌面圖标重建的過程；, 2023-02-05
科技手機投屏是如何實現的安卓
很多人問到安卓系統的手機怎麼投屏的問題，因為除了一些新款手機、以前的老版安卓手機很多是不自帶投屏功能的，那麼對于以前的老版安卓手機而言，怎麼做到投屏呢？其實這個問題非常容易解決，不多說，我們來看下解決方案：如果我們需要投屏到電腦顯示屏上，經... 2023-02-15
科技下水道堵塞疏通隻用常用工具
下水道堵了怎麼辦——我仿佛已經看到有人手握皮搋子，在躍躍欲試了。皮搋子，幾乎是家家都有的管道疏通工具了。但是很多人在用它疏通管道的時候遇到了很多麻煩，我的私信裡就常常收到這樣的問題：搋半天還是通不了怎麼辦？一般發生這種問題，都是因為沒有選對... 2022-11-30

tft每日頭條

> 科技

> 數據分析之統計學

數據分析之統計學

相关科技资讯推荐

热门科技资讯推荐

网友关注