統計數據和數據分析聯系區别-tft每日頭條

統計數據和數據分析聯系區别

科技更新时间:2025-12-30 00:14:27

對于數據科學的藝術，統計學可以說是一個強大的工具。從高層次的角度來看，統計是利用數學對數據進行技術分析。一個基本的可視化，如條形圖，可以給你提供一些高級的信息，但是通過統計學，我們可以以一種更加以信息驅動和更有針對性的方式來操作數據。所用到的數學方法能幫助我們對數據形成具體的結論，而不是去靠猜測。

通過使用統計學，我們可以更深入、更細緻地了解我們的數據到底是如何構造的，并基于這種結構，我們如何最佳地應用其他數據科學技術來獲取更多的信息。現在，我們來看看數據科學家們需要知道的5個基本統計概念，以及如何才能最有效地應用它們!

統計特征

統計特征可能是數據科學中最常用的統計概念。它通常是你在探索數據集時應用的第一種統計技術，包括偏差（bias），方差，均值，中位數，百分位數等等。在代碼中理解和實現都非常容易！

統計數據和數據分析聯系區别（數據科學中五大統計概念）1

箱形圖（也稱為盒須圖）

中值的線是數據的中位數（median ）。由于中位數對離群值的魯棒性更強，因此中位數要比均值更常用。第一個四分位數（first quartile）基本上是第25個百分位，即數據中25％的點低于該值。第三個四分位數（third quartile）是第75百分位，即數據中75％的點低于該值。最小值和最大值表示數據範圍的上端和下端。

箱形圖完美地說明了我們可以用基本統計特征做什麼：

當箱形圖很短時，它意味着大部分數據點都相似，因為大多數值在在很小的範圍内
當箱形圖很高時，它意味着大部分數據點都非常不同，因為這些值分布在很廣的範圍内
如果中值接近底部，那麼我們知道大多數數據具有較低的值。如果中值接近頂部，那麼我們知道大多數數據具有更高的值。基本上，如果中值的線不在框的中間，則表明數據偏斜。
是否有長尾？這意味着數據具有較高的标準偏差和方差，即數值分散且變化很大。如果盒子的一側有須，而另一側沒有，那麼你的數據可能隻在一個方向上變化很大。

所有這些信息來自一些易于計算的簡單統計特征！隻要你需要快速而翔實的數據視圖，請嘗試這些。

概率分布

我們可以将概率定義為某個事件發生的幾率。在數據科學中，通常被量化在0到1之間，0表示我們确信這不會發生，1表示我們确信它會發生。另外，概率分布是表示實驗中所有可能值概率的函數。如下圖：

統計數據和數據分析聯系區别（數據科學中五大統計概念）2

統計數據和數據分析聯系區别（數據科學中五大統計概念）3

統計數據和數據分析聯系區别（數據科學中五大統計概念）4

常見的概率分布，依次為均勻分布，正态分布，泊松分布

均勻分布是三個中最基礎的。它在一定範圍内隻有單個值，而超出該範圍這值為0。這可以視為一個開/關分布。也可以把它看作是一個有兩個類别的分類變量:0或值。你的分類變量可能有多個非0的值，但我們仍然可以将其視為多個均勻分布的分段函數。

正态分布通常被稱為高斯分布，具體由它的均值和标準差定義。均值在改變分布空間，标準差控制離散。與其他分布（例如泊松）的主要區别在于标準差在所有方向上是相同的。因此，利用高斯分布，我們知道數據集的均值以及數據的離散，即它是在很大範圍内離散還是高度集中在幾個值附近。

一個泊松分布類似于正态分布，但增加了偏度。偏度值較低時，泊松分布将在所有方向上具有相對均勻分布，就像正态分布一樣。但是當偏度值的較大時，我們的數據在不同方向上的分布會有所不同，在一個方向上它将非常分散，而在另一個方向上它将高度集中。

你可以深入研究更多的分布，但這幾種分布已經給了我們很多有價值的線索。我們可以使用均勻分布快速查看和解釋我們的分類變量。如果我們看到高斯分布，我們知道有許多算法默認情況下會特别适用于高斯分布，所以我們應該使用這樣的算法。使用泊松分布，我們必須很小心地選擇一種對空間分布具有魯棒性的算法。

降維

降維這個術語很容易理解。我們有一個數據集，我們想減少它的維度數。在數據科學中，維度數是特征變量的數量。如下圖：

統計數據和數據分析聯系區别（數據科學中五大統計概念）5

降維

立方體表示我們的數據集，它有3個維度，總共1000個點。現在，計算1000點很容易處理，但如果有更大的規模，我們會遇到問題。然而，僅從二維視角（例如從立方體的一側）查看我們的數據，我們就可以看到從該角度劃分這些顔色非常容易。通過降維，我們可以将三維數據投射到二維平面上。這有效地将我們需要計算的點數從1000減少到100，大大節省了計算量！

我們也可以通過特征剪枝來降低維數。通過特征剪枝，我們基本上可以删除任何我們認為對我們的分析不重要的特征。例如，在研究數據集之後，我們可能會發現，在10個特征中，有7個與輸出高度相關，而其他3個具有的相關性非常低。那麼，這3個特征可能不值得計算，我們也許可以從我們的分析中删除它們，且不會影響輸出。

用于降維的最常見的統計技術是PCA，它基本上創建了特征的向量表示以顯示了它們對輸出的重要性（(即它們的相關性)）。PCA可用于執行上面讨論的兩種降維方式。

過采樣和欠采樣

過采樣和欠采樣是用于分類問題的技術。有時，我們的分類數據集可能會過于傾斜于某一邊。例如，我們在類1中有2000個實例，而在類2中隻有200個。它可以迷惑許多我們嘗試和使用進行建模數據和作出預測的機器學習技術！而過采樣和欠采樣可以解決這個問題。如下圖：

在上圖中，我們的藍色類比橙色類有更多的樣本。在這種情況下，我們有兩個預處理選項可以幫助我們的機器學習模型的訓練。

欠采樣的意思是，我們将隻選擇多數類中的一部分數據，而使用少數類中盡可能多的實例。這個選擇需要保持類的概率分布。這很簡單，隻需少量樣本就可以使我們的數據集保持平衡！

過采樣的意思是，我們創建我們的少數類的副本，以便擁有與多數類相同數量的實例。制作副本，以維持少數類的分布。我們是在沒有獲得更多數據的情況下平衡了我們的數據集！

貝葉斯統計

完全理解我們使用貝葉斯統計的原因要求我們首先了解頻率統計（ Frequency Statistics）失敗的地方。頻率統計是大多數人在聽到“概率”一詞時所想到的統計數據類型。它涉及應用數學來分析某些事件發生的概率，即，我們計算的唯一數據是先驗數據。

統計數據和數據分析聯系區别（數據科學中五大統計概念）6

我們來看一個例子。假設我給了你一個骰子然後問你擲出6的概率是多少。大多數人會說它是1 / 6。事實上，如果我們要進行頻率分析，我們會看有人滾動10,000次骰子，然後計算每個數字的頻率，它大概是1/6！

但是，如果有人告訴你，我們給你的是特殊的骰子，結果總是落在6上呢？由于頻率分析隻解釋以前的數據，分析給你的骰子被動過手腳的證據沒有被考慮在内。

貝葉斯統計确實考慮了這一證據。我們可以用貝葉斯定理來說明這一點：

統計數據和數據分析聯系區别（數據科學中五大統計概念）7

貝葉斯定理

我們公式中的概率P（H）是我們的頻率分析，根據我們之前的數據，我們這個事件發生的可能性是多少。根據我們頻率分析的信息，我們方程中的P（E | H）被稱為似然性（likelihood），本質上是我們的證明是正确的概率。例如，如果你想要将骰子滾動10,000次，而前1000次滾動你得到的全部是6，你就會開始相信這個骰子被動了手腳！P(E)是實際證據成立的概率。如果我告訴你骰子被動手腳了，你能相信我并說它确實被動手腳了，而不是認為我在騙你！

如果我們的頻率分析非常好，那麼它就會有一定的權重來表示我們對6的猜測是正确的。同時，我們将之視為我們改裝骰子的證據，如果它為真或不基于它自己的先驗和頻率分析。從方程式可以看出，貝葉斯統計将一切都考慮在内，隻要你認為先前的數據不能很好地代表你未來的數據和結果，就可以使用它。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技硬盤分區類型gpt和mbr選哪個
MBR和GPT是Windows操作系統上的兩種流行分區格式，分區格式告訴Windows如何訪問當前磁盤上的數據，并決定在磁盤初始化期間的時間。GPT具有分區大小和分區數量等優點。特别是因為微軟正式宣布Windows11系統将僅支持GPT和U... 2022-11-12
科技安卓手機忘記鎖屏密碼怎麼辦
安卓手機忘記鎖屏密碼怎麼辦?安卓手機鎖屏密碼忘了，可以将手機關機，進入手機工程模式，先點擊“恢複出廠設置”，再選擇“清除CACHE分區”，最後點擊“重啟設備”即可進入手機；還可以在鎖屏頁面點擊“忘記密碼”，然後回答密保問題，驗證通過後即可重... 2022-06-11
科技怎麼注銷聯通手機号
怎麼注銷聯通手機号?在手機裡下載一個【手機營業廳】聯通的就下載聯通的，現在小編就來說說關于怎麼注銷聯通手機号?下面内容希望能幫助到你，我們來一起看看吧!怎麼注銷聯通手機号在手機裡下載一個【手機營業廳】聯通的就下載聯通的。打開軟件進來是這樣的... 2022-06-17
科技工作手機可以激發銷售人員的潛力嗎
如何杜絕員工飛單、走私單？如何避免員工離職帶走客戶？——紅鷹工作手機微信管理系統點擊這裡可觀看視頻講解——【紅鷹視頻觀看】一個營銷團隊中有各種職工，而多數管理者都把時長花在了兩邊，而忽視了中間：一是一定要應對的最消極的5%，二是管理者最愛與... 2022-12-10
科技商湯科技為什麼大漲
商湯科技為什麼大漲?近日，商湯-W（00020）發布公告，于2022年9月26日斥資585.62萬港元回購股份300萬股數據統計，商湯9月份已累計回購多達七次，累計回購3177.5萬股投行對該股的評級以增持為主，近90天的目标均價為3.6港... 2022-11-16
科技小新筆記本電腦5000塊左右哪款好
以往，對于預算不足4000元的朋友來說，如何選擇筆記本電腦是個令人頭疼的問題。一是因為這個價位的筆記本通常性能不足，運行一些軟件很可能會出現卡死的情況；二是因為這個價位的筆記本做工一般，塑料感嚴重。然而，4000元價位的筆記本電腦是很多追求... 2022-11-19
科技諾基亞塞班系統還支持軟件嗎
不知道在ios與Android稱霸手機市場的如今，是否還有人記得曾經統治智能手機的諾基亞Symbian（塞班）系統。當時Symbian系統在智能機市場有着恐怖的統治力，但現在Symbian系統早已随着諾基亞的沒落不見蹤迹。當年諾基亞（201... 2022-11-05
科技 cpi和pmi相互關系
時段式MRP，是20世紀60年代ERP發展過程經曆的一個階段，今天小編就來科普，時段式MRP相關的知識點。時段MRP的思想與局限和解決問題1．時段MRP重點解決的問題是：間歇性生産的生産計劃控制和物料供求的關系。2、時段MRP的思想：第一，... 2022-11-05
科技天熱防禦系統崩潰
不知從何時起，“天氣系統”成了一衆熱門3A大作的标準配置。甚至當年《絕地求生》《正當防衛4》等遊戲為了炫技，直接将動态天氣當作遊戲的賣點大肆宣傳。現如今，擁有天氣系統的遊戲已經屢見不鮮，即便在畫面手遊中也已經得到廣泛運用。但鮮有人知的是，這... 2022-11-01
科技升級win11系統盤空間不足怎麼辦
升級win11系統盤空間不足怎麼辦?Windows11已經發布一段時間了，雖然很多人并沒有急于升級，但喜歡嘗鮮的人也不在少數，羽度非凡也在微軟發布Windows11正式版的第一時間完成了升級，不過Windows11畢竟也是Windows，遇... 2022-10-18
科技便攜式功率分析儀哪家好
便攜式功率分析儀哪家好?電機日益增加的現場應用提高了功率分析儀的便攜式測試需求，用于測量電機各種工況下運行時的功率、效率及諧波等以檢測産品現場使用的性能和質量，給産品改進提供有力的數據，現在小編就來說說關于便攜式功率分析儀哪家好?下面内容希... 2022-10-18
科技網站三大标簽的要求是什麼
網站三大标簽的要求是什麼?Tag标簽是什麼？在網站優化過程中，我們進行内容歸類和站内布局的時候都會進行Tag标簽的優化，很多新手SEO人員可能知道要做Tag标簽優化，但是對Tag标簽還是一知半解，對此這篇就給大家介紹一下Tag标簽，接下來我... 2022-10-18
科技海信電視哪款電視對比度高
海信電視哪款電視對比度高?，我來為大家講解一下關于海信電視哪款電視對比度高?跟着小編一起來看一看吧!海信電視哪款電視對比度高 2022-11-08
科技電腦上怎麼打印圖片
電腦上怎麼打印圖片?工具/原料：聯想310s，Windows7，WPSword文檔打開圖片，右鍵選擇圖片打印，我來為大家科普一下關于電腦上怎麼打印圖片?以下内容希望對你有幫助!電腦上怎麼打印圖片工具/原料：聯想310s，Windows7，W... 2022-06-26
科技微信視頻怎麼設置看不到我
微信視頻怎麼設置看不到我?微信視頻、手機視頻看不到自己的話，先點開【設置】，我來為大家科普一下關于微信視頻怎麼設置看不到我?以下内容希望對你有幫助!微信視頻怎麼設置看不到我微信視頻、手機視頻看不到自己的話，先點開【設置】。接着拇指點開【授權... 2022-06-24
科技怎麼修改vb日期
怎麼修改vb日期?打開vb找到代碼：Date=DateValue(你要修改的日期)，接下來我們就來聊聊關于怎麼修改vb日期?以下内容大家不妨參考一二希望能幫到您!怎麼修改vb日期打開vb找到代碼：Date=DateValue(你要修改的日期... 2022-06-05
科技手機清理垃圾的方法拼多多
手機清理垃圾的方法拼多多?在手機應用商店上下載安裝好拼多多APP，今天小編就來聊一聊關于手機清理垃圾的方法拼多多?接下來我們就一起去研究一下吧!手機清理垃圾的方法拼多多在手機應用商店上下載安裝好拼多多APP。在手機上找到下載安裝好的拼多多A... 2022-06-12
科技菱角怎麼用手快速剝殼
菱角怎麼用手快速剝殼?華龍網11月14日9時訊菱角好吃，但皮難剝有人用小剪刀剪開，有人用菜刀砍，使用工具才能卸下它堅硬的外皮但如果你身邊沒有任何工具的時候呢？今天小編就來跟大家分享不用工具巧剝菱角皮，下面我們就來聊聊關于菱角怎麼用手快速剝殼... 2022-11-01
科技 nct青少年編程能力等級測試證書
nct青少年編程能力等級測試證書?中新網上海8月12日電(記者陳靜)2020年“9月NCT全國青少年編程能力等級測試全國線上考試”12日正式啟動報名，中外上百家編程機構積極響應考試工具涵蓋海内外擁有廣泛用戶基礎的熱門通用編程工具，助力考生穩... 2022-11-23
科技 q3手機測評黑色
第三季中國手機線上份額華為品牌全渠道擴張策略效果顯現華為品牌全渠道擴張策略效果顯現，其領先優勢延伸至線上，搶占26%份額，成為線上市場銷量冠軍。經曆了對P系列及Mate系列多年的培育，華為已成為中國高端智能手機市場的領先品牌，其高端系列銷量... 2022-10-28
科技移動孝心卡需要多少歲
随着科技的進步和智能手機的普及，我們開始進入“數字生活”時代。我們用手機通訊、購物、娛樂，對于年輕人來說這些都是再平常不過的事了，但對于很多老年人來說，他們使用手機平時隻是用來接打電話，最多也就是玩玩微信。老年人當然也想通過手機購物娛樂，隻... 2022-10-23
科技華為手機來電時怎麼開啟設置
智能手機系統優化的道路是永無止境的，就連最基本的來電功能如今許多廠商都加入了各種個性化功能體驗。而今天數碼日記君要給大家說的則是華為手機上2個讓來電體驗更好的技巧。對此，感興趣的花粉可以往下看。圖文無關生活中我們總會遇到這樣的場景，當你在睡... 2022-11-06
科技華碩筆記本7代i5怎麼樣
華碩筆記本7代i5怎麼樣?最近英特爾酷睿12代P系列處理器筆記本真的是風光無限，多個廠商開始上新搭載i5-1240P的輕薄筆記本，我們先簡單了解下這款未來的“神U”，我來為大家講解一下關于華碩筆記本7代i5怎麼樣?跟着小編一起來看一看吧!華... 2022-10-14
科技如果我們突然失去手機會怎樣
如果我們突然失去手機會怎樣?家人們大家好，這裡是一二三根香菜呀，今天小編就來聊一聊關于如果我們突然失去手機會怎樣?接下來我們就一起去研究一下吧!如果我們突然失去手機會怎樣家人們大家好，這裡是一二三根香菜呀。據工信部2022年8月《2022年... 2022-11-07
科技手機屏幕壞了該怎麼自己修理
如今手機改變了全人類，基本已經人手一部手機了，相信每個人都有摔壞過手機屏幕吧？每個人家裡都有因為屏幕損壞而“吃灰”的手機吧？看完這篇文章就趕快行動起來“拯救”你的愛機吧，讓它繼續完成它的使命吧！（前幾天剛修好一部半年前被我媽媽摔成兩半的手機... 2022-12-04
科技 win10系統電腦配置怎麼看
查看電腦配置的好壞主要是看這些核心硬件，接下來給大家介紹win10查看電腦配置步驟。1、右鍵點擊這台電腦，在菜單選項中選擇屬性，如下圖所示：2、可以直觀的查看到處理器(CPU)、内存等部分核心硬件信息，如下圖所示：3、點擊展開顯示适配器，下... 2022-11-07
科技企業宣傳片片尾制作
現在，很多從事新媒體工作的人都在日常工作中掌握了很多收集素材的方法，這樣他們在制作各種視頻的過程中就會得心應手。下面小編就以自己多年從事視頻剪輯、視頻後期工作積累的經驗來跟大家分享一下如何收集視頻素材、背景音樂、片頭片尾素材等。天狐新科技第... 2022-11-11
科技最值得購買的華碩輕薄筆記本
最值得購買的華碩輕薄筆記本?本文轉自：IT之家作者：長河華碩新款無雙系列筆記本将于今日20:00正式開售，配備英特爾十二核i5-12500H處理器，提供14英寸和15.6英寸兩版本，接下來我們就來聊聊關于最值得購買的華碩輕薄筆記本?以下内容... 2022-10-14
科技手機直播都有什麼設備
時下直播正是火爆，簡單方便的手機直播，是大多數人入場的優選。挑選直播設備眼花缭亂，想避坑就得看攻略，今天這篇手機直播設備指南，專對小白，有點幹，但看完秒懂！首先給大家看一個最全清單，下面我會逐一評測和分析。1、手機手機直播一般需要兩部手機，... 2022-12-04
科技手機一直出現廣告怎麼關掉
本文編輯今日頭條作者維權騎士簽約用戶：小俊技術分享獨家原創制作未經授權嚴禁轉載，發現抄襲者将進行全網維權投訴分享生活小妙招，享受科技新生活！大家好，歡迎來到今天的知識分享！我是你們的好朋友小俊！我們在使用手機的時候，基本上每天都會收到手機給... 2022-11-23

tft每日頭條

> 科技

> 統計數據和數據分析聯系區别

統計數據和數據分析聯系區别

相关科技资讯推荐

热门科技资讯推荐

网友关注