實用數據分析和可視化技術-tft每日頭條

實用數據分析和可視化技術

科技更新时间:2025-12-14 11:59:55

相關系數量化數據集的變量或特征之間的關聯。這些統計數據對科學和技術非常重要，Python 有很好的工具可以用來計算它們。SciPy、NumPy 和pandas相關方法以及數據可視化功能。

整套學習自學教程中應用的數據都是《三國志》、《真·三國無雙》系列遊戲中的内容。

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）1

相關性實現

統計和數據科學通常關注數據集的兩個或多個變量（或特征）之間的關系。數據集中的每個數據點都是一個觀察值，特征是這些觀察值的屬性或屬性。

關于相關性的比較方式的理論部分可以參考。

這裡主要介紹下面3種相關性的計算方式：

- Pearson’s r
- Spearman’s rho
- Kendall’s tau

NumPy 相關性計算

np.corrcoef() 返回 Pearson 相關系數矩陣。

import numpy as np x = np.arange(10, 20) x array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19]) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) y array([ 2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) r = np.corrcoef(x, y) r array([[1. , 0.75864029], [0.75864029, 1. ]])

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）2

SciPy 相關性計算

import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) scipy.stats.pearsonr(x, y) # Pearson's r (0.7586402890911869, 0.010964341301680832) scipy.stats.spearmanr(x, y) # Spearman's rho SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06) scipy.stats.kendalltau(x, y) # Kendall's tau KendalltauResult(correlation=0.911111111111111, pvalue=2.9761904761904762e-05)

在檢驗假設時，您可以在統計方法中使用p 值。p 值是一項重要的衡量标準，需要深入了解概率和統計數據才能進行解釋。

scipy.stats.pearsonr(x, y)[0] # Pearson's r 0.7586402890911869 scipy.stats.spearmanr(x, y)[0] # Spearman's rho 0.9757575757575757 scipy.stats.kendalltau(x, y)[0] # Kendall's tau 0.911111111111111

Pandas 相關性計算

相對于來說計算比較簡單。

import pandas as pd x = pd.Series(range(10, 20)) y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) x.corr(y) # Pearson's r 0.7586402890911867 y.corr(x) 0.7586402890911869 x.corr(y, method='spearman') # Spearman's rho 0.9757575757575757 x.corr(y, method='kendall') # Kendall's tau 0.911111111111111

線性相關實現

線性相關性測量變量或數據集特征之間的數學關系與線性函數的接近程度。如果兩個特征之間的關系更接近某個線性函數，那麼它們的線性相關性更強，相關系數的絕對值也更高。

線性回歸：SciPy 實現

線性回歸是尋找盡可能接近特征之間實際關系的線性函數的過程。換句話說，您确定最能描述特征之間關聯的線性函數，這種線性函數也稱為回歸線。

import pandas as pd x = pd.Series(range(10, 20)) y = pd.Series([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])

使用scipy.stats.linregress()對兩個長度相同的數組執行線性回歸。

result = scipy.stats.linregress(x, y) scipy.stats.linregress(xy) LinregressResult(slope=7.4363636363636365, intercept=-85.92727272727274, rvalue=0.7586402890911869, pvalue=0.010964341301680825, stderr=2.257878767543913) result.slope # 回歸線的斜率 7.4363636363636365 result.intercept # 回歸線的截距 -85.92727272727274 result.rvalue # 相關系數 0.7586402890911869 result.pvalue # p值 0.010964341301680825 result.stderr # 估計梯度的标準誤差 2.257878767543913

未來更多内容參考機器學習專欄中的線性回歸内容。

等級相關

比較與兩個變量或數據集特征相關的數據的排名或排序。如果排序相似則相關性強、正且高。但是如果順序接近反轉，則相關性為強、負和低。換句話說等級相關性僅與值的順序有關，而不與數據集中的特定值有關。

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）3

圖1和圖2顯示了較大的 x 值始終對應于較大的 y 值的觀察結果，這是完美的正等級相關。圖3說明了相反的情況即完美的負等級相關。

排名：SciPy 實現

使用 scipy.stats.rankdata() 來确定數組中每個值的排名。

import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) # 獲取排名序 scipy.stats.rankdata(x) # 單調遞增 array([ 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.]) scipy.stats.rankdata(y) array([ 2., 1., 3., 4., 5., 6., 7., 8., 10., 9.]) scipy.stats.rankdata(z) # 單調遞減 array([10., 9., 8., 7., 6., 5., 4., 3., 2., 1.])

rankdata() 将nan值視為極大。

scipy.stats.rankdata([8, np.nan, 0, 2]) array([3., 4., 1., 2.])

等級相關性：NumPy 和 SciPy 實現

使用 scipy.stats.spearmanr() 計算 Spearman 相關系數。

result = scipy.stats.spearmanr(x, y) result SpearmanrResult(correlation=0.9757575757575757, pvalue=1.4675461874042197e-06) result.correlation 0.9757575757575757 result.pvalue 1.4675461874042197e-06 rho, p = scipy.stats.spearmanr(x, y) rho 0.9757575757575757 p 1.4675461874042197e-06

等級相關性：Pandas 實現

使用 Pandas 計算 Spearman 和 Kendall 相關系數。

import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) x, y, z = pd.Series(x), pd.Series(y), pd.Series(z) xy = pd.DataFrame({'x-values': x, 'y-values': y}) xyz = pd.DataFrame({'x-values': x, 'y-values': y, 'z-values': z})

計算 Spearman 的 rho，method=spearman。

x.corr(y, method='spearman') 0.9757575757575757 xy.corr(method='spearman') x-values y-values x-values 1.000000 0.975758 y-values 0.975758 1.000000 xyz.corr(method='spearman') x-values y-values z-values x-values 1.000000 0.975758 -1.000000 y-values 0.975758 1.000000 -0.975758 z-values -1.000000 -0.975758 1.000000 xy.corrwith(z, method='spearman') x-values -1.000000 y-values -0.975758 dtype: float64

計算 Kendall 的 tau， method=kendall。

x.corr(y, method='kendall') 0.911111111111111 xy.corr(method='kendall') x-values y-values x-values 1.000000 0.911111 y-values 0.911111 1.000000 xyz.corr(method='kendall') x-values y-values z-values x-values 1.000000 0.911111 -1.000000 y-values 0.911111 1.000000 -0.911111 z-values -1.000000 -0.911111 1.000000 xy.corrwith(z, method='kendall') x-values -1.000000 y-values -0.911111 dtype: float64

相關性的可視化

數據可視化在統計學和數據科學中非常重要。可以幫助更好地理解的數據，并更好地了解特征之間的關系。

這裡使用 matplotlib 來進行數據可視化。

import matplotlib.pyplot as plt plt.style.use('ggplot') import numpy as np import scipy.stats x = np.arange(10, 20) y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48]) z = np.array([5, 3, 2, 1, 0, -2, -8, -11, -15, -16]) xyz = np.array([[10, 11, 12, 13, 14, 15, 16, 17, 18, 19], [2, 1, 4, 5, 8, 12, 18, 25, 96, 48], [5, 3, 2, 1, 0, -2, -8, -11, -15, -16]])

帶有回歸線的 XY 圖

使用 linregress() 獲得回歸線的斜率和截距，以及相關系數。

slope, intercept, r, p, stderr = scipy.stats.linregress(x, y)

構建線性回歸公式。

line = f' y={intercept:.2f} {slope:.2f}x, r={r:.2f}' line 'y=-85.93 7.44x, r=0.76'

.plot() 繪圖。

fig, ax = plt.subplots() ax.plot(x, y, linewidth=0, marker='s', label='Data points') ax.plot(x, intercept slope * x, label=line) ax.set_xlabel('x') ax.set_ylabel('y') ax.legend(facecolor='white') plt.show()

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）4

相關矩陣的熱圖 matplotlib

處理特征較多的相關矩陣用熱圖方式比較理想。

corr_matrix = np.corrcoef(xyz).round(decimals=2) corr_matrix array([[ 1. , 0.76, -0.97], [ 0.76, 1. , -0.83], [-0.97, -0.83, 1. ]])

其中為了表示方便将相關的數據四舍五入後用 .imshow() 繪制。

fig, ax = plt.subplots() im = ax.imshow(corr_matrix) im.set_clim(-1, 1) ax.grid(False) ax.xaxis.set(ticks=(0, 1, 2), ticklabels=('x', 'y', 'z')) ax.yaxis.set(ticks=(0, 1, 2), ticklabels=('x', 'y', 'z')) ax.set_ylim(2.5, -0.5) for i in range(3): for j in range(3): ax.text(j, i, corr_matrix[i, j], ha='center', va='center', color='r') cbar = ax.figure.colorbar(im, ax=ax, format='% .2f') plt.show()

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）5

相關矩陣的熱圖 seaborn

import seaborn as sns plt.figure(figsize=(11, 9),dpi=100) sns.heatmap(data=corr_matrix, annot_kws={'size':8,'weight':'normal', 'color':'#253D24'},#數字屬性設置，例如字号、磅值、顔色 )

實用數據分析和可視化技術（數據科學必備相關性分析的三種操作和可視化詳解）6

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技亞馬遜營銷費用管控
亞馬遜營銷費用管控?記者｜李馨婷近日，深圳市睿聯技術股份有限公司（簡稱“睿聯技術”）回複了深交所問詢，創業闆上市進程又進一步，今天小編就來聊一聊關于亞馬遜營銷費用管控?接下來我們就一起去研究一下吧!亞馬遜營銷費用管控記者｜李馨婷近日，深圳市... 2023-01-05
科技 vivo手機滑屏設置在哪
vivo手機滑屏設置在哪?FuntouchOS2.0以下系統設置滑屏效果：打開i主題--個性搭配--滑屏效果即可選擇喜歡的滑屏效果，今天小編就來聊一聊關于vivo手機滑屏設置在哪?接下來我們就一起去研究一下吧!vivo手機滑屏設置在哪Fun... 2022-06-09
科技小草莓直播app怎麼下載安裝
小草莓直播app怎麼下載安裝?自帶軟件商店中下載：桌面找到軟件商店；在軟件商店首頁，可以直接搜索框搜索下載軟件，或者點擊屏幕的軟件或者遊戲分類，查找下載，今天小編就來聊一聊關于小草莓直播app怎麼下載安裝?接下來我們就一起去研究一下吧!小草... 2022-06-06
科技蘋果手機靜音鍵防水設計
最近蘋果手機降頻門的事件可謂是炒的熱火朝天，全球震怒，小編手裡的iphone6S也是深受其害，難怪手機最近又卡又炖，差點一怒之下摔手機買新的，後來數了數口袋裡的銀子，哎，貧窮抑制了小編的怒氣。下班之後沒事刷微博，本來打算看看微博上有沒有大神... 2023-02-27
科技用了四年的手機最近老是提示重啟
用了四年的手機最近老是提示重啟?文章有點長，耐心看完的人會有驚喜，我來為大家講解一下關于用了四年的手機最近老是提示重啟?跟着小編一起來看一看吧!用了四年的手機最近老是提示重啟文章有點長，耐心看完的人會有驚喜。大約三個月前的某一天，我的華為P... 2022-12-03
科技電腦怎樣設置靜态ip
靜态IP是可以直接上網的IP段，在ISP服務商裝機時會劃分一個IP地址給用戶，讓計算機在連接網絡時不再自動獲取網絡地址，一般來說需要用戶在計算機上手動進行設置才可以上網。那麼用戶們該如何在電腦上設置靜态IP呢？1.在桌面上右擊“網絡”，選擇... 2023-01-05
科技一個孩子的幸福有多難
“結婚後要幾個孩子最幸福？”看到這個問題，想必大部分人心中冒出的第一個答案是：當然是2個孩子最幸福，最好是一兒一女湊成“好”，男孩做老大，女孩做妹妹，這樣就人生圓滿了。但是，真的是要兩個孩子最幸福嗎？讓我們聽聽家有一孩、二孩的過來人怎麼說。... 2023-02-15
科技自己組裝高端台式電腦配置清單
一般組裝台式電腦是按這四個方向去配置的，這裡整理了一些組裝電腦的配置清單給大家分享一下。1、日常辦公使用方向：如果你僅僅是作為日常生活，上網玩玩小遊戲等，或者是平時辦公，也不進行專業的作圖等，僅使用一些Word辦公軟件等。這些軟件是不需要什... 2022-11-25
科技智能化的車對手機有什麼影響
随着互聯網滲入進我們的生活，家居、電器、汽車也開始強調智能化。消費者對于汽車的要求不再隻停留在四個輪子的交通工具，他們更希望汽車是一個可移動的生活空間。因此互聯網屬性是新時代汽車必備的要素，而車機系統的智能交互就是其核心。目前合資品牌當中依... 2023-02-08
科技杭州雙休日可換領駕駛證嗎
浙江新聞客戶端監制蔣蘊統籌金春華編輯謝丹穎記者施力維設計王汝吉【“玩轉”入口】打開“浙裡辦”搜索“駕駛證”，根據需求選擇具體的“駕駛證補、換領”、“駕駛證審驗”、“駕駛證申領”等，即可辦理相應駕駛證事項。【我的“浙裡辦”故事】車駕管業務“浙... 2023-01-22
科技夢幻西遊轉區裝備凍結
遊戲的意義就在于它能夠給人帶來快樂，如果過多的摻雜其他的東西就失去了其本身的意義，大家好，我是小三，每天給大家分享遊戲中的八卦趣事。物理系夢想成就意味着鑒定出來的這把武器的傷害屬性要超于該等級非專用裝備能夠達到的上限，但是獲得了物理系夢想成... 2023-02-05
科技視頻号怎樣删掉
視頻号怎樣删掉?手機上打開微信，進去發現界面，點擊視頻号，今天小編就來聊一聊關于視頻号怎樣删掉?接下來我們就一起去研究一下吧!視頻号怎樣删掉手機上打開微信，進去發現界面，點擊視頻号。進去視頻号之後，點擊右上方的圖标。進去之後，點擊視頻号。在... 2022-06-20
科技卡哇伊對陣詹姆斯集錦
北京時間2月8日，在NBA常規賽東部的一場焦點之戰中，猛龍客場以115-106擊敗步行者，豪取13連勝。雖然貴為衛冕冠軍，但是相信很多球迷都沒有把猛龍當作本賽季總冠軍的有力争奪者。相比于雄鹿隊的閃耀，猛龍确實低調了不少，但是最近火熱的狀态多... 2023-02-08
科技系統門窗品牌排名前3
一個門窗企業要想一直被消費者持續關注，不僅要擁有過硬的産品質量和優質的服務，同時還需要有完善的自主研發團隊，隻有不斷地創新才是企業的點睛之筆。那麼國國内一線品牌門窗系統排名都有哪些？哪些才是真正的國内一線品牌門窗，下面小編給你分享國内一線品... 2023-01-03
科技手機qq簡化版本
5月12日，手機QQ5.6版本上線，用戶可以在各大安卓商店進行下載更新。此次手機QQ5.6版本，在社交功能和方式上再度創新，除了推出“語聊大廳”、“遠程文檔演示”、“QQ黃頁”等十分實用的社交、辦公、生活服務功能外，全新“視頻美顔”、“附近... 2022-11-30
科技 ENSCAPE在REVIT中的應用基...
昨天本公衆号發表了文章”最新版”Enscape2.6強勢來襲！Lumion9從此跌落神壇“，很多同學很感興趣，但有兩點疑惑：一是2.6是否是破解版，二是4.84G的凹凸材質庫能否用在REVIT中。今天就給大家來明确解答這兩個疑問。第一點：目... 2022-10-22
科技 gif動圖轉換用什麼軟件
相信很多小夥伴們都很喜歡刷短視頻，刷到了一些有意思的視頻就很想保存下來，恨不得加入到自己的表情包庫存裡面，在休閑的時候與好友聊天窗鬥圖，但是自己又不知道怎麼去處理讓視頻變成gif動圖表情包。今天就讓小編為大家分享一個簡單又實用的視頻轉gif... 2022-12-05
科技 facebook直播軟件名字叫什麼
facebook直播軟件名字叫什麼?财經網科技8月4日訊，據鳳凰網科技消息，Facebook官方發布博文稱，公司将于10月1日關閉其直播購物功能，将重點轉移到短視頻Reels業務上，今天小編就來聊一聊關于facebook直播軟件名字叫什麼?... 2022-12-08
科技無敵智能驅蚊器能大量殺死蚊子嗎
超市售賣的驅蚊産品□楚天都市報極目新聞記者石倩盛夏時節，人們的防蚊驅蚊需求大增。7月21日，極目新聞記者走訪發現，武漢各大商超的驅蚊産品五花八門，有不少市民采購，部分商品甚至賣光補貨。另外，網上出現一種新型驅蚊方式，多款驅蚊軟件宣稱利用超聲... 2023-01-22
科技尤尼克斯羽毛球拍參數介紹
業餘羽毛球圈一直流傳着這樣一句話，“遇事不決弓11”，意思就是當你買拍猶豫不決時，選擇弓11就行了，這足以說明弓劍11在業餘江湖是萬金油般的存在。弓11停産後，尤尼克斯今年2月份推出了替代款弓劍11PRO，定位依舊是高端控制型，跟筆者一起來... 2022-12-12
科技 iphone12 續航能力
進入5G時代，續航成為大家最關心的問題之一。相比較安卓手機都上升到四五千毫安容量的大電池，蘋果手機卻始終保持兩三千毫安的小電池配置，這一點頻頻遭受到廣大網友的吐槽。今日國外網友做了一個iPhone6s對比iPhone12續航的測試，真實數據... 2022-11-13
科技 b超單上的數據怎麼看
B超檢查不僅能讓孕媽媽看到胎寶寶的大緻圖像，而且拿到的B超單上還印有各種各樣的數字和醫學名詞縮寫，這些B超單上的數據是什麼意思呢？胎寶寶的成長狀況又如何根據數據來判斷呢？雙頂徑（BPD）胎兒頭部左右兩側之間最長部位的長度。孕初期無法通過臀高... 2023-01-08
科技諾基亞5230新機
諾基亞這個手機品牌原來有多火，可能小編現在說出來都沒有多少人相信了。也許很多年輕的小夥伴都沒有聽說過這個手機品牌。但是在十幾年前，諾基亞手機有多麼輝煌？如果非要找一個現在的手機品牌對比的話，那也隻能是蘋果了。甚至可以說，當年的諾基亞在手機屆... 2023-01-07
科技國産手機系統詳細對比
在這個科技騰飛的時代，智能手機已經成為了生活中不可分割的一部分，它成為了人類手中的錢包、電視、指南針以及主要的信息來源，當前全球市場上，手機系統主要分為兩種，iOS系統和Android系統。國産手機幾乎全都是Android系統，但由于安卓的... 2023-01-15
科技 iphone6s降頻條件
最近相信大家都知道了蘋果公司的“降頻門”。目前解決方案有兩種一種是更換新電池（10.3.3以上系統），另外一種就是系統保留在10.3.3以下。今天小編就收到一台9.33系統6S，這年頭這個系統還真不好找呢，又可以半越獄，又不怕降頻門。這台6... 2023-01-22
科技抖音小店入駐較新流程圖
抖音小店入駐較新流程圖?建議使用手機号接收驗證碼進行登錄，下面我們就來說一說關于抖音小店入駐較新流程圖?我們一起去了解并探讨一下這個問題吧!抖音小店入駐較新流程圖1.1登錄賬号建議使用手機号接收驗證碼進行登錄1.2選擇主體類型填寫說明：主體... 2023-01-04
科技三星手機自帶錄屏功能在哪裡按
請段是時間有人問三星手機怎麼開啟自帶的屏幕錄制功能，今天我就說一下，可能用過三星的朋友都看過這個功能設置但是卻不知道怎麼開啟,如圖：然後進入這個頁面：點擊完成就可以了，再次打開快捷窗口就看到這個了，點擊就開始錄制了如果幫助到你了就幫忙點個關... 2022-12-26
科技獲贈騰訊超級影視vip月卡
❥專注于周邊遊/老年遊/福利遊的平台❥已經超過500粉絲領取【支付寶紅包】打開支付寶搜索“533220376”領個【餘額寶紅包】，明早早飯省了一點，直接抵用消費！（注：第一次領的用戶，文文看到有人最高金額領到22元）注意：使用時支付方式選餘... 2022-12-25
科技英偉達RTX 3060顯卡
IT之家10月15日消息，Redditor用戶TheBloodNinja今日分享的一張照片顯示了一個裝有未發布顯卡的神秘盒子，它是在菲律賓舉行的GALAXRTX4090GPU發布會上被發現的。GALAXRTX4050的包裝盒這個包裝盒非常大... 2023-02-27
科技 i0s是什麼系統
i0s是什麼系統?iOS是蘋果手機系統，是由蘋果公司開發的移動操作系統蘋果公司最早于2007年1月9日的Macworld大會上公布這個系統，最初是設計給iPhone使用的，後來陸續套用到iPodtouch、iPad以及AppleTV等産品上... 2022-05-31

tft每日頭條

> 科技

> 實用數據分析和可視化技術

實用數據分析和可視化技術

相关科技资讯推荐

热门科技资讯推荐

网友关注