tft每日頭條

 > 科技

 > spss如何進行數據分析策略

spss如何進行數據分析策略

科技 更新时间:2024-07-20 21:22:42

在進行數據分析時,數據具有單位是非常常見的,比如說GDP可以以億作為單元,也可以以百萬作為單位,那麼此時就會出現由于單位問題導緻的數字大小問題;這種情況對于分析可能産生影響,因此需要對其進行處理,但是處理的前提是不能失去數字的相對意義,即之前數字越大代表GDP越高,處理後的數據也不能失去這個特性,類似這樣的處理我們統稱為量綱化

也或者計算距離,數字1和2的距離可以直接相減得到距離值為1; 另外一組數據為10000和20000,兩個數字直接相減得到距離值為10000。如果說距離數字越大代表距離越遠,那麼明顯的10000大于1,但這種情況僅僅是由于數據單位導緻的,而并非實際希望如何,因此就需要進行量綱化處理。

量綱化有很多種方式,但具體應該使用那一種方式,并沒有固定的标準,而應該結合數據情況或者研究算法,選擇最适合的量綱化處理方式,SPSSAU共提供12種量綱化處理方法,如下圖。

spss如何進行數據分析策略(SPSSAU數據分析)1

1 量綱化基本說明

關于量綱化,其具體的公式計算如下,接下來會逐一說明。

spss如何進行數據分析策略(SPSSAU數據分析)2

12種量綱化類型


備注:表格中,X表示某數據,Mean表示平均值,Std表示标準差;Min表示最小值,Max表示最大值,Sum表示求和,Sqrt表示開根号。


1) 标準化(S)

标準化是一種最為常見的量綱化處理方式。其計算公式為:(X-Mean)/ Std。

此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0,标準差一定是1。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0标準差為1)。

在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進行标準化處理,也或者因子分析時默認會對數據标準化處理。

比如聚類分析時,其内部算法原理在于距離大小來衡量數據間的聚集關系,因此默認SPSSAU會選中進行标準化處理。

除此之外,還有一些特殊的研究方法,比如社會學類進行中介作用,或者調節作用研究時,也可能會對數據進行标準化處理。


2) 中心化(C)

中心化這種量綱處理方式可能在社會科學類研究中使用較多,比如進行中介作用,或者調節作用研究。其計算公式為:X - Mean。

此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0)。

平均值為0是一種特殊情況,比如在社會學研究中就偏好此種量綱處理方式,調節作用研究時可能會進行簡單斜率分析,那麼平均值為0表示中間狀态,平均值加上一個标準差表示高水平狀态;也或者平均值減一個标準差表示低水平狀态。


3) 歸一化(MMS)

歸一化的目的是讓數據壓縮在【0,1】範圍内,包括兩個邊界數字0和數字1;其計算公式為(X - Min)/ (Max - Min)。

當某數據剛好為最小值時,則歸一化後為0;如果數據剛好為最大值時,則歸一化後為1。

歸一化也是一種常見的量綱處理方式,可以讓所有的數據均壓縮在【0,1】範圍内,讓數據之間的數理單位保持一緻。


4) 均值化(MC)

均值化在綜合評價時有可能使用,比如進行灰色關聯法研究時就常用此種處理方式;其計算公式為X / Mean,即以平均值作為單位,全部數據均去除以平均值。

需要特别說明一點是,此種處理方式有個前提,即所有的數據均應該大于0,否則可能就不适合用此種量綱方式。


5) 正向化(MMS)

正向化的目的是對正向指标保持正向且量綱化,什麼意思呢。比如這樣一些指标GDP增長率、科研産出數量、失業率共3個指标;明顯的,GDP增長率、科研産出數量是數字越大越好,而失業率是數字越小越好。

正向化的目的就是讓數字越大越好的意思,而且同時其還讓數據壓縮在【0,1】範圍内即進行了量綱處理。其計算公式為(X - Min)/ (Max - Min)。

當某數據剛好為最小值時,則歸一化後為0;如果數據剛好為最大值時,則歸一化後為1。

正向化和歸一化的公式剛好完全相等,但正向化強調讓數字保持越大越好的特性且對數據單位壓縮,而歸一化僅強調數字壓縮在【0,1】之間。

正向化的使用情況為:當指标中有正向指标,又有負向指标時;此時使用正向化讓正向指标全部量綱化;也或者指标全部都是正向指标,讓所有正向指标都量綱化處理。


6) 逆向化(NMMS)

逆向化的目的是對逆向指标正向且量綱化,什麼意思呢。比如這樣一些指标GDP增長率、科研産出數量、失業率共3個指标;明顯的,GDP增長率、科研産出數量是數字越大越好,而失業率是數字越小越好。

逆向化的目的就是讓數字越小越好的意思,而且同時其還讓數據壓縮在【0,1】範圍内即進行了量綱處理。其計算公式為(Max - X)/ (Max - Min)。

從公式就可以看出,分母永遠是大于0,随着X的增大,分子會越來越小,那麼就對逆向指标逆向化處理之後就會得到一個這樣的特征,即數字越大越好(數字越大時,其實X是越小)。

相當于将逆向指标逆向化後,新的數據為數字越大越好,這樣便于進行方向的統一,尤其是在指标同時出現正向指标和逆向指标時,針對逆向指标進行逆向處理,是非常常見的處理方式。


7) 區間化(Interval)

區間化的目的是讓數據壓縮在【a,b】範圍内,a和b是自己希望的區間值,如果a=0,b=1,那麼其實就是一種特殊情況即歸一化;其計算公式為a (b - a) * (X - Min)/(Max - Min)。

此公式會讓數據永遠的保持在【a,b】之間,SPSSAU默認a為1,b為2,即将數據壓縮在【1,2】之間,當然研究者根據需要進行設置即可。它的目的僅僅是對數據進行壓縮在固定的區間,保持數據數理單位的一緻性。


8) 初值化(Init)

初值化在綜合評價時有可能使用,比如進行灰色關聯法研究時就常用此種處理方式;其計算公式為X / 該列第1個不為空的數據,即以數據中第1個不為空的數據作為參照标準,其餘的數據全部去除以該值。

比如說2000,2001,2002,2003,一直到2020共計21年的GDP數據,第1個數據就是2000年的GDP,所有的數據都去除以2000年的GDP,相當于以2000年GDP作為參照标準,所有數據全部除以2000年的GDP(包括2000年GDP除以自己得到數字1)。

一般來說,初值化這種處理方式适用于有着一種趨勢或規律性的數據,比如上述2000~2020年的GDP等,而且數據正常情況下都是全部大于0,因為出現負數,通常會失去其特定意義。


9) 最小值化(MinS)

最小值化,其目的是讓最小值作為參照标準,所有的數據全部除以最小值;其計算公式為X / Min,即以最小值作為單位,全部數據全部去除以最小值。需要特别說明一點是,此種處理方式時一般都是要求數據全部大于0,否則可能就不适合用此種量綱方式。


10) 最大值化(MaxS)

最大值化,其目的是讓最大值作為參照标準,所有的數據全部除以最大值;其計算公式為X / Max,即以最大值作為單位,全部數據全部去除以最大值。需要特别說明一點是,此種處理方式時一般都是要求數據全部大于0,否則可能就不适合用此種量綱方式。


11) 求和歸一化(SN)

求和歸一化,其目的是讓‘求和值’作為參照标準,所有的數據全部除以求和值,得到的數據相當于為求和的占比;其計算公式為X / Sum(X),即以所有數據的‘求和值’作為單位,全部數據全部去除以‘求和值’。

需要特别說明一點是,此種處理方式時一般都是要求數據全部大于0,否則可能就不适合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。


12) 平方和歸一化(SSN)

平方和歸一化,其目的是讓‘平方和值’作為參照标準,所有的數據全部除以平方和值,得到的數據相當于為平方和的占比;其計算公式為X / Sqrt(Sum(X^2)),即以所有數據的‘平方和值’作為單位,全部數據全部去除以‘平方和值’。

需要特别說明一點是,此種處理方式時一般都是要求數據全部大于0,否則可能就不适合用此種量綱方式。TOPSIS法的時候使用此種處理方式較多。

2 如何使用SPSSAU進行量綱化操作

關于使用SPSSAU進行量綱化相關操作上,其位置在SPSSAU儀表盤->數據處理->生成變量中,截圖如下:

spss如何進行數據分析策略(SPSSAU數據分析)3

SPSSAU可批量進行某種類型的量綱化操作,默認SPSSAU會在處理的名稱前加上字母進行标識,比如名稱為“A”的标題進行标準化操作,那麼SPSSAU會輸出“S_A”。“S”表示進行了标準化處理。

3 量綱化如何使用

量綱化按是否具有實際意義可分為兩類,一類是量綱處理方式有着一定的實際意義,另一類是僅數理角度的量綱處理方式;如下圖:

spss如何進行數據分析策略(SPSSAU數據分析)4

量綱化的目的是将數據進行量綱單位統一化,有的量綱化具有實際意義,比如均值化,初值化,最小值化,最大值化,和求和歸一化,平方和歸一化共6種。分别代表數據除以平均值,數據除以第1個數,數據除以最小值,數據除以最大值,數據除以求和值,數據除以平方和值。相當于說,它們都找到一個參照标準項,然後所有數據去除以參照标準項。此6種方式的特點在于,一般要求數據全部都大于0,如果出現小于0或者等于0就有可能出問題,比如剛好分母為0,那麼就出現無法相除。

除此之外,僅數理化的量綱處理,包括标準化,中心化,歸一化,正向化,逆向化,區間化,均在于讓數據保持在一定的區間範圍内,而且處理後帶有一定的數理特征,比如标準化後數據的平均值為0标準差為1;中心化後數據平均值為0;歸一化後數據最小為0最大為1;正向化後數據最小為0最大為1;逆向化後數據最小為0最大為1;區間化是研究者自行設定處理後數據壓縮在對應的範圍内。

spss如何進行數據分析策略(SPSSAU數據分析)5

在研究時具體應該使用那一種處理方式呢,其實并沒有固定的要求,而是結合實際情況或者實際研究進行。比如社會學類的中介作用和調節作用偏好于使用中心化或标準化這種處理方式;聚類分析或者因子分析等使用默認會使用标準化;綜合評價時比如灰色關聯法偏好于使用均值化或初值化;TOPSIS法時偏好于使用求和歸一化或者平方和歸一化。如果想對數據的指标方向進行統一,那麼就會使用正向化或者逆向化。

如果單獨想對數據量綱進行處理(且沒有分析方法上的常用習慣),那麼通常默認是使用标準化或者歸一化最多,标準化直接把數據壓縮且數據有一種特質即平均值為0标準差為1的特質;歸一化把數據壓縮在【0,1】之間。也或者使用中心化讓數據有一種特質即平均值為0。

如果數據中有負數,正常情況下不能使用‘有實際意義的量綱處理’即均值化,初值化,最小值化,最大值化,求和歸一化,平方和歸一化。

特别說明,正向化和逆向化這兩種處理方式,其目的有2個,一是對數據進行量綱單位處理,最終讓數據壓縮在【0,1】之間。除此之外,其還可以對正向或負向指标進行方向上的統一;如果數據包括正向和逆向指标,那麼正向指标進行正向化處理,負向指标進行負向化處理,最終讓所有的指标都壓縮在【0,1】之間,而且都讓指标有一個物質即數字越大越好。如果說指标全部都是正向指标那麼全部正向化即可,正向化後數字還是越大越好;如果說指标全部都是逆向指标那麼全部逆向化即可,逆向化後數字就代表越大越好。

spss如何進行數據分析策略(SPSSAU數據分析)6


,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved