tft每日頭條

 > 圖文

 > 多元統計分析例題

多元統計分析例題

圖文 更新时间:2024-12-01 03:15:35

多元統計分析例題?注:此筆記僅由個人根據老師給的期末考綱進行歸納,我來為大家講解一下關于多元統計分析例題?跟着小編一起來看一看吧!

多元統計分析例題(多元統計分析期末複習筆記)1

多元統計分析例題

注:此筆記僅由個人根據老師給的期末考綱進行歸納

第1章多元正态分布的基本概念一、多元分布的基本概念

1. 随機向量(概念)P2

2. 分布函數與密度函數(概念)P3

3. 随機向量的數字特征(公式)P4

二、統計距離

1. 馬氏距離的定義

馬氏距離表示數據的協方差距離,是一種有效的計算兩個未知樣本集的相似度的方法。馬氏距離也可以定義為兩個服從同一分布并且其協方差矩陣為∑的随機變量之間的差異程度。 是用坐标差平方除以方差(或說乘以方差的倒數),從而轉化為無量綱數的,推廣到多維就要乘以協方差陣∑的逆矩陣∑-1。

(歐氏距離是一個通常采用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離。)

2. 歐氏距離與馬氏距離的差别

歐氏距離是馬氏距離的特例,馬氏距離考慮了數據的協方差,馬氏距離中協方差矩陣是單位矩陣時就是歐氏距離。

1)馬氏距離的計算是建立在總體樣本的基礎上的,這一點可以從協方差矩陣的解釋中可以得出,也就是說,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;

2)在計算馬氏距離過程中,要求總體樣本數大于樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐氏距離計算即可。

3)還有一種情況,滿足了條件總體樣本數大于樣本的維數,但是協方差矩陣的逆矩陣仍然不存在,比如三個樣本點(3,4),(5,6)和(7,8),這種情況是因為這三個樣本在其所處的二維空間平面内共線。這種情況下,也采用歐氏距離計算。

4)在實際應用中“總體樣本數大于樣本的維數”這個條件是很容易滿足的,而所有樣本點出現3)中所描述的情況是很少出現的,所以在絕大多數情況下,馬氏距離是可以順利計算的,但是馬氏距離的計算是不穩定的,不穩定的來源是協方差矩陣,這也是馬氏距離與歐氏距離的最大差異之處。

三、多元正态分布

1. 多元正态分布的性質:P10

四、均值向量和協方差陣的估計

1. 離差陣的定義:P14

五、常用分布及抽樣分布

1. 分布之間的關系(不需要性質):P15~P18

第2章 均值向量和協方差陣的檢驗一、均值向量的檢驗

1. 多元統計的檢驗(檢驗統計量):P22~P23

2. 多總體均值的檢驗(檢驗程序及分布)P25~P27

二、協方差陣的檢驗(這個看一下就好,均值檢驗公式才是重點)

協方差陣的檢驗:P27~P28

第3章 聚類分析(填空、問答)

注:聚類、判别、因子、主成分考很多問答題

1.聚類分析與判别分析的相關和區别(必考)

1. 聚類分析。根據研究對象特征對研究對象進行分類的一種多元分析技術,把性質相近的個體歸為一類,使得同一類中的個體都具有高度的同質性,不同類之間的個體具有高度的異質性。根據分類對象的不同分為樣品聚類(Q聚類)和變量聚類(R聚類)。

2. 判别分析。根據一定量案例的一個分組變量和相應的其他多元變量的已知信息,确定分組與其他多元變量之間的數量關系,建立判别函數,然後便可以利用這一數量關系對其他未知分組類型所屬的案例進行判别分組。

判别分析中的因變量或判别準則是定類變量,而自變量或預測變量基本上是定距變量。依據判别類型的多少與方法不同,分為多類判别和逐級判别。判别分析的過程是通過建立自變量的線性組合(或其他非線性函數),使之能最佳地區分因變量的各個類别。

3. 區别與聯系。

都是研究分類的。(區别:聚類分析事先不知道研究對象的類别)

區别:(1)基本思想不同。

聚類分析的基本思想:根據相似性(親疏關系),具體找出一些能夠度量樣品或指标之間相似程度的統計量,把一些相似程度較大的樣品(或指标)聚合為一類,把另外一些相似程度較大的樣品(或指标)又聚合為另一類;關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指标)聚合完畢。

判别分析的基本思想:對已知分類的數據建立由數值指标構成的分類規則即判别函數,然後把這樣的規則應用到未知分類的樣本去分類。

(2)研究目的不同。

雖然都是研究分類的,但在進行聚類分析前,對總體到底有幾種類型不知道(研究分幾類較為合适需從計算中加以調整)。判别分析則是在總體類型劃分已知,對當前新樣本判斷它們屬于哪個總體。

(3)聚類分析分兩種:Q型聚類(對樣本的聚類),R型聚類(對變量的聚類)

聚類分析需要注意的是,一般小樣本數據可以用系統聚類法,大樣本數據一般用快速聚類法(K均值聚類法),當研究因素既有分類變量又有計量變量,可以用兩步聚類。

(4)判别分析。

有Fisher判别,Bayes判别和逐步判别。一般用Fisher判别即可,要考慮概率及誤判損失最小的用Bayes判别,但變量較多時,一般先進行逐步判别篩選出有統計意義的變量,再結合實際情況選擇用哪種判别方法。

聚類分析的基本思想(課本):

我們認為,所研究的樣品或指标(變量)之間存在程度不同的相似性(親疏關系)。于是根據一批樣品的多個觀測指标,具體找出一些能夠度量樣品或指标之間相似程度的統計量,以這些統計量作為劃分類型的依據,把一些相似程度較大的樣品(或指标)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指标)聚合為另一類......關系密切的聚合到一個小的分類單位,關系疏遠的聚合到一個大的分類單位,直到把所有的樣品(或指标)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統。最後再把整個分類系統畫成一張分群圖(又稱譜系圖),用它把所有的樣品(或指标)間的親疏關系表示出來。聚類分析不僅可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品分類常稱為Q型聚類分析,對變量的分類常稱為R型聚類分析。

2.系統聚類分析的基本思想

先将聚類的樣本或變量各自看成一群,然後确定類與類間的相似統計量,并選擇最接近的兩類或若幹個類合并成一個新類,計算新類與其他各類間的相似性統計量,再選擇最接近的兩群或若幹群合并成一個新類,直到所有的樣本或變量都合并成一類為止。

首先,将n個樣品看成n類(一類包含一個樣品),然後将性質最接近的兩類合并成一個新類,得到n-1類,再從中找出最接近的兩類加以合并,變成n-2類,如此下去,最後所有的樣品均在一類,将上述并類過程畫成一張圖(稱為聚類圖)便可決定分多少類,每類各有哪些樣品。

聚類分析的基本思想和功能是什麼?

聚類分析的核心思想是根據具體的指标(變量〉對所研究的個體或者對象進行分類,使得同一類中的對象之間的相似性比其他類的對象的相似性更強。聚類分析不僅可以用來對樣品進行分類,也可以用來對變量進行分類。對樣品的分類常稱為Q型聚類分析,對變量的分類常稱為R型的聚類分析。

聚類分析的目的或功能就是把相似的研究對象歸成類,即使類間對象的同質性最大化和類與類間對象的異質性最大化。

3.系統聚類分析的步驟P47

看課本

系統聚類分析法的基本步驟為(數據的正規化和标準化;正規化和标準化數據)、(數據分類尺度計算;計算數據分類尺度)、(分類樹形圖的繪制;繪制分類樹形圖)和(類别的劃分;劃分類别)。

4.相似性度量(幾個距離公式了解一下)P40-415.類和類的特征(方法):P44~P466.K-均值聚類的過程,操作步驟(程序、過程、操作步驟):P56-P57

k均值聚類算法是一種叠代求解的聚類分析算法,其步驟是,預将數據分為K組,則随機選取K個對象作為初始的聚類中心,然後計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程将不斷重複直到滿足某個終止條件。終止條件可以是沒有(或最小數目)對象被重新分配給不同的聚類,沒有(或最小數目)聚類中心再發生變化,誤差平方和局部最小。

7.系統聚類法的原理和步驟P62

(1)系統聚類的基本思想是:距離相近的樣品(或變量〉先聚成類,距離相遠的後聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合适的類中。

(2)系統聚類的具體步驟:假設總共有N個樣品(或變量)

第一步:将每個樣品(或變量)獨自聚成一類,共有N類;

第二步:根據所确定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其他的樣品(或變量)仍各自聚為一類,共聚成N-1類;

第三步:将“距離”最近的兩個類進一步聚成一類,共聚成N-2類;。。。,以上步驟一直進行下去,最後将所有的樣品(或變量)全聚成一類。

第4章 判别分析(最核心的幾個方法類,流程、思想)1. 判别分析的思想和步驟(必考)P82

1. 其基本原理是按照一定的判别準則,建立一個或多個判别函數,用研究對象的大量資料确定判别函數中的待定系數,并計算判别指标。據此即可确定某一樣本屬于何類。

基本思想:根據判别中的組數,可以分為兩組判别分析和多組判别分析;根據判别函數的形式,可以分為線性判别和非線性判别;根據判别式處理變量的方法不同,可以分為逐步判别、序貫判别等;根據判别标準不同,可以分為距離判别、Fisher判别、Bayes判别法等。

2. 步驟:已知某種事物有幾種類型,現在從各種類型中各取一個樣本,由這些樣本設計出一套标準,使得從這種事物中任取一個樣本,可以按這套标準判别它的類型。

判别分析的6個步驟過程:

(1) 判别分析的對象:這一步驟主要根據判别分析的研究目的定義觀測變量。

(2) 判别分析的研究設計:主要包括解釋變量和被解釋變量的選擇、估計判别函數所需的樣本量和為了驗證目的對樣本的分割。

(3) 假定:推導判别函數的關鍵假定是解釋變量的多元正态性和被解釋變量定義的各組的未知但相等的協方差結構。

(4) 估計判别模型和評估整體拟合:研究者必須确定估計的方法,然後确定保留的函數個數;根據估計的函數可用多種方法來評估模型拟合。

(5) 結果的解釋:這個過程主要介紹在判别分析中每個解釋變量的相對重要性,主要有标準化判别權重、判别載荷(結構相關系數)、偏F值三種方法确定重要性

(6) 結果的驗證:通常采用分割樣本或者交叉驗證法。

判别分析的流程:研究問題>設計要點>假定>估計判别函數>使用分類矩陣估計預測的精度>判别函數的解釋>判别結果的驗證。

2.距離判别:P84-P853.判别分析的上機步驟(例4-1)P90-P103第5章 主成分分析

(考1個分析題,看下例題,解釋重點表,内容含義,涉及計算,如何保留主成分)

1.主成分分析的原理、基本思想、步驟:

對于原先提出的所有變量,将重複的變量(關系緊密的變量)删去多餘,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。 設法将原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

2.基本思想:

保持原始變量盡可能多的信息的前提下達到降維的目的。

主成分分析是設法将原來衆多具有一定相關性(比如P個指标),重新組合成一組新的互相無關的綜合指标來代替原來的指标。通常數學上的處理就是将原來P個指标作線性組合,作為新的綜合指标。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指标)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指标的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。

3.步驟:

1. 指标數據标準化(SPSS軟件自動執行);

2. 指标之間的相關性判定;

3. 确定主成分個數m;

4. 主成分Fi表達式;

5. 主成分Fi命名。

4.總體主成分及其性質:P110-P1155.主成分分析的上機實現(計算):P120-P132第6章 因子分析1. 因子分析的基本思想及步驟(原理、思想、步驟):

基本原理是:為了從總體上把握兩組指标之間的相關關系,分别在兩組變量中提取有代表性的兩個綜合變量U1和V1(分别為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關關系來反映兩組指标之間的整體相關性。

2.基本思想:P1353.步驟:P143

(1)确認待分析的原始變量是否适合作因子分析;(2) 構造因子變量;(3)利用旋轉方法使因子變量具有可解釋性;(4)計算每個樣本的因子變量得分。

4.因子載荷的求解:P139-142(主成分法、主軸因子法、因子旋轉法)5.主成分分析與因子分析的區别與關聯、異同點(必考):P143

聯系:兩者都常用于數據降維和信息濃縮,都是從一個協方差陣出發。生成的新變量均包括了原始變量的大部分信息(一般大于80%,可根據具體情況定)且新變量之間互相獨立,都可以用于後續的回歸分析、判别分析、聚類分析等。主成分分析是因子分析的一個特例。

區别

(1)原理不同

主成分分析(Principal components analysis,PCA)基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指标轉化為幾個不相關的綜合指标(主成分),即每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優越的性能(主成分必須保留原始變量90%以上的信息),從而達到簡化系統結構,抓住問題實質的目的。

因子分析(Factor Analysis,FA)基本原理:利用降維的思想,由研究原始變量相關矩陣内部的依賴關系出發,把一些具有錯綜複雜關系的變量表示成少數的公共因子和僅對某一個變量有作用的特殊因子線性組合而成。就是要從數據中提取對變量起解釋作用的少數公共因子(因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關關系)。

(2)線性表示方向不同

因子分析是把變量表示成各公因子的線性組合;

主成分分析中則是把主成分表示成各變量的線性組合。

(3)假設條件不同

主成分分析:不需要有假設;

因子分析:需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子之間也不相關,共同因子和特殊因子之間也不相關。

(4)求解方法不同

求解主成分的方法:從協方差陣出發(協方差陣已知),因子從相關陣出發(相關陣R已知)。

(實際研究中,總體協方差陣與相關陣是未知的,必須通過樣本數據來估計)

注意事項:由協方差陣出發與由相關陣出發求解主成分所得結果不一緻時,要恰當的選取某一種方法;一般當變量單位相同或者變量在同一數量等級的情況下,可以直接采用協方差陣進行計算;對于度量單位不同的指标或是取值範圍彼此差異非常大的指标,應考慮将數據标準化,再由協方差陣求主成分;實際應用中應該盡可能的避免标準化,因為在标準化的過程中會抹殺一部分原本刻畫變量之間離散程度差異的信息。此外,最理想的情況是主成分分析前的變量之間相關性高,且變量之間不存在多重共線性問題(會出現最小特征根接近0的情況)。

求解因子載荷的方法:主成分法,主軸因子法,極大似然法,最小二乘法,a因子提取法。

(5)主成分和因子的變化不同

主成分分析:當給定的協方差矩陣或者相關矩陣的特征值唯一時,主成分一般是固定的獨特的;

因子分析:因子不是固定的,可以旋轉得到不同的因子。

(6)因子數量與主成分的數量不同。主成分分析得到的主成分數等于原始變量數目;因子分析得到的因子數量一般由人為事先确定。

(7)解釋重點不同

主成分分析:重點在于解釋個變量的總方差;

因子分析:則把重點放在解釋各變量之間的協方差。

(8)算法上的不同

主成分分析:協方差矩陣的對角元素是變量的方差;

因子分析:所采用的協方差矩陣的對角元素不在是變量的方差,而是和變量對應的共同度(變量方差中被各因子所解釋的部分)。

(9)優點不同

因子分析:對于因子分析,可以使用旋轉技術,使得因子更好的得到解釋,因此在解釋主成分方面因子分析更占優勢;其次因子分析不是對原有變量的取舍,而是根據原始變量的信息進行重新組合,找出影響變量的共同因子,化簡數據。

主成分分析:

第一:如果僅僅想把現有的變量變成少數幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入後續的分析,則可以使用主成分分析,不過一般情況下也可以使用因子分析;

第二:通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價;

第三:它在應用上側重于信息貢獻影響力綜合評價;

第四:應用範圍廣,主成分分析不要求數據來自正态分布總體,其技術來源是矩陣運算的技術以及矩陣對角化和矩陣的譜分解技術,因而凡是涉及多維度問題,都可以應用主成分降維。

(10)應用範圍不同

在實際的應用過程中,主成分分析常被用作達到目的的中間手段,而非完全的一種分析方法,提取出來的主成分無法清晰的解釋其代表的含義。而因子分析就是一種完全的分析方法,可确切的得出公共因子。

……主成分本質是一種線性變換,因子分析是描述原變量的相關陣結構的一種模型。……主成分的解是唯一的,而因子分析的解是不唯一的。……應用目的不同。

第8章 典型相關分析(1個問題,基本理論及方法)1. 典型相關分析的基本理論及方法(必考)(核心表達式要寫,誰和誰相等):P188-P193

基本思想:在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關系數。選取和最初挑選的這對線性組合不相關的線性組合,使其配對,并選取相關系數最大的一對,如此下去直到兩組之間的相關性被提取完畢為止。

步驟:(1)确定典型相關分析的目标 (2)設計典型相關分析 (3)檢驗典型相關分析的基本假設 (4)估計典型模型,評價模型拟合程度 (5)解釋典型變量 (6)驗證模型 典型相關分析的用途很廣。

(核心表達式要寫,誰和誰相等!!!課本!!!)

第3章,聚類分析與判别分析的相關和區别(必考)

系統聚類,K-均值聚類

第4章,判别分析的思想和步驟(必考)P82

第56章,主成分分析與因子分析的區别與關聯、異同點(必考):P143

第8章,典型相關分析的基本理論及方法(必考)P188-P193

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关圖文资讯推荐

热门圖文资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved