tft每日頭條

 > 科技

 > 十六種常用數據分析

十六種常用數據分析

科技 更新时间:2025-01-30 13:14:28


十六種常用數據分析(16種常用的數據分析方法-生存分析)1

探究變量之間的關系是數據挖掘中的一個基本分析内容,對于常規的離散型或者連續型變量,有很多的方法可以用于挖掘其中的關系,比如線性回歸,邏輯回歸等等。然而有一類數據非常的特殊,用回歸分析等常用手段出處理這類數據并不合适,這類數據就是生存數據。


常規數據在表示時,隻需要一個值,比如患者的血壓,性别等數據,不是連續型就是離散型;生存數據則有兩個值,第一個是生存時間,可以看做是一個連續型的變量,第二個是生存事件,可以看做是離散型的變量。


比如分析治療後的患者生存情況,在觀測期間,可以看到不同患者的存活時間,這個值就是生存時間,而有些患者可能在觀察期内出現死亡,複發等情況,死亡或者複發則稱之為事件。


生存分析是既考慮結果又考慮生存時間的一種統計方法,并可充分利用截尾數據所提供的不完全信息,對生存時間的分布特征進行描述,對影響生存時間的主要因素進行分析。










生存資料分析




生存分析就是針對生存資料的分析。所謂生存資料就是描述壽命或者一個發生時間的數據。更詳細的說一個人的生存時間的長短與許多因素有聯系的,研究因素與生存時間的聯系有無及程度大小,就是生存分析。


生存資料不同于其它分析資料,有一個特殊的地方就是缺失值的處理,對于常規數據,缺失值很多時可以直接丢掉,隻有少量缺失值時可以用算法進行填補,而生存數據中的缺失值則不同。


在觀測期間,患者可能出現了其他的事件導緻後續得不到對應的生存數據,比如患者出現意外事故身亡了,後續的生存數據就會缺失,很顯然生存數據是不能用算法填補的,一定要是實際觀測的結果。


但是這個數據也不能直接丢掉,因為從觀測開始到患者意外身亡的這段時間内的生存數據是有意義的,在進行生存分析時,這部分數據也可以利用起來。











應用場景





生存可以指人或動物的存活(相對于死亡),可以是患者的病情正處于緩解狀态(相對于再次複發或惡化),還可以是某個系統或産品正常工作(相對于失效或故障),甚至可是是客戶的流失與否等。


在生存分析中,研究的主要對象是壽命超過某一時間的概率。還可以描述其他一些事情發生的概率,例如産品的失效、出獄犯人第一次犯罪、失業人員第一次找到工作等等。


在某些領域的分析中,常常用追蹤的方式來研究事物的發展規律,比如研究某種藥物的療效,手術後的存活時間,某件機器的使用壽命等。


在醫學研究中,常常用追蹤的方式來研究事物發展的規律。如,了解某藥物的療效,了解手術的存活時間,了解某醫療儀器設備使用壽命等等。










生存分析主要内容





生存分析的主要内容包括:


l描述生存過程,即研究生存時間的分布規律


l比較生存過程,即研究兩組或多組生存時間的分布規律,并進行比較


l分析危險因素,即研究危險因素對生存過程的影響


l建立數學模型,即将生存時間與相關危險因素的依存關系用一個數學式子表示出來。










生存分析主要方法




生存分析方法可以分為描述法、參數法、半參數法和非參數法。


1.描述法

根據樣本觀測值提供的信息,直接用公式計算出每一個時間點或每一個時間區間上的生存函數、死亡函數、風險函數等,并采用列表或繪圖的形式顯示生存時間的分布規律。


優點:方法簡單且對數據分布無要求


缺點:不能比較兩組或多組生存時間分布函數的區别,不能分析危險因素,不能建立生存時間與危險因素之間的關系模型。



2.非參數法

估計生存函數時對生存時間的分布沒有要求,并且檢驗危險因素對生存時間的影響時采用的是非參數檢驗方法。


常用方法:乘積極限法、壽命表法


優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,對生存時間的分布沒有要求。


缺點:不能建立生存時間與危險因素之間的關系模型。



3.參數法

根據樣本觀測值來估計假定的分布模型中的參數,獲得生存時間的概率分布模型。


生存時間經常服從的分布有:指數分布、Weibull分布、對數正态分布、對數Logistic分布、Gamma分布。


優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型。


缺點:需要事先知道生存時間的分布



4.半參數法

不需要對生存時間的分布做出假定,但是卻可以通過一個模型來分析生存時間的分布規律,以及危險因素對生存時間的影響,最著名的就是COX回歸。


優點:可以估計生存函數,可以比較兩組或多組生存分布函數。可以分析危險因素對生存時間的影響,可以建立生存時間與危險因素之間的關系模型,不需要事先知道生存時間的分布。









生存分析案例




研究性别對于肺病生存率有無區别,收集數據下列信息


time:生存時間(單位天)

status:0=存活,1=死亡

sex:1=男,2=女



操作步驟


1)按步驟将數據導入


十六種常用數據分析(16種常用的數據分析方法-生存分析)2



2)選定壽命表分析方法


十六種常用數據分析(16種常用的數據分析方法-生存分析)3



3)對各選項進行設置


其中注意狀态設置:選取表示事件已發生的值


十六種常用數據分析(16種常用的數據分析方法-生存分析)4

十六種常用數據分析(16種常用的數據分析方法-生存分析)5



4)設置完所有選項後确認,得到結果


存活表:該表給出了男女對應時間内存活和死亡人數,并計算了存活率、風險比等統計量


十六種常用數據分析(16種常用的數據分析方法-生存分析)6


中位數生存時間:即生存率為50%時,生存時間的平均水平;


由此可知:生存時間的平均水平女士高于男士


十六種常用數據分析(16種常用的數據分析方法-生存分析)7

生存函數:男士較女士累計生存率下降快


十六種常用數據分析(16種常用的數據分析方法-生存分析)8



,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved