離散化是什麼意思?我們首先要理解“化”這個字的内在含義。舉個詞語“拟人化”,這是什麼意思?其意思就是把什麼變成人的樣子,所以我們可以總結出這樣的一個模式,即“XX化”就是“把某物變成XX的樣子”。套用剛才的舉例,離散化就是把數據這個事物變成離散的樣子。
那麼究竟怎麼理解離散呢?不妨讓我們看一個例子,請大家思考,年齡到底算不算離散?我們人年齡的取值可以是從0歲一直到100多歲,而且幾乎取的是整數,從某種意義上來看中間并非是連續的,因為很多小數部分都是沒有辦法取到的,因而你可以說它是離散的。但是如果我們根據人的年齡把人分為幼兒、青年、中年、老年這樣四個階段,那麼年齡的具體數值看起來就是應該更加連續,或者至少我們可以說它沒有那四個階段離散。因而這個時候我們把年齡又看成是連續的。由此可知,連續和離散完全取決于我們站在什麼樣的粒度上,除了一切沒有基本争議點的數據離散或者連續屬性外,我們可以采取這種一事一議的方式來判斷究竟一系列數據到底是離散的還是連續的。
離散化總共有四種形式,下面分别介紹。
簡單離散:剛才舉例中将年齡離散成幼兒、青年、中年與老年的例子就是簡單離散。
分桶後平滑:所謂分桶就是先根據數據的情況設置一些阈值,譬如說收入有1k, 2k, 3k, ..., 10k,我們就可以劃分為桶1(1k~3k),桶2(3k~5k),桶3(5k~7k),桶4(7k~9k),桶5(9k )。這樣原來的十個收入數據就會落到5個桶中,在每個桶中可以分别使用平均數、中位數以及邊界值來替代桶中所有的數值,這三種方式分别稱為平均平滑、中值平滑以及邊界值平滑。當然一般來說,我們使用平均平滑較多。
聚類離散:所謂聚類離散就是把相同、相似以及相近的數據進行聚合,過程中采用的是聚類的算法,對每一簇進行命名後就是離散的結果了。
回歸平滑:所謂回歸平滑是對兩個變量有相關性的,可以拟合後,用拟合線上的數值代替原來數值,這本質上是進行數據噪聲的處理。當然很多人也會問,這和數據離散有什麼關系呢?确實,直觀上這和數據離散沒有關系,但是進行回歸平滑後的數據已經天然的具備了線性條件,因而可以使用非常明确的邊界值對其進行劃分成兩個或者多個。因而讓我們姑且也将其放入離散化的行列吧。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!