時序數據缺失值填充算法-tft每日頭條

時序數據缺失值填充算法

科技更新时间:2025-07-17 12:05:40

©作者 | 曲奇

01 概述

通常時序數據的異常值主要分為三類：

時序數據缺失值填充算法（時序數據異常點檢測技術）1

02 時序數據常用特征

時序數據常見特征

特征	描述
周期（頻率）	數據出現周而複始的現象
趨勢	數據呈現上漲、下跌的走勢
季節性	在一年或者更短的時期内在一個趨勢線上重複性和可預測的變動
自相關	代表數據之間的相關依賴
非線性	時間序列中包含了非線性模型表示的複雜數據集
偏态	測量對稱性，或更加明确地說，缺乏對稱性
峰度	如果數據相對于正常分布達到峰值或平坦，則采取措施
林中小丘	衡量時間序列的長期記憶
李亞普諾夫指數	衡量附近軌迹的發散速度

用于建模實驗的常見指标，衡量模型好壞

指标	描述
Bias	誤差的算術平均值
MAD	平均絕對偏差，也稱為 MAE
MAPE	平均絕對百分比誤差
MSE	誤差的均方
SAE	絕對錯誤的總和
ME	平均誤差
MASE	平均絕對比例誤差
MPE	平均百分比誤差

03 異常檢測方法

主要分為三大類：

基于統計模型基于統計模型的異常點檢測技術将所有數據構建成一個數據模型，其認為異常點是那些與模型不能完美拟合的對象。
基于鄰近度通常可以在對象之間定義鄰近性度量。異常對象是那些遠離大部分其他對象的對象。
基于密度的技術對象的密度估計可以相對直接計算，特别是當對象之間存在鄰近性度量時。當一個點的局部密度顯著低于它的大部分近鄰時，可能會被看作是異常的。

基于統計模型的異常點檢測

基于數據，構建一個概率分布模型，得出模型的概率密度函數。通常，異常點的概率是很低的。

基于正泰分布的一元異常點檢測

時序數據缺失值填充算法（時序數據異常點檢測技術）2

多元正态分布的異常點檢測

對于多元高斯分布檢測，我們希望使用類似于一元高斯分布的方法。例如，如果點關于估計的數據具有低概率，那麼就把它們分類為異常點。

實際上馬氏距離也是統計算法，點到基礎分布的Mahalanobis距離與點的概率直接相關

綜上所述，兩種基于統計模型的異常點檢測方法，需要建立在标準的統計學技術（如分布參數的估計）之上。這類方法對于低維數據效果可能較好，但是對于高維數據，數據分布非常複雜，基于統計模型的檢測效果會比較差。

基于鄰近度的異常點檢測

馬氏距離

時序數據缺失值填充算法（時序數據異常點檢測技術）3

容易證明：點到數據均值的Mahalanobis距離與點的概率直接相關，等于點的概率密度的對數加上一個常數。因此，可以對Mahalanobis距離進行排序，距離大的，就可以認為是異常點。

KNN

時序數據缺失值填充算法（時序數據異常點檢測技術）4

基于密度的異常點檢測

從基于密度的觀點來說，異常點是低密度區域中的對象。

定義密度的方法有以下三種。

逆距離

一個對象的密度為該對象周圍k個最近鄰的平均距離的倒數。

時序數據缺失值填充算法（時序數據異常點檢測技術）5

時序數據缺失值填充算法（時序數據異常點檢測技術）6

半徑 d 内的個數

即一個對象周圍的密度等于該對象指定半徑 d 内對象的個數。d是人為選擇的，那麼這個d的選擇就很重要了。

相對密度

即用點 x 的密度與它最近鄰 y 的平均密度之比作為相對密度。

時序數據缺失值填充算法（時序數據異常點檢測技術）7

時序數據缺失值填充算法（時序數據異常點檢測技術）8

獨立森林 Isolation Forest

首先，要理解獨立森林，就必須了解什麼是獨立樹，下文簡稱 iTree 。iTree 是一種随機二叉樹，每個節點要麼有兩個子節點（稱為左子樹和右子樹），要麼沒有子節點（稱為葉子節點）。給定數據集D，這裡 D 的所有屬性都是連續型變量， iTree 的構成如下：

随機選擇一個屬性 A。
随機選擇該屬性的一個值 value 。
根據 A對每條記錄進行分類，把 A 小于 value 的記錄放在左子樹上，把大于或等于 value 的記錄放在右子樹上。
遞歸構造左子樹和右子樹，直到滿足條件：①傳入的數據集隻有一條或多條一樣的記錄；②樹的高度達到了高度闊值。

iTree 構造完成後，接下來對數據進行預測。預測的過程就是把測試記錄從 iTree 根結點開始搜索，确定測試記錄落在哪個葉子節點上。iTree 能檢測異常的假設是：異常點一般都是非常稀有的，在 iTree 中很快會被分到葉子節點上。也就是說，在 iTree 中，異常值一般表現為葉子節點到根節點的路徑 h(x) 很短。因此，可以用 h(x) 來判斷一條記錄是否屬于異常值。

時序數據缺失值填充算法（時序數據異常點檢測技術）9

實現中還有注意的點：

随機樹是不穩定的，但是把多棵 iTree 結合起來，形成 iForest 就變得強大了
構建iForest 的方法與構建随機森林的方法類似，都是随機采樣一部分數據集來構造每一棵樹，保證不同樹之間的差異。但不同的是，我們需要限制采樣樣本的大小。采樣前正常值和異常值有重疊，采樣後可以有效區分正常值和異常值。

時序數據缺失值填充算法（時序數據異常點檢測技術）10

需要限制 iTree 的最大高度，因為異常值記錄比較少，其路徑長度也比較小。樹太深了增加無意義的計算消耗。

綜上所述，獨立森林本質上是一種非監督算法，不需要先驗的類标簽。在處理高維數據時，不是把所有的屬性都用上，而是通過峰度系數（峰度小，長尾太長了，比較難判斷異常；峰度大，則大部分數據集中，方便判斷）挑選一些有價值的屬性，然後再進行 iForest 的構造，算法效果會更好。

顔色越深代表異常值得分越高，顔色越淺代表異常值得分越低。可以看出，模型預測效果不錯，顔色分布規律與 test 和 outlier 數據集完全吻合。

時序數據缺失值填充算法（時序數據異常點檢測技術）11

04 業界實踐

常見的開源的異常監測系統

時序數據缺失值填充算法（時序數據異常點檢測技術）12

時序數據缺失值填充算法（時序數據異常點檢測技術）13

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技照相最清晰的手機是哪一款
努比亞Z17S【天極網手機頻道】自從手機功能性越來越強，拍照現在已經成為了我們的生活方式，處處都離不開。而拍照功能作為近兩年手機功能亮點的主流，在硬件上也出現了規律性的變化。當然啦，手機高像素的攝像頭能為我們帶來更豐富的畫面細節，另外，同樣... 2022-12-27
科技天下hd守旗子攻略
今天看到很多人讨論玄鐵兵有人說無用有人說很肉說到底沒有數據就沒有發言權今天讓我用數據帶領大家深入了解兩大肉寵的秘密。首先，我們要确認兩個概念1.物理免傷=百分比削減物理傷害，與防禦為疊乘關系。舉例：某寵40%物防30%物免某人10000物理... 2022-11-29
科技微軟win10系統升級教程
Microsoft為所有用戶提供了Win10系統升級助手，官方Win10系統升級助手肯定會容易且效率高于自己，但許多小夥夥伴不知道在哪裡下載Win10系統升級助手，也不知道如何使用Win10系統升級助手，您可以看看本教程。具體步驟：1.要下... 2023-02-23
科技筆記本電腦連接無線網顯示未識别的網絡...
筆記本電腦連接無線網顯示未識别的網絡怎麼解決啊?打開電腦“控制面闆”，點擊“網絡連接”，選擇本地連接，右鍵點擊本地連接圖标後選“屬性”，在“常規”選項卡中雙擊“Internet協議(TCP/IP)”，選擇“使用下面的IP地址”，在IP地址中... 2022-06-20
科技一加手機小小屏幕大有可為
如果你的PPT的産品介紹頁需要加标注，你一般是怎麼添加的呢？是用哪種形式呢？我相信很多人可能不會花太多的心思在這個小細節上，但我今天在一加手機的宣傳圖中發現了他家設計師的小心思！我這裡直接把一加手機的宣傳圖放在這裡，大家自己看一下，這裡有什... 2022-12-13
科技進銷存軟件用哪種好
數字化的時代，使越來越多企業引入進銷存軟件，因為這是提升效率的一大助力，軟件管理總比紙筆墨方便，好使還省事而且精準，而目前市面上的進銷存軟件有很多，我們該如何挑選呢？下面列舉了幾個品牌進銷存的優勢：1.速達軟件速達軟件成立至今20多年，專注... 2022-11-27
科技電腦無法連接網絡怎麼辦
電腦無法連接網絡怎麼辦?方法一：找到我的電腦，右擊鼠标，選擇管理找到左側服務和應用程序選項，選擇服務找到WLANAutoConfig，選擇重啟此服務即可，現在小編就來說說關于電腦無法連接網絡怎麼辦?下面内容希望能幫助到你，我們來一起看看吧!... 2022-07-02
科技為什麼用手機玩王者榮耀老是卡
作者宅男遊戲推送王者榮耀作為一款現象級火爆手遊其吸金指數絕對讓人頭皮發麻但就是作為騰訊主打的金牌手遊卻随着一次又一次的更新，很多玩家發現自己的手機越玩越卡尤其是王者榮耀在推出高幀率模式之後開啟高頻率的時候順暢都果然有了很大的提高但是好景不長... 2023-01-26
科技 coreldraw命令大全
進入coreldraw之後，要展開工作，必須先創建新文件或打開已有文件，這也是CorelDRAW最基本的操作之一。本章節主要講解CorelDRAW的基本操作方法，這些知識是學習CorelDRAW最基礎内容，對後面的進階學習非常重要，希望同學... 2022-11-21
科技 qq新出的會員
蟄伏多年QQ會員今天有個小夥伴突然心血來潮，要跟差評君比QQ等級。。。小夥伴的QQ，52級其實，差評君已經很久沒用QQ了，等級什麼的，也完全不在意，但是既然要比，怎麼能慫！差評君的QQ，68級（至于為什麼要打馬賽克，除了不想透露QQ号外，實... 2022-10-21
科技快手送芒果會員
北京快手科技有限公司與湖南經視簽署戰略合作協議。紅網時刻11月19日訊（通訊員張語琴記者廖潔）近日，北京快手科技有限公司與湖南經視在北京簽署戰略合作協議。雙方将通過媒體号、達人号矩陣建設，短視頻IP打造，商業化運營等途徑，探索短視頻時代電視... 2022-12-16
科技怎樣看自己的手機号綁定了幾個
用了很久的号碼，我們很難想起都綁定了哪些東西，支付寶、微信等各種軟件，銀行卡等等一大堆東西，如果想要換号碼，要解綁這些，你還記得起來嗎!教大家幾招查詢自己手機号綁定的辦法!1、網站查詢有網站專門提供了此類查詢服務，例如REG007，輸入自己... 2022-12-05
科技目前cpu處理器排名
二手CPU、洋垃圾CPU處理器大全-随時更新文件查找。二手CPU、洋垃圾CPU處理器大全-随時更新文件查找。使用方法，按CTRLF鍵，在查找框中輸入你要查找的型号，看是不是名單中，如果在，那就是洋垃圾或者二手貨。。如果沒有找到具體型号，開頭... 2022-11-29
科技 macbookpro哪個配置性價比最...
MacBook已經問世一段時間了，在那段時間裡，它們已經鞏固了自己作為一些最受歡迎的筆記本電腦的地位。它們設計精良，易于使用，并具有一些出色的功能。但為什麼它們如此受歡迎？更重要的是，為什麼它們比基于Windows的筆記本電腦更好？在本文中... 2022-10-27
科技你見過這款手機嗎
随着手機功能不斷增加，無論是出行、購物、娛樂都能用手機搞定，人們在日常生活中似乎越來越離不開它。而手機的耗電量也随之劇增，即使将電池容量提升到4000mAh以上，也難以滿足用戶的需求，衆多消費者開始産生“低電量焦慮症”，也就是說當看到手機電... 2022-12-09
科技大數據怎麼定義
其實大數據具有3方面的特點第一個VOLUME，指的是數據的數量龐大，比如我們用excel去寫文檔，一個excel最多能寫1048576行，而大數據遠遠超級這個範圍，并且比數據庫的概念還要廣。第二個VELOCITY，指的是速度，也就算處理起來... 2022-11-05
科技汽車刹車系統到底該如何升級?
汽車刹車系統到底該如何升級?最為簡單，就是單活塞卡鉗換雙活塞卡鉗，這種是最為保險，一，不會打破車本身的刹車平衡，二，價錢合理，三，相對升級價錢與得到的效果合理，下面我們就來說一說關于汽車刹車系統到底該如何升級?我們一起去了解并探讨一下這個問... 2022-06-13
科技拉力競速3華麗操作
遊戲介紹《RushRally（拉力競速）》系列的第3部終于終于上架啦。此前玩過《RushRally2》的玩家，應該不會對拉力賽車的物理操作，精美畫質陌生，第三部在前作的基礎上有了更多的進步其次，第三部作品在第二部遊戲作品上保持了優點，采取新... 2022-11-08
科技黑鲨遊戲手機4s 測評
品玩10月13日訊，今日，黑鲨遊戲手機4S/Pro正式發布，搭載骁龍870/888Plus處理器，售價2699元起。黑鲨遊戲手機4S擁有玄黑、霧白兩款配色，全系搭載金屬中框，速度感拉，納米光刻紋理工藝，為科技賦予光影質感。該機搭載骁龍870... 2022-12-16
科技微信視頻有回音是什麼原因
微信視頻有回音是什麼原因?微信視頻時有回音原因：對方設備是不是開了外放模式（戴耳機試試），現在小編就來說說關于微信視頻有回音是什麼原因?下面内容希望能幫助到你，我們來一起看看吧!微信視頻有回音是什麼原因微信視頻時有回音原因：對方設備是不是開... 2022-07-05
科技硫酸銅在水産養殖用量
硫酸銅，對于廣大的消費者來說是相對比較陌生的，但是對于水産養殖戶來說并不算陌生，因為其在水産養殖上有着廣泛的應用。雖然硫酸銅大家常用的一種藥物，但是對于一些用法以及特性很多朋友卻不是很清楚，在此我将簡要介紹一下。五水硫酸銅晶體硫酸銅的特性... 2022-11-29
科技用手機号搜不到對方微信号怎麼辦
用手機号搜不到對方微信号怎麼辦?進行一些設置就好了首先需要找到相關設置選項，點擊菜單下的微信設置，我來為大家科普一下關于用手機号搜不到對方微信号怎麼辦?下面希望有你要的答案，我們一起來看看吧!用手機号搜不到對方微信号怎麼辦進行一些設置就好了... 2022-06-15
科技手機忘記了密碼怎麼辦不用刷機
手機現在是人手都有一部，很多人也意識到手機安全的重要性，都會給手機上一個安全鎖，也就是都會給手機的屏幕設置一個鎖屏幕嘛。但是大家在日常生活中使用手機是否會遇到過這樣的情況？就是手機的鎖屏密碼忘記了，怎也打不開。如果出去找維修師傅刷機或者是解... 2022-11-13
科技淘寶赤兔轉化率在後台怎麼查看
淘寶赤兔轉化率在後台怎麼查看?淘寶商家需要時刻關注店鋪各方面的數據，才能知道店鋪目前的發展狀況比如查看客服的接待人數和咨詢人數那麼，他抱商家怎麼看每天接待人數？，接下來我們就來聊聊關于淘寶赤兔轉化率在後台怎麼查看?以下内容大家不妨參考一二希... 2022-10-08
科技手機用哪個輸入法比較好用啊
【PConline資訊】來自移動互聯網第三方數據研究機構iiMediaResearch（艾媒咨詢）的數據顯示，中國手機網民選擇當前使用最多的是“搜狗輸入法”，使用搜狗的首要原因為“系統自帶”，iiMediaResearch分析師同時還認為，... 2022-11-05
科技值得購買的幾款性價比超高的手機
很多用戶想用上不錯的配置，但又糾結高配置手機價格又太貴，小編挑選了四款大品牌手機，同地性能方面也不錯，價格不超過2000元的産品推薦給大家。這些産品在各個方面雖然都沒有辦法和高性能旗艦級手機相比，但已經非常不錯。OPPOK10OPPOK10... 2023-01-01
科技幾百m怎麼壓縮分享給朋友看
很多時候視頻文件太大，上傳受到各種限制，下面這個視頻時長21分鐘，體積有1.27G，用這個方法可以壓縮成109M高清MP4格式，真是太厲害了。1.首先我們需要用到迅捷壓縮工具，打開後所有功能一目了然，支持5種壓縮方式：圖片壓縮、視頻壓縮、P... 2023-01-17
科技 excel表格導入cad
EXCEL在現實中的運用越來越廣泛，簡單的操作快可以帶來更便捷的方式，下面介紹如何從Excel中一個表格的數據導入到另一個表格操作方法01如圖，這裡我們有兩張表格，在表1中，有兩個人的數學成績，而在表2中，有兩個人的物理成績，我們要做的就是... 2022-12-10
科技鴻蒙系統會讓谷歌慌嗎
2012年，諾基亞在大屏手機和新智能系統的沖擊下，已經逐漸失去自己的市場，轉而由三星、蘋果和“中華酷聯”等手機占據手機市場的主流位置。小編拿着三星S5830把玩着，卡頓了就刷機，雖然新的系統可能存在着各種bug，但是會給用戶更多的新鮮感，真... 2022-11-18
科技期刊文獻查詢數據庫
目前，不少經濟商務類的期刊發行網絡版，一般都提供免費閱讀各期期刊目次頁的内容，有的還提供期刊論文全文的免費浏覽或電子郵件服務。（1）網絡經濟期刊數據庫EconomicJournalsontheWeb這是美國紐約州立大學SUNY屬下的Oswe... 2022-11-06

tft每日頭條

> 科技

> 時序數據缺失值填充算法

時序數據缺失值填充算法

相关科技资讯推荐

热门科技资讯推荐

网友关注