離散數據拐點檢測-tft每日頭條

離散數據拐點檢測

生活更新时间:2026-02-22 20:39:25

（歡迎各位關注，本專欄會對機器學習的特征工程中一些實用的處理方法進行介紹，該系列篇幅較短，力求闡述其核心并提供相應的實現方法。）

對數變換是一種常用的特征工程方法。一般對于數值大于0的重尾分布數據，我們都可以采取對數變換的方法來轉換特征值，從而讓特征具有更好的數值屬性，進而增強模型的效果。那麼如何理解對數變換？什麼情況下對數變換會是一種有效的特征工程方法呢？讓我們先從幾個基本概念開始。

1，對數函數

既然要進行對數變換，那麼就需要針對對數函數的性質有深刻的理解。

下圖是對數函數在一個較大的定義域範圍内所繪制出的函數圖像，

離散數據拐點檢測（特征工程大傳對數變換）1

對數函數圖像

我們可以很明顯地看出，當x數值較小時，y值變化較快，而随着x值不斷變大，y值變化越發平緩，讓我們先記下這個圖像性質。

2，重尾分布

我們常說很多事物的自然分布近似于正态分布，但事實上還有一種更為廣泛的分布，其表現為少量的個體做出大量的貢獻（如下圖所示），這就是長尾分布。

離散數據拐點檢測（特征工程大傳對數變換）2

長尾分布

# Python 繪制長尾分布 # 長尾分布采樣 a, m = 3., 2. # shape and mode s = (np.random.pareto(a, 1000) 1) * m # 繪制分布圖 import matplotlib.pyplot as plt count, bins, _ = plt.hist(s, 100) plt.show()

對于呈現長尾分布的特征，我們不能簡單地去除長尾部分的特征值，這是因為這些長尾的尾部很長，在整個特征分布中占比其實也并不低，事實上具有很大的信息量，對模型來說很有價值。但如果直接就這麼放入模型也不是合适的方法。如上圖所示，尖尖的左側加一個長長的尾巴，這意味着有大量的值在<2左右的這個極小的低值段區間内，分布明顯有偏向，這會讓以高斯分布為假設的模型難以學習到合理的參數，使得該特征為模型帶來的效果大打折扣。

至此，問題已經明确，既然這種分布形式并不好，那麼我們怎麼來緩解它呢？答案就是，使用對數變換。

3，對數變換

我們根據前面發現的log函數所具有的性質，對特征值進行對數變換，使得較小值區間在轉換後被擴展到一個變化較大的範圍内（x數值較小時，y值變化較快），而長尾的大值區間被壓縮到一個變化較小的範圍内（随着x值不斷變大，y值變化越發平緩），進而整體上減緩長尾分布這種極偏的分布狀态，為低值端争取更多的空間，将高值端盡可能的壓縮，使得整體分布更加合理。

離散數據拐點檢測（特征工程大傳對數變換）3

對數轉換後的長尾分布圖

# log轉換後的分布圖 import matplotlib.pyplot as plt count, bins, _ = plt.hist(np.log(s), 100) plt.show()

4，結語

對數變換是一種十分常用的特征工程方法，當我們遇到類似分布的特征數據時，可以通過這種轉換來讓特征變得更加有效。此外它還具有以下優點：

縮小數據的絕對數值範圍，讓特征不再飄。
依據對數的運算法則，将乘法變換為加法，符合中心極限法則下收斂到正态分布的假設。
非線性轉換為線性，讓問題變得更好建模

如果你覺得我的文章有價值，請持續關注我，我會持續更新。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活 nba勇士不敵湖人隊
新華社照片，舊金山（美國），2022年5月27日（體育）（9）籃球——NBA季後賽：勇士隊獲得西部冠軍5月26日，勇士隊球員庫裡（右一）在比賽中投籃。當日，在2021-2022賽季NBA季後賽西部決賽第5場比賽中，金州勇士隊主場以120比1... 2023-01-20
生活新朱泥紫砂壺如何開壺
關于新壺如何開壺的讨論，是相當的多。魯迅先生曾說，有好茶喝，會喝好茶，是一種清福，不過要享受這清福首先就必須有功夫，其次是練出來的特别感覺。這麼說就是喝茶的時候要會用喝茶器皿，會用紫砂壺。紫砂壺給别的器皿不同，對它傾注感情，經常摩挲寶愛，它... 2022-11-09
生活我不後悔原唱
我不後悔原唱?《我不後悔》原唱：林志穎作曲：陳國華作詞：許常德，我來為大家講解一下關于我不後悔原唱?跟着小編一起來看一看吧!我不後悔原唱《我不後悔》原唱：林志穎。作曲：陳國華。作詞：許常德。歌詞：說好了不回頭，不想承諾。緣份盡了你别過頭，如... 2022-06-10
生活研究生線上網絡考試怎麼考
曾經很多人以為考上大學後就可以畢業後月入過萬，實現自己的夢想，但發現大學生就業競争太過于激烈，本科學曆已經不占優勢了。因此學生為了讓自己機會和資源更多，還得畢業後去考研。而提到考研，大家可能想到的是報考人數之多，上岸難度大。而現在考研又出現... 2023-03-06
生活新款jeep指南者上市15.58萬起...
導讀：JEEP“指南者”發飙，預售13萬，2.0T引擎9AT四驅，空間媲美途觀今天又與大家分享了這台吉普指南者車型，可以說非常的有魅力，新款車型不僅換上了跨界風格的外觀，體現出了足夠強大的越野氣息，而且還擁有最新的1.3T和2.0T發動機作... 2022-11-03
生活得了腦梗的人什麼時候才會恢複
患有腦梗能活多久，腦梗有多種情況，主要從梗塞面積大小，部分，是否有其它并發症，患者年齡等，各個方面綜合因素判斷，那麼針對這些情況做一個整理1、如果隻是輕微的腦梗，最常見的例如：腔隙性腦梗，部分不是很嚴重，這種情況的患者通過治療是有機會完全恢... 2022-10-25
生活花式紅磚柱
最近很奇怪，我撿着撿着，對于石頭的認知卻是越來越混沌，尤其是對于這種像磚頭一樣的石頭，我們這邊修蓋建築都石用這種紅色的磚頭，所以以至我見到這種紅色石頭的時候，有點分不清楚它到底石什麼？好，話不多說，上圖：有人說這是雞血石，可是我左看右看也沒... 2022-11-15
生活問道名字
問道名字?嗜血帝君花樣少年，我來為大家講解一下關于問道名字?跟着小編一起來看一看吧!問道名字嗜血帝君花樣少年夜舞死靈神龍天忠風流成癮傲骨雄鷹浪盡成瘾火影戰神酷到招風舒染澈三十出頭孤獨似把刀一醉方休遊戲人間像夢一樣自由偏是執着捂風挽笑回首，已... 2022-08-13
生活青年志願者抗疫一線顯身手
來源：交彙點新聞客戶端交彙點訊8月13日，江蘇旅遊職業學院信息工程學院90後黨員教師劉影坐在陽光下，焦急地等待着命令。“叮——”社交軟件“微信”的提示音響起。13:07，劉影收到了防疫電話排查任務，主要負責聯絡與揚州開發區八裡鎮某棋牌室有關... 2022-12-21
生活雕鸮和雪鸮互毆
新疆天山，雪山、平原、森林與湖泊組成壯美的自然畫卷。這裡栖息着許多珍稀野生動物，近年來，雕鸮出現的數量越來越多。這幾天來，天山一處懸崖上，一隻雌雕鸮正在窩裡照顧幼鳥，卻遇到了宿敵金雕，為了保護幼鳥，拼盡全力。作為大型貓頭鷹，雕鸮的戰鬥力不容... 2022-12-07
生活全球票房年冠易主
題圖/精靈王座本文由ACGx原創，轉載請注明出處。今天（8月23日），好萊塢電影《諜影重重5》和《冰川時代5：星際碰撞》在國内上映，排片占比接近70%。然而，上映僅5天的《精靈王座》，也從昨天5.4%的排片迅速降低到了0.7%，累計票房也僅... 2022-12-30
生活空客公務機
字号：中國航空新聞網訊：空客公務機客艙設計和安裝領域的專家——日前成功向一位亞洲客戶（亞洲最大的公司之一）交付一架配備VVIP客艙的ACJ319公務機。該客艙不僅采用了諸多新技術，功能強大，而且質量考究，内飾異常精緻。這架ACJ319的VV... 2023-01-25
生活世界上最帥的美少年排名
男模兼演員WilliamFranklynMiller12歲時以一張照片在亞洲爆紅，更被封為“世界第一美少年”。如今10年過去，少年已經22歲了，長大成年的William帥氣依舊，脫去稚氣後，多了一股成熟男人味，依舊深深吸引着大衆視線。其實，... 2023-02-04
生活泰迪被收養的
狗狗的叫聲會影響你休息嗎？在養了寵物犬後，你會發現家裡熱鬧了很多，但有時你也會覺得很厭煩，特别是你在休息或者工作時，你家狗狗汪汪汪叫個不停。相對來說小型犬更愛叫一些，它們的警惕性也比較高，另外被主人冷落時也愛叫，狗狗的聲音可不小，嗓門大的狗... 2022-12-28
生活連霍高速鄭洛段多少公裡
來源：河南廣電-映象網映象網訊（記者阮海峰文/圖）7月28日10時15分，最後一段雷達探地檢測完畢，連霍高速鄭洛段道路東西雙向恢複所有車型正常通行。自7月20日16時，連霍高速鄭州段主線道路先後共排查大小水毀千餘處，重大險情6處，1.5米以... 2023-01-13
生活清肺解毒化痰湯
中醫養生有這樣兩句話，其一：“春養肝，夏養心，秋養肺。”其二：“春夏養陽，秋冬養陰。”所以，此時我們應該幹嘛？答案是抓住秋天的尾巴，養肺陰。怎麼養？我們來看看記錄在《重樓玉鑰》裡面的一個方子：養陰清肺湯它的組成：生地麥冬甘草元參貝母丹皮薄荷... 2023-01-03
生活微觀粒子的原子質量是多少
這個世界沒有不朽的事物，死亡是必然的，生存是相對的。因此所有的事物都是有壽命的，包括我們及其一切存在的宇宙，也是有壽命的。粒子和原子當然也有壽命，不過不能夠以人類壽命的性質來衡量，但它們的壽命也有長有短，有的很可能與宇宙共存亡，有的就在一瞬... 2022-12-13
生活阿裡巴巴收購餓了麼目标是什麼
2016年10月的阿裡雲栖大會上，馬雲在演講中第一次提出了新零售，“未來的十年、二十年，沒有電子商務這一說，隻有新零售。”從此，阿裡就開始了在新零售的布局。一方面，先後投資實體商城，包括蘇甯、銀泰、高新零售、百聯、聯華超市、三江購物、新華都... 2022-11-09
生活星卡怎麼激活免流網易雲音樂
IT之家12月13日消息昨天晚上，網易雲音樂iOS、安卓版推送了最新的v4.3.1版本更新，本次更新主要是支持了網易旗下的定向免流卡網易紅卡、網易白金卡定向免流功能，如果你已經辦理網易旗下流量卡可以更新使用。在各大互聯網廠商相繼推出了定向免... 2022-11-15
生活發财樹杆栽培方法
發财樹杆栽培方法?首先，在拿到獨杆發财樹後，需要沙土定植栽種，在這個定植過程中需要把根部周邊的土質弄的很嚴實，不留松土，今天小編就來說說關于發财樹杆栽培方法?下面更多詳細答案一起來看看吧!發财樹杆栽培方法首先，在拿到獨杆發财樹後，需要沙土定... 2022-06-05
生活 12306退票流程詳解
來源：昆明日報-掌上春城近期買火車票的小夥伴請注意為适應疫情防控條件下旅客出行規律鐵路部門改進了售票和退改簽服務措施↓↓鐵路部門将根據疫情防控要求和客流變化适時調配運力不斷改進服務舉措努力提升廣大旅客出行體驗請廣大旅客合理安排行程來源：中國... 2023-01-03
生活外地人哪年可以在北京交養老保險
非北京戶籍人員如果在北京斷斷續續地繳納社保，累計滿10年，可以在北京辦理退休，享受和北京人同等的養老金待遇嗎？老宋在我們公司做庫房管理員。他1964年生人，今年58歲了。他老家是遼甯鞍山的，1998年國企改革下崗潮，老宋被迫從單位下崗自謀生... 2022-12-03
生活牛上腦是牛什麼部位
牛上腦是牛什麼部位?牛上腦是位于肩頸部靠後，脊骨兩側的牛肉，俗稱“脖子肉”，适合涮火鍋，可煎炸、燒烤，比較常見的菜品有清炖牛上腦、香煎牛上腦，接下來我們就來聊聊關于牛上腦是牛什麼部位?以下内容大家不妨參考一二希望能幫到您!牛上腦是牛什麼部位... 2022-07-11
生活曾經紅極一時的4個組合都已經解散
1,黑澀會美眉：台灣九人女子組合，成員有周宜霈、張筱婕、王婧喬、黃瀞怡、詹子晴、蔡玓彤、吳映潔、黃暐婷、郭婕祈，被稱為"九妞妞"。九名成員都是從電視節目《我愛黑澀會》中挑選出的，2005年正式出道。2007年由于蔡玓彤單飛而變成八人組，并改... 2022-11-29
生活休閑格子襯衫這樣穿文藝複古
立領設計的襯衫，由複古色系形成的格子圖案，将服飾的懷舊氣息完全地釋放出來，配合着蝙蝠袖的版型，保持了原有的休閑氣質。即使簡單搭配黑色的緊身黑色褲子，也時尚十足。立領短袖襯衫，隐隐約約的格子圖案，為清新的穿衣風格增加了幾分文藝的感覺，尤其是與... 2023-02-03
生活華為哪個型号用的最新的麒麟芯片
前陣子寫了篇文章《麒麟Kirin620：演繹中國“芯”的華為式崛起》，從華為芯片的研發曆史、在華為終端體系内的戰略定位等角度，闡釋了麒麟Kirin620推出的意義。本篇文章嘗試從稍微技術一點的角度，來談一談這款芯片到底如何。主要談五個關鍵詞... 2023-01-13
生活形容一個人很勤奮的成語都有哪些
厚積，才能薄發勤奮，才會閃光新學期伊始你希望以什麼樣的面貌迎接新的學習生活呢今天，一起來看看古人關于勤奮的成語故事↓↓↓01鑿壁偷光[出處]東晉葛洪《西京雜記》卷二：“匡衡，字稚圭，勤學而無燭。鄰舍有燭而不逮，衡乃穿壁引其光，以書映光而讀之... 2022-12-25
生活好吃的蝦仁南瓜粥做法
芋頭煮小米粥，軟軟糯糯，放入蝦仁、瘦肉、胡蘿蔔和青菜，營養搭配均衡，寒冷的冬天早餐喝上一碗，熱乎乎，暖心窩。ByHxj0102用料大米20克小米80基圍蝦5隻瘦肉1小塊胡蘿蔔1小段芋頭2個鹽少許生抽少許清水1300ml做法步驟1、食材同框2... 2023-01-07
生活葫蘆娃中火娃是第幾娃
葫蘆娃中火娃是第幾娃?葫蘆娃火娃是老四，穿的是綠色衣服，今天小編就來聊一聊關于葫蘆娃中火娃是第幾娃?接下來我們就一起去研究一下吧!葫蘆娃中火娃是第幾娃葫蘆娃火娃是老四，穿的是綠色衣服。葫蘆娃是動畫片《葫蘆兄弟》及衍生作品中的主角，每一個的都... 2022-06-18
生活怎樣辨别是不是太陽斑
到了一定年紀好多人，都被斑點困擾，為了不踩雷看完這篇文章，你就明白了。曬斑也好，黃褐斑也好，我們照鏡子所能看到的都隻是表象。樹大根深，如果你隻看這個表象，不去追究内在原理的話，你可能都會去選擇液氮、藥水、脫皮這些傷害性很大，而且持續不了多久... 2023-01-16

tft每日頭條

> 生活

> 離散數據拐點檢測

離散數據拐點檢測

相关生活资讯推荐

热门生活资讯推荐

网友关注