卡方檢測表格-tft每日頭條

卡方檢測表格

科技更新时间:2025-11-17 14:24:47

　最近在研究評分卡建模的流程，在特征處理的過程中涉及到分箱這一基本的常用技巧，本文就對分箱中的卡方分箱展開詳細介紹。　分箱就是将連續型的數據離散化，比如年齡這個變量是，可以分箱為0-18，18-30，30-45，45-60。這也是建立評分卡過程中常見的操作，首先思考一個問題，為什麼要進行分箱？直接用年齡這個變量去建模是否可以？其實是可以的。隻不過評分卡需要模型有很強的業務可解釋性，這和你的建模算法有關。如果你用xgb、lgb等機器學習算法的話，模型會變得不可解釋，此時不分箱也是可以的。　分箱的好處主要有這些：

分箱後的特征對異常數據有更強的魯棒性。比如年齡中有一個異常值為300，分箱之後就可能劃到>80這一箱中，而如果直接入模的話會對模型造成很大幹擾。
特征離散化之後，每個變量有單獨的權重，可以為邏輯回歸模型引入了非線性，能夠提升模型表達能力，加大拟合。
特征離散化以後，起到了簡化了邏輯回歸模型的作用，降低了模型過拟合的風險。
可以将缺失作為獨立的一類帶入模型。
稀疏向量内積乘法運算速度快，計算結果方便存儲，容易擴展。

　下面開始介紹卡方分箱，首先要先了解卡方檢驗。因為卡方分箱是一種基于卡方檢驗的分箱方法，具體來說是基于卡方檢驗中的獨立性檢驗來實現分箱功能。

卡方檢驗

　卡方檢驗就是對分類數據的頻數進行分析的一種方法，它的應用主要表現在兩個方面：拟合優度檢驗和獨立性檢驗（列聯分析）。

拟合優度檢驗　拟合優度是對一個分類變量的檢驗，即根據總體分布狀況，計算出分類變量中各類别的期望頻數，與分布的觀察頻數進行對比，判斷期望頻數與觀察頻數是否有顯著差異，從而達到對分類變量進行分析的目的。比如，泰坦尼克号中我們觀察幸存者是否與性别有關，可以理解為一個X是否與Y有必然聯系。
獨立性檢驗　獨立性檢驗是兩個特征變量之間的計算，它可以用來分析兩個分類變量是否獨立，或者是否有關聯。比如某原料質量和産地是否依賴關系，可以理解為一個X與另一個X是否獨立。

卡方檢驗步驟

　卡方檢驗也是一種假設檢驗，與常見的假設檢驗方法一緻。

提出假設，比如假設兩個變量之間獨立
根據分類的觀察頻數計算期望頻數
根據卡方公式，計算實際頻數與期望頻數的卡方值
根據自由度和事先确定的顯著性水平，查找卡方分布表計算卡法值，并與上一步卡方值比較
得出結果判斷是否拒絕原假設

評分卡中的卡方分箱

　下面以年齡變量為例，講解一下評分卡建模過程中如何對年齡變量進行卡方分箱。先舉實際例子再講理論。

　首先，将年齡從小到大排序，每一個年齡取值為單獨一箱。統計對應的違約和不違約的個數。然後進行合并，具體步驟如下：

如果有1,2,3,4個分箱，那麼就需要綁定相鄰的兩個分箱，共三組：12,23,34。然後分别計算三個綁定組的卡方值。
從計算的卡方值中找出最小的一個，并把這兩個分箱合并：比如，23是卡方值最小的一個，那麼就将2和3合并，本輪計算中分箱就變為了1,23,4。

　分箱背後的理論依據：如果兩個相鄰的區間具有非常類似的類分布，那麼這兩個區間可以合并。否則，它們應該分開。低卡方值表明它們具有相似的類分布。

卡方檢測表格（詳解卡方分箱及應用）1

　對于卡方值越小分布越相似這一核心理論我也做了個簡單的推導：

卡方檢測表格（詳解卡方分箱及應用）2

　可以看到如果需要合并的兩箱分布完全一緻的話，合并之後的卡方值為0。下面給出卡方分箱的理論及公式：

卡方檢測表格（詳解卡方分箱及應用）3

　上面的步驟隻是每一輪需要計算的内容，如果不設置停止條件，算法就會一直運行。當然，我們一般會設置一些停止條件：

卡方停止的阈值
分箱數目的限制

　根據經驗值，卡方停止的阈值一般設置置信度為0.9、0.95、0.99，自由度可以設置為4是對應的卡方值，分箱數一般可以設置為5。卡方分箱的自由度是分類變量類型的個數減一。

　下面給一個卡方分箱的代碼，建議仔細閱讀，有助于代碼水平的提高和更好地理解卡方分箱。一定要一次性看完。

## 自寫卡方最優分箱過程 def get_chi2(X, col): ''' 計算卡方統計量 ''' # 計算樣本期望頻率 pos_cnt = X['Defaulter'].sum() all_cnt = X['Defaulter'].count() expected_ratio = float(pos_cnt) / all_cnt # 對變量按屬性值從大到小排序 df = X[[col, 'Defaulter']] df = df.dropna() col_value = list(set(df[col])) col_value.sort() # 計算每一個區間的卡方統計量 chi_list = [] pos_list = [] expected_pos_list = [] for value in col_value: df_pos_cnt = df.loc[df[col] == value, 'Defaulter'].sum() df_all_cnt = df.loc[df[col] == value,'Defaulter'].count() expected_pos_cnt = df_all_cnt * expected_ratio chi_square = (df_pos_cnt - expected_pos_cnt)**2 / expected_pos_cnt chi_list.append(chi_square) pos_list.append(df_pos_cnt) expected_pos_list.append(expected_pos_cnt) # 導出結果到dataframe chi_result = pd.DataFrame({col: col_value, 'chi_square':chi_list, 'pos_cnt':pos_list, 'expected_pos_cnt':expected_pos_list}) return chi_result def chiMerge(chi_result, maxInterval=5): ''' 根據最大區間數限制法則，進行區間合并 ''' group_cnt = len(chi_result) # 如果變量區間超過最大分箱限制，則根據合并原則進行合并，直至在maxInterval之内 while(group_cnt > maxInterval): ## 取出卡方值最小的區間 min_index = chi_result[chi_result['chi_square'] == chi_result['chi_square'].min()].index.tolist()[0] # 如果分箱區間在最前,則向下合并 if min_index == 0: chi_result = merge_chiSquare(chi_result, min_index 1, min_index) # 如果分箱區間在最後，則向上合并 elif min_index == group_cnt-1: chi_result = merge_chiSquare(chi_result, min_index-1, min_index) # 如果分箱區間在中間，則判斷兩邊的卡方值，選擇最小卡方進行合并 else: if chi_result.loc[min_index-1, 'chi_square'] > chi_result.loc[min_index 1, 'chi_square']: chi_result = merge_chiSquare(chi_result, min_index, min_index 1) else: chi_result = merge_chiSquare(chi_result, min_index-1, min_index) group_cnt = len(chi_result) return chi_result def cal_chisqure_threshold(dfree=4, cf=0.1): ''' 根據給定的自由度和顯著性水平, 計算卡方阈值 ''' percents = [0.95, 0.90, 0.5, 0.1, 0.05, 0.025, 0.01, 0.005] ## 計算每個自由度，在每個顯著性水平下的卡方阈值 df = pd.DataFrame(np.array([chi2.isf(percents, df=i) for i in range(1, 30)])) df.columns = percents df.index = df.index 1 pd.set_option('precision', 3) return df.loc[dfree, cf] def chiMerge_chisqure(chi_result, dfree=4, cf=0.1, maxInterval=5): threshold = cal_chisqure_threshold(dfree, cf) min_chiSquare = chi_result['chi_square'].min() group_cnt = len(chi_result) # 如果變量區間的最小卡方值小于阈值，則繼續合并直到最小值大于等于阈值 while(min_chiSquare < threshold and group_cnt > maxInterval): min_index = chi_result[chi_result['chi_square']==chi_result['chi_square'].min()].index.tolist()[0] # 如果分箱區間在最前,則向下合并 if min_index == 0: chi_result = merge_chiSquare(chi_result, min_index 1, min_index) # 如果分箱區間在最後，則向上合并 elif min_index == group_cnt-1: chi_result = merge_chiSquare(chi_result, min_index-1, min_index) # 如果分箱區間在中間，則判斷與其相鄰的最小卡方的區間，然後進行合并 else: if chi_result.loc[min_index-1, 'chi_square'] > chi_result.loc[min_index 1, 'chi_square']: chi_result = merge_chiSquare(chi_result, min_index, min_index 1) else: chi_result = merge_chiSquare(chi_result, min_index-1, min_index) min_chiSquare = chi_result['chi_square'].min() group_cnt = len(chi_result) return chi_result def merge_chiSquare(chi_result, index, mergeIndex, a = 'expected_pos_cnt', b = 'pos_cnt', c = 'chi_square'): ''' 按index進行合并，并計算合并後的卡方值 mergeindex 是合并後的序列值 ''' chi_result.loc[mergeIndex, a] = chi_result.loc[mergeIndex, a] chi_result.loc[index, a] chi_result.loc[mergeIndex, b] = chi_result.loc[mergeIndex, b] chi_result.loc[index, b] ## 兩個區間合并後，新的chi2值如何計算 chi_result.loc[mergeIndex, c] = (chi_result.loc[mergeIndex, b] - chi_result.loc[mergeIndex, a])**2 /chi_result.loc[mergeIndex, a] chi_result = chi_result.drop([index]) ## 重置index chi_result = chi_result.reset_index(drop=True) return chi_result import copy chi_train_X = copy.deepcopy(train_X) ## 對數據進行卡方分箱，按照自由度進行分箱 chi_result_all = dict() for col in chi_train_X.columns: print("start get " col " chi2 result") chi2_result = get_chi2(train, col) chi2_merge = chiMerge_chisqure(chi2_result, dfree=4, cf=0.05, maxInterval=5) chi_result_all[col] = chi2_merge

>【作者】：Labryant

>【原創公衆号】：風控獵人

>【簡介】：某創業公司策略分析師，積極上進，努力提升。乾坤未定，你我都是黑馬。

>【轉載說明】：轉載請說明出處，謝謝合作！~

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技電腦開機後主機屏幕沒有反應
最近有用戶問峰哥遇到電腦開機屏幕沒反應的時候，要怎麼解決。在解決完這位小夥伴的問題之後，峰哥覺得應該還有其他的小夥伴或許也想知道怎麼解決這個問題。所以今天峰哥就來告訴你們怎麼解決電腦開機屏幕沒反應的問題。今天峰哥要說的就是關于電腦開機屏幕沒... 2022-10-28
科技 6款好用的chrome插件
作者：星安果來源：AirPython大家好，我是安果！今天繼續為大家推薦5款可以提升工作效率的Chrome插件Omni這款Chrome插件可以對浏覽器收藏書簽、Tab頁面、曆史記錄進行快速搜索、切換、關閉等功能當我們同時打開很多Tab頁面時... 2022-11-18
科技簡單又快的瘦大腿方法
女人對美的追求永遠是無止境的，男人對美的女人的愛意是天生的。女人永遠覺得自己的腿粗，雖然大部分情況下并不粗。今天的文章就是把瘦腿做一個總結和完善，希望你的腿更細更長，并且健康。這篇文章會包括如何快速地瘦大腿和瘦小腿，仔細閱讀，認真操作，準備... 2022-12-25
科技蘋果手機怎樣鑒别真僞
衆所周知，蘋果手機的價格比安卓手機要貴很多，但是這依然沒有阻擋消費者購買蘋果手機的熱情，此前蘋果線下商店排長隊的情景數不勝數，由此可見大家對于蘋果手機的關注度之高。而正是由于蘋果手機的熱度非常高，所以市場上有很多山寨的蘋果手機出現，因此消費... 2022-11-15
科技手機套餐取消說明
近日，有網友在人民網領導留言闆中提問來電顯示費用何時能夠取消，“如今進入了5G時代，現在的套餐基本上都是減免來電顯示費用，但還是有少部分前期套餐附加的來電顯示費用，希望工信部能夠在提速降費的安排下減免掉其他套餐的來電顯示費用。”對此，工信部... 2023-02-19
科技我的世界用什麼來照明最好
一日不見如隔三秋，哈喽，大家好，我是星耀。火把在Minecraft當中，可是一種極其重要的道具，它不僅能夠給玩家提供照明，而且還能夠在夜晚當中，防止怪物們在玩家附近刷新。那麼在Minecraft當中，你知道到底有多少種照明道具嗎？其實除了火... 2022-10-23
科技三星手機有消息通知嗎
大家好，歡迎來到黑馬公社說起來，今年的三星倒是給了黑馬一個大大的驚喜。無論是2K120Hz屏幕還是極窄的邊框，都讓黑馬心動不易。不過考慮到機皇的價格，黑馬覺得還是可以再等一兩年再來愛它。不過就在最近，黑馬發現有點不太對勁。有不少小夥伴反饋，... 2022-11-16
科技數據線破損怎麼修複
對于使用蘋果手機的用戶來說，最不爽的體驗就是它的數據線。手機用不了多久，數據線就會破損甚至于斷掉。身邊的同事朋友，有的甚至一年要換好幾條數據線。蘋果官網顯示一條一米長的Lightning至USB的連接線售價為人民币149元，2米長的連接線售... 2022-12-15
科技怎麼在手機上用讀卡器
怎麼在手機上用讀卡器?準備好讀卡器和sd卡；SD卡插入手機讀卡器中，下面我們就來說一說關于怎麼在手機上用讀卡器?我們一起去了解并探讨一下這個問題吧!怎麼在手機上用讀卡器準備好讀卡器和sd卡；SD卡插入手機讀卡器中。接着将手機讀卡器插入手機中... 2022-07-26
科技電腦藍屏的處理辦法
想要了解更多數碼資訊，玩機技巧，點擊關注，帶你遨遊互聯網第一種，藍屏碼：MACHINE-CHECKEXCEPTION因為CPU過于超頻運行導緻。解決辦法就是；啟動自動修複程序，修複系統錯誤後将CPU降回出廠頻率，不要再超頻運行，不要讓CPU... 2023-02-07
科技 word裡的帶圈字符怎麼弄
①輸入法輸入在我們平常用的輸入法中就能夠輕松輸入這種帶圈的字符，這裡，我就用搜狗輸入法來介紹一下。首先，我們點擊搜狗輸入法上的「工具箱」按鈕，然後在搜狗工具箱中我們選擇「符号大全」-「數字序号」，在右側，我們就可以找到衆多帶圈的數字。②符号... 2022-12-04
科技日本漫畫風大型打擊遊戲
日本漫畫風大型打擊遊戲?出版商日本一軟件和開發商Vanillaware發布了《格林魔書OnceMore》的第二個官方預告片，今天小編就來聊一聊關于日本漫畫風大型打擊遊戲?接下來我們就一起去研究一下吧!日本漫畫風大型打擊遊戲出版商日本一軟件和... 2022-10-07
科技章子怡早年紅毯禮服裙子
近日，汪峰的大女兒小蘋果在社交平台上面曬出一段自己在舞蹈室練舞的視頻，視頻中小蘋果穿着黑色吊帶裹胸，下半身搭配寬松款式的褲子，一頭淺色短發相當酷炫。隻見小蘋果在c位領舞，随着音樂舞動身體，每一個動作都相當到位，節奏感十足。在紫色的光線下皮膚... 2022-12-12
科技 win10更新了驅動進不了系統
win10更新了驅動進不了系統?Windows10系統進入安全模式的方法是：按電源鍵開機，在機器自檢完成後準備進入操作系統時（實際上進入不了操作系統，已經卡住了），長按電源鍵（10秒以上），一次不行，就兩次，甚至多次，系統會檢查到電腦非法關... 2022-06-17
科技不小心開了會議
識别深度僞造技術的一個簡單方法，就是讓對方用側臉對着鏡頭。圖中的男子用深度僞造技術合成了演員金·凱瑞的臉，但當他用側臉對着鏡頭時，圖像出現了嚴重扭曲。圖片來源：IMAGECOURTESYOFMETAPHYSIC下次你在Zoom上打視頻電話的... 2022-11-23
科技預存話費送東西什麼套路
現如今為了吸引顧客，一些商家的營銷手段可謂五花八門，進店就送禮物，預存話費還能免費贈送手機或平闆電腦，如果你遇到這樣的“好事”，可千萬要保持冷靜，否則将會一步步掉入騙子的陷阱。今年9月中旬，浙江東陽市公安局聯合東陽市市場監督管理局就偵破了這... 2023-01-04
科技銀行卡沒有預留手機号怎麼辦
銀行卡沒有預留手機号怎麼辦?銀行營業廳辦理用戶需要攜帶本人身份證、銀行卡到發卡行網點，填寫修改個人信息申請表，即可預留手機号，今天小編就來聊一聊關于銀行卡沒有預留手機号怎麼辦?接下來我們就一起去研究一下吧!銀行卡沒有預留手機号怎麼辦銀行營業... 2022-06-15
科技關于未來科技的資料
關于未來科技的資料?從基因工程“讓人活到一千歲”的夢想，到納米技術“包你穿衣不用洗”的諾言;從人工智能“送你一隻可愛機器狗”的溫馨，到轉基因技術“讓老鼠長出人耳朵”的奇觀不斷有新的科技在誕生，每一個新科技的發現都會讓人們欣喜若狂，因為，這些... 2022-06-09
科技 360移動硬盤怎麼樣
當我們選擇移動硬盤時，肯定會注意這幾方面：1、數據存取的速度2、内存容量3、兼容性是否滿足自己需求4、時尚的外觀根據産品總體的售後評價和各品牌企業的實力，以及各方面因素的考慮，小編篩選出了以下十大品牌移動硬盤（排名不分先後）。一、希捷移動硬... 2023-03-23
科技手機數據線為什麼老壞
你的手機數據線一年要換多少根？像我這樣的，大概每兩個月就要換一次數據線。因為手機數據線實在是太容易壞了，尤其是蘋果原裝的數據線，用了一段時間之後就會出現破皮、斷頭、斷裂等各種情況。為什麼蘋果數據線為什麼這麼容易壞？其實最主要的還是以下四種原... 2022-12-15
科技手機經常卡頓發熱怎麼辦
手機用久了，都會有的一個通病就是：卡頓發熱。卡起來，讓人莫名的煩躁，總有想丢了或買新機的沖動。别着急，今天，我們就來分享怎麼解決手機卡頓、發熱等小技巧，讓你的手機再用兩年。關閉應用通知，自啟動，減少後台壓力1.蘋果手機設置方法打開設置-通用... 2022-10-26
科技 dhcp配置錯誤網頁打不開
dhcp配置錯誤網頁打不開?授權DHCP失敗錯誤代碼為20079在域環境下安裝DHCP時，第一次安裝不成功，在重新安裝的時候每次都提示授權DHCP服務器失敗，“DHCP服務器授權失敗，錯誤代碼為：20079指定的服務器已在目錄服務中如果AD... 2022-10-11
科技王者更新主動裝備
相信很多小夥伴們之前已看過先遣服關于王者之石的爆料内容了。那麼今天小編就給大家爆料王者之石的用處吧！王者之石，那肯定跟王者武器有關啊！說道王者武器，大家一直都希望他們能夠有屬于自己的專屬标識以及屬性！那麼這個願望即将實現了哦！在七月版本更新... 2022-12-25
科技怎樣把微信個人聊天記錄導出word
有的人想把電腦版微信聊天記錄導出為Word文檔，很多人第一想到的就是直接在PC版微信上複制聊天記錄，再粘貼到Word文檔中，粘貼後，我相信會有大于等于兩個哦豁在等着我們：“哦豁，聊天時間不見了”，“哦豁，收發的圖片不見了”。方法不對，當然就... 2022-11-29
科技 win10怎麼卸載軟件
win10怎麼卸載軟件?首先，在win10系統桌面上，找到這台計算機圖标，右擊，單擊“屬性”或者直接按下鍵盤的快捷鍵WINDOWS鍵+PauseBreak鍵打開系統屬性，下面我們就來聊聊關于win10怎麼卸載軟件?接下來我們就一起去了解一下... 2022-06-13
科技 ufo是不是來自外星球的
美國當地時間4月27日，美國國防部正式公開三段不明飛行物視頻并承認由美國海軍拍攝。這3段視頻拍攝于2004年和2015年，視頻中不明飛行物高速飛行，還躲避鏡頭鎖定。視頻曾于2017年流傳，但當時未獲美國海軍承認。實際上，這三個視頻在17-1... 2022-11-04
科技傑美特旗下的手機殼
傑美特旗下的手機殼?曾經，依賴華為帶來的訂單和收入，傑美特成為A股市場“手機殼第一股”如今，随着華為訂單削減，傑美特業績也立即“變臉”半年報數據顯示，營收同比增長19.75%，達到3.6億元，而扣非淨利潤卻大幅下滑，錄得虧損3692.8萬元... 2022-10-10
科技開車時是否可以看時速表确定車速
大家好，我是小李。今天看到這樣一個問題，大概意思就是說汽車儀表盤上面顯示的時速是100KM/H，但是在導航地圖上面看到的車速卻隻有96KM/H。這兩個速度明顯不一樣，存在4KM/H的差别，到底哪個速度才是汽車的真實速度？如果遇到限速到底看哪... 2022-11-13
科技手機分享視頻慢怎麼回事
手機分享視頻慢怎麼回事?視頻本身的編碼不支持硬件加速，使用了rmvb編碼器的視頻不支持加速，但是使用了h.264或mpeg2等編碼的文件卻是能夠加速，接下來我們就來聊聊關于手機分享視頻慢怎麼回事?以下内容大家不妨參考一二希望能幫到您!手機分... 2022-06-21
科技 win7各個版本功能
IT之家7月7日消息微軟對Windows7和Windows8.1用戶的免費升級福利早在2016年就結束了，但用戶仍然可以升級到Windows10。微軟表示，将繼續支持從Windows7或Windows8.1升級到Windows11，隻要他們... 2022-12-03

tft每日頭條

> 科技

> 卡方檢測表格