随機誤差統計原理-tft每日頭條

随機誤差統計原理

科技更新时间:2026-03-01 02:15:57

作者：小伍哥

來源：小伍哥聊風控

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）1

大家好，我是小伍哥，今天給大家分享一個好像有用，好像又沒啥用的奇奇怪怪的知識，風控嘛，就是玩兒。

〇、“本福特定律”是什麼？

“本福特定律”（Benford's law），也稱“本福特法則”，它說明一堆從實際生活得出的數據中，以1為首位數字的數（如12、135、1083首位數字均為1）的出現概率約為總數的三成，接近人們主觀直覺得出的期望值1/9的3倍。

推廣來說，越大的數，以它為首位數字甚至是首幾位數字出現的概率就越低。在十進制首位數字的出現概率中，1最高（30.1%），逐漸遞減，9最低（4.6%）。

在美國大選中，有人就使用了該定律質疑拜登選票異常，在統計了特朗普和拜登在威斯康星州密爾沃基縣470多個選區的得票數首位數字後發現，特朗普的這一曲線較為符合“本福特定律”的曲線，而拜登的曲線形狀則出現異常。拜登在包括威斯康星州密爾沃基、伊利諾伊州芝加哥和賓夕法尼亞州阿勒格尼的曲線均不滿足“本福特定律”，而與此同時，特朗普在多個地區的曲線卻又正好滿足或基本滿足該定律。

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）2

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）3

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）4

一、基本概念

本福特定律（也稱為第一位數法或本福特分布）是一種概率分布，許多統計學的（但不是全部）數據集的第一個數字符合。例如，

15435 首位是 1 56 首位是 5 9001 首位是 9 199 首位是 1 9 首位是 9

本福特定律通常可用作欺詐性數據的指标，并可協助審計會計數據。本福特的分布是一種不均勻的分布，較小的數字比較大的數字有更大的出現j可能。

二、數位分布概率第1位數字出現概率10.30120.17630.12540.09750.07960.06770.05880.05190.046三、本福特分布圖

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）5

四、本福特分布公式

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）6

六、本福特定律适用于哪類數據？

需要注意的是，“本福特定律”也有一定的使用條件。首先，數據樣本需要盡可能的多，至少要在3000個以上；其次，數據樣本跨度要大，比如人的身高就不滿足“本福特定律”，因為大多數人身高在1米至2米這一區間；最後，數據樣本應是自然的，不能有人為操控，例如手機号碼和郵政編碼不滿足“本福特定律”，因為這些都是1開頭或特定數字開頭。

也正是因為有特定使用條件，“本福特定律”可用于檢查各項數據是否存在造假行為，因為若有人為因素影響數據，所得首位數字的概率及概率曲線圖将不符合“本福特定律”。

在大部分情況下，本福特定律可以适用于具有以下特征的數據：

具有通過來自多個分布的數字的數學組合形成的值的數據。
具有多種數字的數據，例如具有數百，數千，數萬等數值的數據。
數據集相當大。
數據是右傾斜的，即平均值大于中值，并且分布具有長的右尾而不是對稱的。
數據沒有預定義的最大值或最小值（最小值為零）。

雖然有以上的限制，但實際上在會計中，符合上述特征的數據非常普遍。

七、會計欺詐檢測與取證分析

應收賬款，應付賬款，銷售和費用數據均基于兩種類型的變量相乘的值，即價格和數量。單獨，價格和數量不太可能符合本福特定律，但很可能會成倍增加。這種會計數據也可能是正确的。大公司的交易級會計數據幾乎總是會有大量的觀察結果。

如果某些會計數據預計符合本福特定律但不符合，則并不一定意味着數據是欺詐性的。然而，這将為進一步調查提供充分的理由。

以下是如何對會計數據執行本福特分布分析的一些示例。

1）大型企業的應付賬款數據

分析顯示，大型企業的應付幾款的數據的數字第一位數字中有很大比例的1。經過仔細檢查後發現，與上一個會計期間相比，還有更多的支付支票略高于1000美元。前一期的大部分支票金額低于100美元。

在一起财務調查中，負責的财務官随後受到質疑，他們回答稱他們決定彙總金額以試圖減少支票。低數字金額的合并是偏離本福特定律的常見解釋，使财務官的解釋變得合情合理。

經過進一步調查，據透露，該官員正在向他們創建的虛假殼公司寫支票。

2）本福特的分析應用于組織的費用數據

最初的本福特分析顯示，數據的第一位數字中“非常大”的比例非常大。經過仔細檢查，特定費用的許多條目達到45美元。發現費用對于運營組織至關重要，必須經常支付。調查了這筆特殊費用，然後被認為是合法的。

然後将Benford的分析應用于費用數據的副本，但省略了特定的頻繁費用。發現排除該特定費用的數據與本福特的分布非常接近。

超越第一個數字推廣本福特定律通過查看第一個數字以外的數字，可以增強Benford的分析。

八、廣義本福特的分布表

本表的作用是表示分布規則還可以作用在不同的數位上。比如，0出現在第2位的概率是 11.97%，要高于平均值10%。

數位	第1位	第2位	第3位	第4位	第5位
0	NA	0.11968	0.10178	0.10018	0.10002
1	0.30103	0.11389	0.10138	0.10014	0.10001
2	0.17609	0.10882	0.10097	0.1001	0.10001
3	0.12494	0.10433	0.10057	0.10006	0.10001
4	0.09691	0.10031	0.10018	0.10002	0.1
5	0.07918	0.09668	0.09979	0.09998	0.1
6	0.06695	0.09337	0.0994	0.09994	0.09999
7	0.05799	0.09035	0.09902	0.0999	0.09999
8	0.05115	0.08757	0.09864	0.09986	0.09999
9	0.04576	0.085	0.09827	0.09982	0.09998

注意：由以上數據可以看出，在廣義分布中，數字的出現概率要比第一個數字更加均勻。

九、一般分布公式

根據上面的數據，我們可以得到一般的分布公式

随機誤差統計原理（手把手教你數據造假-本福特定律和統計中的造假檢測）7

十、上市公司年報淨利潤數據驗證本福特定律

我們用上市公司的利潤數據來驗證下本福特定律。

我們采用tushare接口獲取2019、2020年年報（第4季度）數據，取其中的淨利潤數據，然後我們隻考慮淨利潤為正的情況。

xxxxxxxxxxbr

# 驗證本福特定律 import tushare as ts # 股票數據獲取的一個包 import math import matplotlib.pyplot as plt import pandas as pd from functools import reduce from pylab import * # 這一句讓pyplot支持中文顯示 mpl.rcParams['font.sans-serif'] = ['SimHei'] # 獲取首位的函數 def firstDigital(x): x= round(x) while x >= 10: x //= 10 return x # 首位概率累加 def addDigit(lst, digit): lst[digit-1] =1 return lst # 理論值：每位概率理論值用于對比 th_freq=[math.log((x 1)/x, 10) for x in range(1,10)] #分别獲得2019，2020年報數據 df= ts.get_report_data(2019, 4) # 隻取淨利潤>0的數據，首先進行次數統計 freq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9) # 再計算實際概率 pr_freq= [x/sum(freq) for x in freq] print(th_freq) print(pr_freq) # 作圖 plt.title('用上市公司2019年報淨利潤數據驗證本福特定律') plt.xlabel("首位數字") plt.ylabel("概率") plt.xticks(range(9), range(1,10)) plt.plot(pr_freq,"r-",linewidth=2, label= '實際值') plt.plot(pr_freq, "go", markersize=5) plt.plot(th_freq,"b-",linewidth=1, label= '理論值') plt.grid(True) plt.legend() plt.show()

xxxxxxxxxxbr# 驗證本福特定律brimport tushare as ts # 股票數據獲取的一個包brimport mathbrimport matplotlib.pyplot as pltbrimport pandas as pdbrfrom functools import reducebrfrom pylab import *br# 這一句讓pyplot支持中文顯示brmpl.rcParams['font.sans-serif'] = ['SimHei']br# 獲取首位的函數brdef firstDigital(x):br x= round(x)br while x >= 10:br x //= 10br return xbr# 首位概率累加brdef addDigit(lst, digit):br lst[digit-1] =1br return lstbr# 理論值：每位概率理論值用于對比brth_freq=[math.log((x 1)/x, 10) for x in range(1,10)]br#分别獲得2019，2020年報數據brdf= ts.get_report_data(2019, 4)br# 隻取淨利潤>0的數據，首先進行次數統計brfreq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)br# 再計算實際概率brpr_freq= [x/sum(freq) for x in freq]brprint(th_freq)brprint(pr_freq)br# 作圖brplt.title('用上市公司2019年報淨利潤數據驗證本福特定律')brplt.xlabel("首位數字")brplt.ylabel("概率")brplt.xticks(range(9), range(1,10))brplt.plot(pr_freq,"r-",linewidth=2, label= '實際值')brplt.plot(pr_freq, "go", markersize=5)brplt.plot(th_freq,"b-",linewidth=1, label= '理論值')brplt.grid(True)brplt.legend()brplt.show()

xxxxxxxxxxbrbr

從圖形上看，兩者拟合度還是比較高的。據說有些上市公司數據造假就是被用本福特定律查出來的。所以不認真學習的話，造假都造不好。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技同花順有技術分析嗎
【CNMO新聞】對于股民來說，股市中每一秒的判斷都可能影響收益，因此炒股軟件崩潰造成的影響十分巨大。目前，常用的炒股軟件包括同花順、大智慧、東方财富網等，其中同花順在《2019胡潤中國500強民營企業》中，以490億元的市值位列第135位。... 2022-10-28
科技人工智能基本技術包括聯想技術嗎
現如今，人工智能可以說是時代的弄潮兒。在這個賽道中，大部分的科技公司都在其賽道中奮勇向前。聯想也不例外。8月18日，聯想創新開放日在北京舉辦，聯想集團智能設備、聯想研究院、供應鍊等業務展示了智能設備、關鍵零部件、應用以及服務等領域的180餘... 2023-03-13
科技以公司為單位的客戶管理系統
如何杜絕員工飛單、走私單？如何避免員工離職帶走客戶？——點鏡scrm企業微信管理系統點擊這裡可觀看視頻講解——【點鏡視頻觀看】随着企業的不斷發展，企業還沒有一個完整的客戶管理系統。如果不能對客戶進行系統的管理，客戶信息就會随意丢失。很難找到... 2023-03-07
科技手機新電池頭幾次充電注意事項
手機新電池頭幾次充電注意事項?現在的手機基本上都是锂電池，沒有所謂的電池記憶，因此即使是新手機充電也不需要充足固定的時間當然也不要玩到手機自動關機再充，這種做法也是不對的一般情況下電量用到最低5%左右就要進行充電了，一直到充滿為止下面我們就... 2023-02-07
科技電腦怎麼設置保護眼睛的顔色
在使用電腦工作和學習的過程中，許多時候對着顯示器編輯文檔就是一整天，而大多數軟件的背景色都是純白，看的時間長了，眼睛就會感到幹澀，難受。長時間這樣工作，還會造成視力下降，過度疲勞等現象。那麼如何在大量處理文檔的時候，盡量想辦法保護我們的眼睛... 2022-12-31
科技軟件測試編寫案例用哪個軟件
軟件測試編寫案例用哪個軟件?團隊進行軟件測試工作，編寫一份軟件測試報告對于測試人員來說必不可少，接下來我們就來聊聊關于軟件測試編寫案例用哪個軟件?以下内容大家不妨參考一二希望能幫到您!軟件測試編寫案例用哪個軟件團隊進行軟件測試工作，編寫一份... 2023-02-23
科技如何截取視頻發西瓜視頻才不侵權
如何截取視頻發西瓜視頻才不侵權?剪輯視頻的開頭不能和原視頻一樣，今天小編就來聊一聊關于如何截取視頻發西瓜視頻才不侵權?接下來我們就一起去研究一下吧!如何截取視頻發西瓜視頻才不侵權剪輯視頻的開頭不能和原視頻一樣。時間剪輯不能一樣，不能和原視頻... 2022-06-28
科技安卓手機體驗快應用
談起「快應用」，很多人可能一臉懵，這是什麼玩意？其實，它是很多安卓手機内置的一項功能，按照廠商的定義，它内置于應用開發框架和應用引擎，可以實現即點即用，無需下載安裝，換句話說，它可以在手機底層無縫銜接各種應用服務。那它真的很「快」嗎？體驗下... 2023-03-17
科技手機怎麼給電腦裝系統呢
前幾天哎妹跟公司新來的小夥伴兒一塊出差，雖然身在外，但稿子可不能停，就坑此坑次的背着電腦去了。到了目的地之後，小夥伴兒就趕緊打開電腦，結果電腦竟然挂了，當時小夥伴兒就崩潰了…還好哎妹是老司機，一點都不慌。哎妹默默的掏出了手機，進行了一系列操... 2023-01-16
科技蘋果為啥不出廣告
沒想到濃眉大眼的蘋果也跟華為學壞了。根據蘋果公司周二發出的邀請函，該公司邀請開發者參加一場鼓勵他們購買廣告的在線會議，并計劃最早在今年年底假日季發布新的AppStore廣告位，這就很離譜，現在不買iPhone又多了一個理由，不過想想也是，放... 2023-01-23
科技 ai芯片全面屏
PC廠商在經曆了性能、續航、便攜時代的比拼後，如今進入了新的時代——AI智能。毫無疑問，如今AI已經成為了人類社會最熱的詞彙之一，作為有着天然優勢的PC設備自然要成為整個人類社會AI化的先行者，因此越來越多的廠商将AI的概念植入到産品之中，... 2022-12-08
科技優衣庫的保暖内衣怎麼樣
有些人穿得漂漂亮亮，還不怕冷。而你，穿得多還冷成狗，呵呵當我明白小姐姐們都是穿保暖内衣後，我從此走上了時尚之道~當然，如果保暖内衣選得不好也是一場時尚災難，比如我們今天要測評的10款中，就有媽媽級蕾絲邊、奶奶級袖口。不談保溫的保暖内衣都是耍... 2023-02-27
科技比較不容易發黃的好看手機殼
一直在關注手機，芯片、屏幕、内存以及續航，各種機型的參數可以說是信手拈來。但有一天，一個朋友咨詢完手機後，突然也問了手機殼的事情。才意識到自己對消費者的需求分析還是有些欠缺。手機殼就好比手機的衣服，真的非常的重要。好的手機殼，使用過程中更為... 2023-02-10
科技防曬噴霧推薦小紅書
, 2022-10-24
科技手機充電一夜會不會壞
【中關村在線新聞資訊】8月4日消息：許多人都有智能手機充電一整個晚上的習慣，但是又經常有流言提到手機長時間充電會對電池的壽命和容量造成影響，久而久之也會加速手機的損壞。不過，來自美國加州的電子産品拆解機構負責人凱爾•維恩斯就表示，整晚對手機... 2022-10-30
科技軟件項目功能實現方法
質量管理五大工具，也稱品管五大工具。包括：▼▼IATF16949-2016版汽車行業質量管理體系程序文件标準培訓全套資料, 2023-03-13
科技陝西省發展的大數據
陝西省發展的大數據?中新網西安9月29日電(楊英琦)記者29日從陝西省十三屆人大常委會第三十六次會議獲悉，《陝西省大數據條例》(以下簡稱《條例》)當日由會議表決通過該條例旨在促進大數據在經濟發展、民生改善、社會治理中的應用，加快數字陝西建設... 2023-03-23
科技電容器電感器在交流電路的作用
根據電感器“通直流，阻交流”，電容器“隔直流，通交流”的特點，可以将二者結合并與電阻組合到一起來實現一定的功能.（1）如輸入端輸入的是經整流後的直流仍含有交流的成分，這時可以将電容器與負載并聯在一起，然後與電感器串聯在電路中，就可以很好地把... 2023-01-08
科技陌陌這個軟件靠譜不
經過之前的内測後，現在陌陌正式上線了脫單戀愛軟件“對對”。從官方公布的細節看，該産品是基于同城戀愛的交友軟件，通過線上視頻聊天的方式，幫助用戶認識新朋友。資料顯示，“對對”開發者為成都陌陌科技有限公司。對對目前主要功能有：1、視頻交友：在線... 2023-01-18
科技電腦系統重裝微信聊天記錄還在嗎
随着微信在生活和工作中使用得越來越頻繁，微信的聊天記錄也随之越來越多，不僅占用硬盤空間，并且如果遇到系統崩潰，或重裝系統後，重要的聊天記錄或傳輸的文件容易丢失，下面介紹如何備份微信的的聊天記錄，以及重新安裝系統後如何把原來的聊天記錄恢複的方... 2022-11-04
科技手機卡頓用内存卡能解決嗎
【CNMO新聞】你有意向提升智能手機或平闆電腦的存儲空間嗎？你是否感覺現有的microSD卡不夠用呢？那麼你可以了解一下Micron的新款高容量microSD卡。MicronC2001TBmicroSDXCUHS-I卡是市面上首款采用先進的... 2023-04-03
科技李嘉欣原振俠發型
金庸書中有諸多美女，小龍女的出塵絕豔、陳圓圓的傾國傾塵、香香公主的嬌豔無雙……百花綻放、百媚千嬌。而作為女主角出現的程靈素，卻是少有的“醜丫頭”。書中描寫她的出場：肌膚枯黃，臉有菜色，似乎終年吃不飽飯似的，頭發也是又黃又稀，雙肩如削，身材瘦... 2023-02-08
科技怎麼知道電機電阻參數多大
對于任何一款電機産品，直流電阻、絕緣電阻和接地電阻，都是表征其質量性能的重要參數，這個問題對于直接接觸電機的技術人員和技術工人是比較熟知的，但對于其他人員可能就存在一些困難，這也是應一位網友的提問而進行的專題講解。直流電阻是相對于電機繞組本... 2023-01-01
科技 steam錯誤代碼119真正解決方法
相信很多人都會碰到這個問題，打開steam就彈出這個錯誤，無法進入設置進行交易，甚至個人資料都不行。這個其實還是很容易進行修複的，我們需要修複工具steamcommunity由于系統缺少服務，點擊這款工具啟動服務就能解決了！每個人的系統不一... 2023-03-06
科技深圳軟件開發外包公司待遇
今天我們來分析研究一下成都軟件開發外包公司成都app開發-微信小程序開發-華尚科技APP定制開發外包公司的行業前景。互聯網金融行業發展已經可以成為我們如今炙手可熱的行業，如今是21世紀互聯網智能高效的時代了，很多中國傳統文化行業在這個數據時... 2023-03-02
科技蘋果手機備忘錄使用方法
蘋果手機除了自帶的IOS系統非常流暢之外，裡面還有很多的隐藏黑科技也同樣令人着迷。今天就來拿蘋果手機中的備忘錄功能來和大家聊一聊，那些你不知道的備忘錄功能居然如此強大！一：語音轉文字功能備忘錄中還可以進行語音轉文字你相信嗎？那麼具體的操作方... 2023-03-20
科技九鋼的廠址
九鋼的廠址?近日，方大九鋼傳來好消息，該公司成功開發Q345GJBZ15、Q345GJCZ15兩個高層建築結構用鋼新品種，這是繼2018年成功開發Q345C、Q345D、45号等多個闆材品種鋼之後，企業成功開發的又一系列高附加值品種鋼，為企... 2023-02-15
科技怎麼能徹底删除手機裡的所有數據
在這物欲橫流信息高速發展的時代，我們手機的隐私安全越來越難得到保障，對于手機重要的隐私信息如果不做處理，被有心人士恢複出來，後果不堪設想，那麼關于數據如果才能徹底删除任何人都無法恢複呢？權威專家給出如此建議。一：重複覆蓋删除很多人現在都知道... 2023-02-28
科技 ai算法每月提速多少
明天博士論文要答辯了，隻有一張12G二手卡，今晚通宵要搞定10個模型實驗挖槽，突然想出一個T9開天霹靂模型，加載不進去我那張12G的二手卡，感覺要錯過今年上台BestPaper領獎上面出現的問題主要是機器不夠、内存不夠用。在深度學習訓練的時... 2023-04-03

tft每日頭條

> 科技

> 随機誤差統計原理

随機誤差統計原理

相关科技资讯推荐

热门科技资讯推荐

网友关注