tft每日頭條

 > 科技

 > 雙11成交金額預測

雙11成交金額預測

科技 更新时间:2024-09-18 13:51:32

作者陳經,本文轉自風雲之聲微信公衆号

關注 哆嗒數學網 每天獲得更多數學趣文

2019年雙11過去以後,阿裡報告了天貓雙十一的全天銷售額:2684億。這個數字引發了一場關于統計學的有趣争執。

雙11成交金額預測(雙11成交數據拟合神預測)1

一位叫“尹立慶”的微博網友,在2019年4月24日發了一個貼,通過拟合2009-2018年的雙11天貓數據,由于拟合度高達99.94%,他認為淘寶是在按公式假造成交數據。并且他還“預測”,天貓2019年雙11成交額為2675.37億(二次拟合)或者2689億(三次拟合)。最終出來的數據是2684億,與他預測的2689億非常接近。

雙11成交金額預測(雙11成交數據拟合神預測)2

很多人翻出了這個“神預測”,暗示“阿裡數字造假被抓現行”。這引發了一場風波,許多人在傳,阿裡雙11銷售數字造假。尹立慶在微博上的原貼已經被删除,但是網上截圖還是很多。

天貓的公關負責人也發了聲明,駁斥了造假的說法。

雙11成交金額預測(雙11成交數據拟合神預測)3

12日晚間,天貓再度發文回應稱,“今早到現在,這則精心圖文化設計的‘預測’開始被刻意傳播”、“已就這則謠言啟動司法流程”。估計尹立慶删微博是覺得不太對了。但是個人感覺天貓沒有從數學上解釋這些疑問。

到底阿裡有沒有對雙11天貓成交數據造假?如果沒有造假,為什麼統計拟合如此精準,尹立慶提前半年的預測又如此準确?我們來介紹一下相關的知識。

首先說一下,這個預測涉及的“二次拟合”或者“三次拟合”不需要手算,其實是Excel等數據表格軟件的功能。所以,不需要進行高深的數學推理和計算,會用Excel簡單地制表就行了。

首先是數據源,這個是有公開數據的,沒有争議:

雙11成交金額預測(雙11成交數據拟合神預測)4

然後,對這兩列數據制一個散點圖表:

雙11成交金額預測(雙11成交數據拟合神預測)5

然後是二次和三次多項式拟合曲線。

雙11成交金額預測(雙11成交數據拟合神預測)6

尹立慶的關鍵預測是下面這張圖:

雙11成交金額預測(雙11成交數據拟合神預測)7

以上這幾個圖都是引自尹立慶發的文章。我們要解釋一下,預測裡的二次、三次多項式拟合,以及R-squared是什麼意思。不用急着去了解概念,看下面的操作流程自然就明白了。

我自己用Excel可以複制這個二次拟合,截圖如下:

雙11成交金額預測(雙11成交數據拟合神預測)8

這個就是将年份與成交額兩列數據,做成一個散點圖表。然後鼠标點在一個數據點上,就會出來一個“趨勢線”的選項。再把趨勢線選擇成“多項式”,選2次多項式。再讓圖表上顯示公式、R平方值,左邊的曲線拟合圖就自動出來了。

其實用國産免費軟件WPS裡面的表格,也一樣可以做出這種趨勢線的方程。為支持國産軟件,我們用WPS來做。不難摸索出用WPS如何生成趨勢線和方程。

雙11成交金額預測(雙11成交數據拟合神預測)9

上圖是WPS生成的2009-2019年11年的成交額數據的拟合曲線,可以看出,WPS和Excel生成的二次拟合方程參數是一樣的。

得出的拟合方程是一個二次的多項式:

y= 30.237xx - 121529x 1E 08

R平方 = 0.9996

這個R平方就是“可決系數”,越接近1越好,有一個公式來計算的,後面會解釋。公式裡的1E 08是科學計數法寫的常數項,數值太大了寫不下,是一個數字。看樣子曲線拟合得很好,但是為什麼常數項都大到出不來了?哈哈,因為這個軟件,把2009-2019當做數值,也就是說x的取值是2009到2019。它不知道是年份,也把這個拟合做出來了。

我們弄聰明點,把年份用0-10代表,2009就是第0年,2019就是第10年,同樣把圖表和拟合方程做出來。用0開始的好處,是可以直接得到拟合的初值,其實用1-11也差不多。

雙11成交金額預測(雙11成交數據拟合神預測)10

這個方程就好多了:

y= 30.237xx - 35.064x 7.3632

R平方 = 0.9996

我們把x = 10代進去算,得到的是:

30.237* 10 * 10 - 35.064 * 10 7.3632 = 2680.423

這個數值相當接近2019年天貓的實際成交額2684億。畫在圖上這麼點差距根本看不出來,點的中心就在趨勢線上。看上去拟合得非常好,簡直太漂亮了,天貓這11年怎麼可能成交得這麼準呢?

到此我們可以看出來,所謂的“二次多項式拟合”,就是用一個方程:

Y =A * xx B * x C

去拟合一系列x值對應的原始y值,誤差越小越好,“拟合度”越接近1越好。這個拟合度,就是用“R平方”來代表的。

我們再把R平方的定義解釋一下,

R平方 = 1 - SSE/SST

SSE就是和方差,每個點的拟合值與實際值有一個誤差,對它平方,所有點的誤差平方加起來,就是SSE。然後所有點原始y值,和平均值有一個差值,對這個差值平方,所有點的差值平方相加,就得到了SST,是個挺大的數。看不懂沒關系,我們用下面的表格來解釋。

雙11成交金額預測(雙11成交數據拟合神預測)11

第一列年份0-10就是公式裡的x值,分别對應2009-2019年。第二列就是實際的y值,是每年新聞報出的天貓成交額。這些實際成交值,有一個平均值890.35。拟合值,就是用公式“y = 30.237xx - 35.064x 7.3632”算出來的每一年的值。誤差,就是用“實際成交值”減去拟合的值。

雙11成交金額預測(雙11成交數據拟合神預測)12

這個表是與上個圖并排的,分開來看得清楚一些。誤差平方就是對前面得到的誤差值進行平方。所有的誤差平方相加,就是誤差平方和SSE,等于3183.18。

每一年的實際成交值,和平均值890.35求出一個差異。然後對每個值平方,再求和。得到了“均值差平方和”SST,數值很大是8647639.7。

然後就可以得到“可決系數”R平方,是 1 - 3183.18/8647639.7 = 0.9996。這個值就正好和WPS生成的R平方值相等。

看這個表格,我們就忽然發現,這個拟合的“神奇感”好象下降了。你看第一年0.5的值,拟合值7.3632卻是它的十多倍。第二年的拟合值2.5362,甚至不到第一年拟合值的一半。如果第二年業績是這個鬼樣,馬雲得把天貓負責人就地撤職。但是畫成圖,因為絕對坐标的關系,早期很大的拟合誤差,與以後很大的成交值相比顯得很小,畫出來顯得拟合得很好。

我們發現,越是早期的小數據,誤差相對越大。定義一個誤差率,是誤差值除以原值乘以100%。頭四年的誤差離譜地大,高的有1372%和72.9%,第四年差異仍然高達8.74%。後面随着原值的逐漸地大,誤差率就逐漸減小,隻有0.2%、0.1%了。

也就是說,這個拟合的“秘訣”是:注意把每個點的誤差的絕對值弄得小一些,顧頭不顧腚,顧大不顧小。最後畫出圖來,因為坐标要跟比較大的數值的尺度,前面較大的相對誤差就縮起來看不見了。

雙11成交金額預測(雙11成交數據拟合神預測)13

另一點要注意的,不要迷信那個R平方值,以為多麼接近1啊,真神奇啊。例如上圖,假設2019年天貓成交額不是2684億,而是跑到一個很歪的3000億去了。那麼我們新做一個二次多項式拟合,得出的R平方值仍然有0.9952,還是相當接近1。從圖上看出來,後面兩個點已經有點偏了,R平方值仍然漂亮得很。這是因為這個R平方值,分母SST是個特别大的數,怎麼算最後總是接近于1。

尹立慶的預測巧合在于,他對2019年的預測正好碰上這年天貓的增長是中規中矩的25.7%。二次多項式拟合的預測值2675,預期增長是25.3%,正好相差不大。天貓2019年成交增長25%,這個并不奇怪,不少人随口說個直覺也可能是這個數。

但并不是每一年都如此,其實天貓的增長率也出過異常。

雙11成交金額預測(雙11成交數據拟合神預測)14

看上圖天貓曆年的增長率,前面增長率高,後面增長率逐漸下滑,因為規模大了增長率下跌正常。但是2017年增長了39%,高于2016年的32%,這是一個數據異常。

假設我們在2016年,看到8年的成交數據,搞了一個二次拟合,結果會是如何?

雙11成交金額預測(雙11成交數據拟合神預測)15

我們用8個點,同樣得到了一個相當漂亮的拟合曲線!R平方值也是0.9985,相當接近于1。方程是:

y= 28.571xx - 25.295x 0.1558

如果用這個二次多項式方程,去算2017年的值,會是:

y= 28.571*8*8- 25.295*8 0.1558 = 1626.34

2017年的實際成交額是1682億,差了50多億,就沒有2019年隻差幾億那麼神了。

有趣的是,這個公式對2017年的預測增長率是34.74%,也高于上年的32.35%。這是因為,2014、2015、2016三年的增長率分别是63%、59%、32%。這個32%降得有點多,在下一年就補回來一些。比如天貓管理團隊認為,2016年增長率不盡如人意,要多想招,2017年的增長率就搞到了39.35%,發力過度,比拟合預測的還要高了。

讓我們來看8個點和11點得到的兩個二次多項式拟合方程:

2009-2016:y = 28.571xx -25.295x 0.1558

2009-2019:y = 30.237xx -35.064x 7.3632

注意,這兩個方程對應的三個系數,差異已經非常大了。就算馬雲有一個“按公式操縱天貓每年雙11成交額”的邪惡計劃,我們也搞不清楚他最初設計的二次方程系數是如何的。

所以,要麼馬雲沒有操縱天貓雙11成交額的數學方程,要麼馬雲在動态修正預測成交的方程。不太可能在某年就把這些系數定死了。

其實,馬雲在動态修正預測成交的方程,這個倒是接近真相了。本來做生意就是這樣的,上一年增長夠高了,下一年的增長任務就輕一點,以免各種配套跟不上;上一年增長覺得低了,下一年就多努力做高,免得業績增長不好看。但是都動态上了,本就無可厚非,是人家在搞數值化管理,誰管得着?

等數值都出來了,再去回頭把二次多項式的系數拟合出來,我們可以發現,很容易就拟合得不錯,而且R平方相關系數可以做得很漂亮。前提條件是,這一系列數據增長率要比較大,前期的數據比較小,後期的數值大,就可以僅用二次多項式做出一個漂亮曲線了。

如果增長率變動有點大,那就要用三次、四次多項式了。但原理是一樣的,就不再分析了。

總之,不要相信拟合的神奇,也不要相信“拟合度”接近1的神奇效果。這個在數學統計裡,實在很平常。對搞過數據分析的人來說,這是最平常的手段,迷信拟合真是少見多怪,隻會被内行笑掉大牙。

這還隻是二次多項式三個系數的拟合。要是用深度學習那上百萬個系數來拟合,結果可以漂亮得讓一些傳統研發人員懷疑人生,轉而去搞機器學習。

雙11成交金額預測(雙11成交數據拟合神預測)16

最後,貼個經典拟合搞笑圖:大象。吃瓜群衆看看,數學公式拟合的威力有多大。這就是馮諾依曼說的,用四個參數我可以拟合出一頭大象,而用五個參數我可以讓它的鼻子晃。

關注 哆嗒數學網 每天獲得更多數學趣文

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved