tft每日頭條

 > 科技

 > 電商數據分析組件

電商數據分析組件

科技 更新时间:2025-02-03 16:15:55

本文選取了英國某電商平台的年銷售數據,從7個方面進行拆解和分析,完成了從數據清洗到可視化的一整套流程。

電商數據分析組件(以英國某電商平台的年銷售數據為例)1

數據對于互聯網 的商業模式存在巨大的價值,在業務中我們遇到的瓶頸往往通過數據分析,可以發現問題以及解決問題的對策。

本文對英國某電商平台的年銷售數據進行分析:

一、報告梗概

1. 報告背景及目的

報告對在取數區間内的某電商平台内的所有交易記錄進行了分析,平台主要銷售獨特的全時禮品,公司的許多客戶都是批發商。為了更好地了解平台的經營狀況,對銷售數據進行分析,提出優化平台運營的策略,從而為平台創造更多價值。

1. 數據來源及說明

數據來源于UCI加州大學歐文分校機器學習庫,是一個跨國數據集,其中包含2010年12月1日至2011年12月9日之間在英國注冊的非商店在線零售的所有交易。

數據集含有8個字段,其含義如下:

  1. InvoiceNo: 6位的發票号,系統為每筆交易自動分配的6為不同的數字序列,如果是以c開頭則表明該訂單被取消。
  2. StockCode: 産品編号,每一種不同類别的商品對應不同的編号。
  3. Description: 對産品類别的描述。
  4. Quantity: 每次交易的某種産品的購買數量。
  5. InvoiceDate: 每筆交易産生時的日期時間。
  6. UnitPrice: 産品的單價,單位是英鎊。
  7. CustomerID: 5位編碼的客戶id,每個客戶的id都不相同。
  8. Country: 客戶來源的國家。
二、數據預處理情況

1. 重複值處理

整個數據集有541909條數據,其中完全重複的數據有5268條,剔除後剩下536641條交易數據。

2. 缺失值處理

Description和CustomerID兩個字段即商品描述和客戶ID有缺失值,其中Descriptio缺失1454條,占總數據量的0.27%;CustomerID缺失135037行,占總數據量的25.2%。

因為商品描述是文本類型數據、對于本分析的結果不重要且缺失值占比非常小,所以不對其進行充填。

對于CustomerID,缺失量占到了總數居的四分之一且其本身對分析結果有重要意義,必須對其填充。在已驗證當前CustomerID中沒有0值的前提下,充填方式選擇為用0代替缺失的CustomerID值。至此,缺失值處理完畢。

3. 異常值處理

基于業務常識,商品單價和商品數量應為正數,查看數據時發現這兩種類型的異常值。

取出來查看後,發現由兩種原因造成:

  1. 訂單被取消即發票号以C開頭的記錄(共11761條);
  2. 壞賬數據即發票号以A開頭的記錄(共2條)。

對于被取消的訂單:由于沒有發生實質交易,對平台的交易數據不存在影響故直接删除,但後續可以針對這部分數據可以嘗試分析挖掘取消背後的原因;

對于壞賬:數據量極小,且壞賬金額也極其微小,在此也選擇直接删除。

處理完異常值後,總的有效數據量為524878條。

4. 新增字段

為方便後續的時間序列分析,新增交易時間date字段(具體到日)和交易月份month字段;為方便後續的金額分析,新增交易金額SumCost字段(交易金額等于商品數量乘以商品單價)。

至此,數據預處理完成,截取部分有效數據如下所示:

電商數據分析組件(以英國某電商平台的年銷售數據為例)2

三、訂單分析

1. 描述性分析

在訂單層面,描述性的統計信息如下圖:

電商數據分析組件(以英國某電商平台的年銷售數據為例)3

平台在此期間總共有19960筆有效訂單,每筆平均購買279件商品,筆均消費533英鎊,這兩者都超過了各自的中位數水平。

說明訂單總體差異很大,尤其是筆均消費超過了Q3分位數。

最大的一筆訂單中購買了将近81000件商品,最大的單筆消費也高達168469——說明平台用戶以批發商為主且存在購買力極強的客戶。

2. 訂單商品數量分布

剔除離群值,篩選出購買商品件數小于2000的訂單繪制商品數量分布圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)4

分布圖呈現典型的長尾分布,大部分訂單内的商品數量在250以内,大額數量訂單稀少。

3. 訂單金額分布

剔除離群值,篩選出單筆金額小于1000英鎊的訂單繪制金額分布圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)5

分布圖有長尾趨勢,金額主要分布在400英鎊以内,說明絕大部分客戶在該平台上的消費金額預算為400英鎊以内,在350英鎊左右出現了最多的訂單數。

4. 分析小結

平台在2010年12月1日至2011年12月9日一年多的時間中産生有效交易19960筆,總銷售額為8,887,209英鎊,平均每日交易54筆,筆均購買量279件商品,筆均消費533英鎊。

存在少數重要價值客戶,此類用戶購買力極強。作為批發型平台,要着重保持此類用戶,用戶維護、運營營銷資源要向這些客戶傾斜。

四、客戶分析

在缺失值處理時,對于客戶id缺失的數據,直接用0填充了空值,因此在客戶層面分析的時候剔除了這部分數據。

1. 描述性分析

在客戶層面,描述性統計信息如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)6

在4338個有效客戶ID中:

  • 平均每個客戶消費4次,超過中位數,至少有25%的客戶消費1次之後就流失了;
  • 客均購買1187件商品,超過Q3分位數,最大的客戶購買量達到了近197000件;
  • 客均消費2048英鎊,超過Q3分位數,最大的客戶消費額達到280206。

2. 客戶消費金額分布

剔除離群值,篩選出消費金額在6000英鎊以下的客戶繪制消費額分布圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)7

分布圖呈現明顯的長尾狀,大部分客戶的消費額在1000英鎊以内,消費200英鎊左右的客戶最多。

3. 客戶貢獻程度

二八定律普遍存在于銷售市場,因此繪制出每個客戶的消費額占總銷售額的占比圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)8

可以看出消費額前1000名的客戶貢獻了80%的銷售額,也就是說平台所有客戶中前20%的客戶提供了80%的銷售總額。

4. 消費額與購買量的關系

客戶的消費額與購買量的關系可以對平台促銷策略進行指導,左圖繪制了所有的數據(包含離群值),右圖為篩選出消費額5000英鎊以下的數據:

電商數據分析組件(以英國某電商平台的年銷售數據為例)9

由圖可知:消費額與客戶的購買量成正比關系,且存在少數購買量和消費額數目都很巨大的客戶。

在消費額小于5000英鎊以内的客戶,其消費額與購買量呈強正比關系;在3000件商品範圍内,每向客戶多銷售1000件商品,銷售額大概可以增加一倍。

5. 分析小結

平台的客戶在這一年中平均會消費4次,客均購買1187件商品,客均消費2048英鎊。

但是值得注意的是有四分之一以上的客戶隻消費了一次就直接流失掉了,如果能夠保持這些客戶,保守估計年銷售額可以增加2,400,000到3,000,000英鎊,接近全年銷售額的三分之一。

平台的經營要注重新客的留存率,對于長時間沒有複購的客戶要積極聯系,采取相應的喚回措施。

五、商品分析

平台對每個客戶的報價并不一樣。在處理時,采取平均的方法,即:該件商品的銷售總額除以該件商品的銷售數量來定義每件商品的單價。

1. 價格分布

電商數據分析組件(以英國某電商平台的年銷售數據為例)10

剔除離群值後,發現平台商品價格大部分低于3英鎊。

2. 價格-銷量關系

電商數據分析組件(以英國某電商平台的年銷售數據為例)11

在價格方面符合價格越低,銷量越大的規律。

價格低于3英鎊的商品的銷量明顯高于别的商品,在5英鎊的價格内出現了萬級别的銷量,驗證了平台低價走量的批發商式銷售模式。

此外,存在兩件單價超過6000英鎊的商品,分别是價格為6880英鎊的AMAZONFEE商品和價格為11062英鎊的B商品,這兩者的銷量分别為2件和1件,說明平台在高價商品上沒有競争優勢。

而高價商品所需的運維成本往往高于其他商品很多,建議平台專注單價20英鎊以内的商品,繼續提高低價商品的銷量來獲取更多收益。

3. 詞雲分析

對商品的描述一欄做詞雲分析,從可視化結果中發現:平台銷售的商品屬于小禮品類,其中鬧鐘類商品居多。

4. 分析小結

平台當前的定位是低價走量批發商式平台,這個銷售模式得到了驗證,應該繼續堅持這個模式。對于超高價商品,平台的銷售額貢獻甚微,卻要花費較高的銷售成本,因此平台的利益點可以專注在低價商品的高銷量上。

六、時間序列分析

1. 銷售額-時間關系

統計各月的交易量、銷量以及銷售額如圖所示:

電商數據分析組件(以英國某電商平台的年銷售數據為例)12

電商數據分析組件(以英國某電商平台的年銷售數據為例)13

顯然:11月和12月的成交量最多,兩者超過了全年交易量的四分之一,商品的出貨量和銷售額也是這兩個月最多。

縱觀全年:銷量、銷售額、訂單量呈現出相同趨勢,從1月起銷售額緩慢上升,至4月出現一個驟降後,從5月開始又緩慢下跌,随後至年底期間銷量上升趨勢明顯。

2. 分析小結

11月銷售的驟增與萬聖節、雙十一全球購的促銷活動緊密相關,12月的銷售在萬聖節的餘溫以及聖誕節的氛圍中随較之11月有所降低但仍高于全年平均水平。

年初銷量驟降的原因是前面兩個月的促銷極大地釋放了客戶的購買欲望,且年初的節日少,批發商的采購意願并不強烈。4月份出現驟降,而後銷售額穩定在600,000到800,000之間。從8月開始,批發商們開始備貨準備年底的傾銷,成穩定上升趨勢。

因此,平台在9月和10月應該為後續的節日活動造勢,加大營銷成本的投入,同時增加庫存,為後續促銷銷量做保證。

11月和12月要注意加大運維力度,防止線上銷售渠道的崩潰而造成損失;年後1月和2月可以借情人節相關話題再次激發用戶的購買欲望,促進淡季的銷售。

七、地區分析

1. 用戶來源分布

電商數據分析組件(以英國某電商平台的年銷售數據為例)14

作為英國的電商平台,其用戶九成以上是本土用戶。排在後面的三個地區也都屬于歐洲,分别是:德國、法國、愛爾蘭。

2. 銷售額-地區分布

電商數據分析組件(以英國某電商平台的年銷售數據為例)15

因為龐大的本土用戶基數,平台的銷售額九成以上是來自于本土市場,随後是歐洲的荷蘭、愛爾蘭、德國和法國。在歐洲市場以外,澳大利亞市場占據銷售額第一名。

電商數據分析組件(以英國某電商平台的年銷售數據為例)16

雖然英國的銷售額占據了九成以上,但客均消費上英國隻算中等水平。而海外市場中,愛爾蘭的客均消費表現十分搶眼——達到80000英鎊以上。達到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。

3. 分析小結

  • 從銷售總額來看:得力于本土優勢,英國的本土用戶貢獻了平台90%以上的銷售額;因為地理位置方便,英國随後的銷售額也主要來源于歐洲國家。
  • 從客均消費額來看:愛爾蘭表現搶眼,購買力極強,随後是表現優秀的荷蘭、新加坡、澳大利亞——這些國家都是高福利國家,客戶資金充沛,消費意願強烈。
  • 從大方向上來看:平台要關注歐洲市場尤其是本土市場的動向,緊跟市場動态。
  • 從客均購買力上來看,平台應與上述購買力強的客戶主動保持聯系,提供銷售經理專人服務或優惠政策等。在這些地區也可以适時地做一些宣傳推廣,多吸收優質客戶來提高海外市場的收益。
八、客戶分類

1. 生命周期

計算客戶從第一次消費到最後一次消費的天數,即為客戶的生命周期,其描述性統計信息和分布如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)17

電商數據分析組件(以英國某電商平台的年銷售數據為例)18

根據以上信息可以看出:至少有四分之一的客戶沒有留存,但也有四分之一的客戶生命周期達到8個月,兩極分化嚴重。

2. RFM模型客戶分類

Recency代表最近一次消費,Frequency代表消費頻次,Monetary代表消費金額。

這個用戶劃分模型十分經典,但具體的劃分準則往往不能很好的把握,在此用K-means聚類方法自動将客戶群體按RFM準則分為八大類,即如下圖所示:

電商數據分析組件(以英國某電商平台的年銷售數據為例)19

在聚類之前首先觀察F和M的關系,剔除掉明顯的離群值,在數據集中區域進行聚類,因此畫出F-M散點關系圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)20

可以看出:數據主要集中在左下角f<50和m<20000的區域,因此聚類模型所選擇的數據為此區域的數據。

在聚類時有必要結合業務知識手動設置初始中心,否則算法得出的結果偏差會比較大。

在此,選定數據集中估計的八個中心為初始中心點,對數據進行歸一化,多次調試後得出RFM模型聚類圖如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)21

其中每一種顔色代表一類用戶,方形數據标記代表每一類的數據中心。

上圖為聚類效果還不錯的一個調試後的模型,可以看到每類數據的中心分布在整個空間裡比較均勻,即:每一類的中心分别屬于三維空間坐标裡的每一個象限。——這是判斷一個RFM模型效果好壞的重要标準。

得出八類客戶的RFM均值如下:

電商數據分析組件(以英國某電商平台的年銷售數據為例)22

通過無監督學習算法K-means可以自動挖掘客戶數據之間的關系,劃分出客戶類型,比傳統的簡單均值法劃分更有依據。

但往往真實的客戶數據并不規整,需要結合業務知識手動調參,即使調試多次,模型也可能仍然不能完美适配,這時要根據經驗進行取舍。

模型建立完成後,再回去看離群值,發現離群值客戶通常都是對銷售額貢獻度很大的群體,所以一定不能忽略這類客戶群。

對于已經劃分好的客戶群體,對每一類采取不同的營銷策略,可以實現精準營銷,将本增益的效果。

九、分析總結

1)電商平台在2010年12月1日至2011年12月9日期間發生有效訂單19960筆,筆單價533.17英鎊,筆均購買商品279件,用戶群體以批發商為主。訂單交易額和商品數量的均值都超過Q3分位數,說明訂單差異大,存在購買力極強的客戶對銷售額做出了巨大貢獻。

2)客均購買商品1187件,客單價4338英鎊,均超過Q3分位數。但客戶群體中流失了至少25%的新客,客戶平均生命周期為130天,一半的客戶生命周期低于93天,25%的客戶生命周期超過250天。

客戶的生命周期分化嚴重,流失客戶和忠誠客戶都占到四分之一以上。平台可以把忠誠客戶維持的經驗應用到新客中,提高初次購買體驗來增加新客留存率。按客均消費計算,這部分新客留存帶來的收益可以增加約30%。

3)平台售賣的商品價格基本在20英鎊以内,且呈現價格越低銷量越高的趨勢。銷售量最多的産品是鬧鐘類的禮品,在5英鎊左右的商品出現萬級别的銷量。對于平台出售的2種特高價商品(6000英鎊以上)銷量僅為3件,且購買高價商品的客戶沒有留存,建議下架特高價商品以減少高價商品的運維成本。

4)基于本土優勢,90%以上的客戶來源與英國本土,其次是歐洲國家。但從客均消費來看:英國隻算中等水平,而海外市場中,愛爾蘭的客均消費表現十分搶眼,達到80000英鎊以上。

達到10000英鎊以上的國家還有荷蘭、新加坡和澳大利亞。對于這些購買力極強的海外客戶,應積極保持聯系,在該地區做宣傳推廣,獲取更多優質客戶;予以國際物流支持,增加優質客戶粘性。

5)根據RFM模型,建立了客戶分類标準,銷售情況符合二八定律:25%的客戶貢獻了80%的銷售額。因此建議用戶運營部門根據模型劃分結果,對客戶進行差異化運營和營銷,将資源更多地投入到重要客戶中去。

本文由 @歐泡Paul 原創發布于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved