一般産品經理需要懂到數據庫,但數據産品經理不僅要懂得數據庫還要懂到數據倉庫!
本篇講解産品經理為什麼要懂數據倉庫?數據産品經理如何構建數據倉庫?構建數據倉庫以後如何利用數據倉庫賦能産品業務?最後講解數據倉庫産品的未來是什麼樣子?
一、為什麼要懂數據倉庫?
産品經理都知道做出能用的小程序幾千幾萬塊都可以做出來,做個能用的APP幾萬幾十萬也可以做出來,但是一個能用的數據倉庫産品或者有點商務智能的數據倉庫産品則至少要花費千萬級。
動則花費數千萬的數據倉庫産品,它有什麼作用呢?
最簡單的數據倉庫是用于存儲和報告數據的系統。數據通常源自多個系統,然後将其移入數據倉庫以進行長期存儲和分析。該存儲的結構使得組織内的許多部門或部門的用戶可以根據他們的需要訪問和分析數據。
數據倉庫産品功能結構圖如下:
從上圖可見,數據倉庫包含來自許多操作源的數據有APP應用的數據,也有Oracle的數據。經過數倉以後的結構它可用于分析數據,例如制作用戶畫像标簽,推薦系統等。數據倉庫不僅是分析工具,同時支持跨多個部門的用戶的決策和報告。也是檔案,包含未在操作系統中維護的曆史數據。
小結:産品經理為啥要懂數據倉庫呢?
二、數據産品經理構建數據倉庫産品的步驟是什麼?
- 因為需要我們産品經曆設計的用戶畫像産品,推薦系統産品,自助報表産品,及其他可視化産品可以通過數據倉庫産品和模型更方便的讀取。
- 随着數據量從GB到TB再到PB甚至到EB、ZB的增大,如果不構建穩定幹淨能夠快速可以利用的數據倉庫,對任何企業來說都是資産的損失。
- 也許以後所以的産品經理都會成為數據産品經理,而對數據産品經理來說其核心技能是主導設計更加優秀的數據倉庫産品。
筆者LineLian總結從0到1構建數據倉庫模型産品為以下3步。
第一步:定位數倉需求
本處筆者以構建買菜類産品的數據倉庫為例概述以點帶面分析數據倉庫的産品業務需求。
随着永輝買菜、叮咚買菜、盒馬先生、多點生鮮、美團/餓了麼買菜等對生鮮電商的沖擊,想突出買菜生鮮類産品的競争生存線,誰能擁有用戶的數據,更懂用戶的數據,更快速的為用戶送達所需要的鮮菜品,誰家的産品就能占領用戶心智。
故此決定構建以用戶購買訂單為核心主題的數據倉庫先行建立起來,日後再逐步豐富數據倉庫的主題庫。
對先構建的訂單主題數據倉庫需求的各個功能拆解如下圖:
對于賣菜生鮮類數倉需求來說,需要支持提供用戶商品的需求的提早預判,及關聯商品的實時推薦,配送人員的實時調度,物流的實時配送,支持用戶的洞察用戶畫像,以及報表展示和各種決策支持。
為便于理解,先從上圖以訂單為主題的數據倉庫構建開始數倉需求分析。
小結:生鮮買菜類産品的數據倉庫用戶訂單需求分析如下:
- 用戶購買生鮮數采的通常日期是什麼?
- 用戶買菜的時間段是什麼?
- 什麼樣類别的菜品銷售最好?
- 哪類菜品的銷量,銷售額大?
- 什麼樣的用戶傾向購買什麼樣的菜品?
- 菜品的購買與客戶的地理位置有什麼關系?
- 什麼供應商的菜品用戶更喜歡?
- 對于供應商,銷售靠前的10種生鮮菜品是什麼?
- 交易用,菜品訂單的狀态是什麼樣的?
第二步:多維數倉建模
我們都知道,一條用戶訪問的信息,可以看做一條日志數據,這條數據包含用戶的訪問路線,比如是從網址來,還是從第三方渠道跳轉過來。還可以看出下單後選擇的支付方式是銀行卡還是支付寶微信等。
那麼為了及時的向用戶推薦商品實現訂單銷量的增加,我們采用什麼樣的模型呢?筆者經常用戶的構建數倉産品的模型是多維建模的方式。
全面合理的設計用戶維有助于準确的分析用戶的行為。用戶維的模型需要使用一些維來描述屬性層次,例如用戶的注冊日期,時間需要通過日期維和時間維來詳細描述,用戶的居住地址需要通過地理維來進一步描述。
從上一步的用戶訂單需求分析,再此建立用戶的訂單多層次維度模型如下圖所示:
小結:構建數倉多維模型時,鑒于數倉是個複雜的産品,裡面需要涉及多個事實表和共享維表,同時維表中的某個屬性指向另外的維度。因此采用星型模型或者雪花模型來顯示一個事實表與多張維表的清晰對應關系。
第三步:數倉數據預處理模型
這一步是倉庫中集成了幾乎企業所有的可以獲取到的數據以用于數據分析和決策支持。這些進入到數據倉庫中的數據一般有三種,結構化數據、半結構數據和非結構化數據,它們經過轉化後以某種形式統一的存儲在數據倉庫中,即需要ETL。
那麼對于半結構化數據和非結構化數據,我們需要再數倉構建過程中準備好适合的算法模型來處理存入數倉之前的數據。
例如構建識别URL的算法模型:
- 首先,數據預處理,從原始日志中提取數據信息存儲到日志表中,計算當天頁面停留的時間,設算法如下:先計算訪問頁面的順序,訪問的時刻,最終結算出頁面的停留時間基數值。
- 其次,要計算每個頁面的停留時間,根據不同的URL類型計算影響因子,設計一套算法模型。最終算出接近現實的頁面會話内容。
小結:在構建數據倉庫的概略3步中,産品經理核心是輸出需求分析内容,和構建以需求業務為主題的具體分析及對應的維度。
三、如何利用數倉賦能産品業務?數倉幾乎用于企業的所有數據,譬如銷售數據、用戶數據、頁面浏覽數據等,想以數倉來驅動業務發展,從而實現增長,才僅僅是搭建了第一步,剩下的是如何利用這些數據。
利用數據,就要引入數據分析的概念,數據分析就是對數倉積累多年的海量數據,進行挖掘分析,找出數據之間隐藏的關系以及邏輯,并以分析結論制定相應合理的決策,從而促進産品業務的增長。
那要怎樣進行數據分析?如果要進行數據分析。
數據分析的工作一般流程有六個,分别是業務需求理解,數據對應業務理解,數據準備,建模,評估,部署。這就是數據分析工作的流程。
當然,數據分析對數據質量的要求非常高,而且對數據的理解也必須深刻。
所以說,要想理解數據就需要很長時間。而數據倉庫的優點就是能夠高效、快速地進行數據理解和處理,所以說利用數據倉庫進行數據分析無疑能夠給我們産品經理的工作帶來很大便利。
利用數倉做數據分析的産品步驟是如下:
第一,數據分析要求理解數據背後對應的每條業務主題。
數據倉庫本身是面向主題的,例如上文中我們以用戶訂單為主題構建數據倉庫。所以其自身與業務結合就相對緊密和完善,更方便數據産品經理基于數據理解業務。需要做的就是拿到業務或者運營需求,理解數據倉庫的模型,進而就理解了數據對應的業務。
第二,數據分析要求有較高的數據質量。
很難想象沒有準确的源數據質量,例如,用戶的手機号是錯的,那麼再好的推薦模型也将無法發揮作用,二數據倉庫的數據是經過ETL層層從不同的數據庫裡進行清洗轉換過的穩定的數據,以及對髒數據的清洗,這就為數據分析的數據質量做了較好的保障。
第三,高效的跨系統數據查詢,數倉的數據經過ETL過程後流入數據倉庫,當不同系統數據整合到數據倉庫之後,能夠解決兩個問題,第一就是跨系統數據收集問題,第二就就是跨系統關聯問題。
第四,構建數據倉庫産品的功能時,也已經搭建了數據分析的算法和模型,例如上文中的對非結構數據的算法模型。
四、數據倉庫産品的未來是什麼樣子?再美好的事物不學習,不叠代也會落伍,而數據倉庫相反,數據倉庫一直在發展之中,其前世今生曆程如下圖:
故此筆者LineLian根據多年産品經理和處理數據分析的實踐經曆發現,未來的數據倉庫基礎上一定能夠長出數據平台和智能數據中台,具體數據平台怎麼搭建和智能數據中台怎麼搭建,下次再撰寫。
總結:本篇通過講解最貴的産品之一數據倉庫的重要性,然後分析拆解數據産品經理如何搭建數據倉庫産品的流程,最後講解産品工作中如何利用數據倉庫。
#專欄作家#
連詩路,公衆号:LineLian。人人都是産品經理專欄作家,《産品進化論:AI 時代産品經理的思維方法》一書作者,前阿裡産品專家,希望與創業者多多交流。
本文原創發布于人人都是産品經理。未經許可,禁止轉載。
題圖來自Unsplash, 基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!