編輯導語:數據,對于任何平台或者企業來說,都很重要。無論是想要做出一些營銷決策還是調整新産品的發布策略,數據的收集和分析都是必經的一環。對于醫藥O2O電商平台來說,得到權威而又準确的數據,尤其是藥品和病症之間的關系數據源,顯得尤為重要。
本文複盤一次藥學服務數據購買的案例,呈現當時的處理方式和遇到的問題。
該“買數據”案例,發生在做醫藥O2O電商平台,藥品這一特殊的電商商品,其“健康屬性”,可以作為附加值提供的載體。如,賣藥的同時附加提供健康服務,以藥學服務拉近“人貨場”的溫度,打造線上線下産業化新零售生态。
藥學附加服務,無論是用藥指導、尋醫問藥,還是患者畫像之類的,前提都是要有藥品-病症之間的關系數據源。
這個數據即要權威準确,又要通俗易懂,兼顧科學化和網絡大衆化。市場上單純的醫藥數據,或單純的藥品商品數據,都不難獲得。難獲得的是,針對醫藥電商人群和故事場景下的醫藥健康的資料。
本案例涉及到的内容清單:
一、前期需求分析
1. 分析需求
基于項目規劃,将本次藥學服務的需求場景,歸納如下:
這就要求,數據中起碼涉及這些字段:用法用量、功能主治、适用人群、禁忌不良反應、服藥周期、治療的疾病、疾病的症狀、疾病說明等。結合業務場景,可以勾勒出這樣的簡單的關系圖:
2. 确定核心要素
根據以上需求,我們可以得知 “藥”、“病”、“症” 三者最為核心,關系如下:
且三者為多對多關系,如下:
3. 評估數據量級
常規藥品的數量,達到6萬種(SKU)。
藥品基本都是單規格的(不同含量視為不同規格,不同含量不同的申報,業内視為不同的商品),因此大約要準備接近這個數字的藥品資料,才能保證覆蓋面。
總結:至此,從需求要素、核心内容、需求數據量範圍,描繪了拟獲取數據的輪廓,作為尋找數據源的驗收标準或參考。
二、調研獲取數據的途徑我們的目标數據,是客觀标準的基礎數據,不是運營産生的數據。因此權威性、客觀性最重要,那麼如何獲取呢?
1. 假如自己維護?
請專人、找到藥盒、翻閱藥品說明書、錄入、再翻閱醫藥詞典類數據、對應整理疾病信息……平均一天一人最多搞定100條,算下來6萬就要很久。
顯然來不及且成本不菲,并且沒有驗證的數據也不敢用,這條途徑pass。
2. 爬别人的數據
藥品信息在藥監局官網比較權威,但是上面沒有疾病方面的,甚至連條形碼都找不到(備注:條形碼,國内就是69碼,唯一标識商品,13位、12位或8位數字組成)。
爬取其他網站,也曾嘗試的,結果不是不準确、不齊全,就是不成功,這條路也走不通。
3. 購買數據
購買數據比起爬數據要正規些,咨詢了京東阿裡和騰訊丁香,人家都不賣。這些公司是要自己做數據服務的,也不差這點錢。
咨詢了藥房網、135網,沒疾病方便的可靠數據,這時候業内人事推薦了一個叫“YA”的公司,在做藥學服務,就決定深入商談。
三、拿到樣本數據經過洽談,對方提供的是一批EXCEL格式的樣本數據。大概的表有14個表格,數據拿到之後,進行初步驗收。
1. 比對E-R模型
他們的數據是mongdb存儲的,首次抽離出來數據來賣,所以數據在表結構和表數量上有冗餘。通過其表結構,繪制出E-R圖,基本與需求符合。
2. 競品橫向對比
在檢查樣本數據的過程中,也在做替代方案的對比。
制定檢驗要點是:單表數據的錯誤率、聯表查詢的匹配率、市場數據的覆蓋率、錯誤修複時效等。從網站或App尋找同類産品,但都有各種問題,最終還是舍棄了其他選項。
3. 遠程全量檢查數據
在未付款情況下,對方不提供全量數據。
由于樣本有限,為了進一步了解數據,協商采取遠程查數據庫。對方在數據庫中進行了單表驗證和聯表查詢操作,我方遠程觀看,并記錄檢查結果。
遠程的操作畢竟是不便,隻交叉抽樣驗證了部分數據,當時估計出的準确率是93%——這也是決定繼續洽談的主要參數。
四、付首款并拿到全量數據接下來的流程是談價格,價格談好就可以打包出售數據。
我方壓價的論點主要是:疾病方面的數據不到一萬條,買回後仍需補充的人工成本;非獨家買斷,可以複制銷售,賣家邊際成本很低,内容質量不高。
口頭說的是由執業藥師團隊和藥師專業、中國非處方藥物協會藥師進行審核。但是并拿不出證據,最終得到了折扣,拟定了全量數據驗收的合同。
當時的合同内容比較簡單,草稿截圖如下:
合同簽署後,拿到了全量數據。
雙方約定一周的時間進行數據驗收,驗收無誤則支付尾款。因為數據的敏感性,由專人以郵件壓縮包文檔的方式接收。然後存入堡壘機中,其他參與驗收人員通過堡壘機進行檢驗。
1. 研究數據的質量
檢查數據的合理性:也就是數據在邏輯機構上的是否有缺陷。
數據的關聯度:采取的是手動在EXCEL上比對,并導入數據庫後程序員SQL查詢相結合的方式。基于對基礎數據的了解,制定了檢查方案,局部如下圖:
2. 檢查數據的權威性
這一點需要專業藥師或藥學人員參與,我們采用的是抽樣調查的辦法,比對的标杆是藥典的權威資料,考察的對象比如“阿苯達唑”的服用時間、用藥禁忌等。
3. 數據的覆蓋率
采用的辦法是,指定20個常用藥物(比如對乙酰氨基酚),看是會否能查到全套的資料,得到的結論是數據并不理想。
比如:用條形碼匹配已有的商品,發現有1579個找不到,占比20.87%;再用這1579個的通用名查找,仍有147個仍找不到,即絕對找不到的比例1.9%。
4. 數據的冗餘性
很多表都是從MongDB轉化過來的,所以表之間的結構不合理。最終14個表,也就有7個表是有用的,其餘的多是過度表(初步驗收時候雖然也發現了)。
5. 雙方交涉
其實大家看得出,全量數據的檢測結果不理想。
主要發生在,表結構不合理;數據存在錯誤、一些名詞在各表中的表述不一緻等。但是這個時期,合同的約定并不利于買方,因此隻能繼續往前。
我們在一周内輸出了問題清單,摳合同字眼,尋找有利的機會,然後責令對方将數據清洗後重新交接。
五、數據購買後的應用規劃在經曆5次數據交付後,雙方法務協商一緻,進行了價格的調整,最終完成了交易。
如果把驗收當做一次項目,那麼雖然項目做的不太漂亮,但是數據還是有價值的,是可用用的。
數據拿到了,技術層面進行應用規劃:第一步,元數據檢查和清洗,将14個表,抽離成整潔的新表;第二步,指定底層服務邏輯,以作為數據中台,供應用端接口調用。
比如:
第三步:對接具體業務場景,輸出具體方案(此處略)。
六、總結1. 本次數據購買主要涉及三方面
- 産品角度的需求锲合度;
- 醫藥專業角度的數據權威性;
- 法務層面的合同約定項:其中後兩點都沒做太好,尤其是法務方面,這導緻了全量數據拿到之後的進退兩難。
但是項目自身也存在局限性和難度:比如數據量大,很難發現細節問題;缺少标杆,自行推敲隻能抽樣調查的方式;數據的價格方面沒有固定的标準,難以拿捏。
2. 數據購買帶來的經驗教訓
- 自身對數據的需求範圍和目标明确;
- 了解賣家,和賣家數據的影響力;
- 應當在購買之前,應該了解還有誰買過或者用過,調查口碑;
- 在于對方接洽之前,準備充分的行業和技術方面的驗證标準和計劃;
- 制定基本的項目步驟,比如:前置研究、評估成本、購買談判、後置約束;
- 在拿到全量數據之前,應當充分采取遠程調查的手段,挖掘對方數據的漏或者不足,以作為合同約定和議價的前提;
- 在合同簽署中,更多約定對“隔皮斷貨”的風險的鑒定标準和賣方的責任。這個份文檔一定要提供給行業專家、法務,以便将來拿到真實數據之後,可進可退;
- 合同中要約定驗收過程問題的處理辦法,驗收成本誰來負責,驗收不通過的最大次數等。
#專欄作家#
唧唧歪歪PM,公衆号:唧唧歪歪PM(ID:jjyypm),人人都是産品經理專欄作家,2019年年度作者。《後端産品經理寶典》作者,藥學碩士轉行互聯網産品多年;熟悉跨境電商業務,醫藥領域;擅長大型後台體系,社交APP。
本文原創發布于人人都是産品經理,未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!