tft每日頭條

 > 科技

 > 數據采集的兩個必要步驟

數據采集的兩個必要步驟

科技 更新时间:2024-11-28 06:45:43

編輯導讀:随着“數智化”時代的到來,我們生活中的方方面面都離不開數據,而你真的了解數據嗎?本文将為你重新解讀數據的概念和價值,以及數據的價值是如何在“數智化”時代下一步一步得到運用與升華的;因内容頗多,筆者将分幾期為大家進行講解。

數據采集的兩個必要步驟(這篇文章把數據講透了)1

一、前言

上一期文章中,我們已經了解到“數據”是一個龐大的體系(如下圖所示)這篇文章把數據講透了(一):數據來源;并用了菜市場的例子,為大家講解數據來源的含義;而今天小陳主要給大家到了指定“菜市場”後,我們怎樣“買菜”,即數據采集的過程。

數據采集的兩個必要步驟(這篇文章把數據講透了)2

二、數據采集(買菜)

首先,我們先對數據采集的方式進行一個簡單的分類介紹,後面分别介紹每一種數據采集形式需要注意的要點。

數據采集的兩個必要步驟(這篇文章把數據講透了)3

1. 按數據采集方式

線下(問卷、實地調研)——注意要點:遵循5大要素!

5個要素:

1)緊緊圍繞研究主題和目的

評價一份問卷調查優劣程度的準則中很重要的一點就是,問卷内容是否貼合研究主題,就算一份問卷設計得再精妙,如果與主題無關,也是毫無價值的,因為我們開展問卷調查的本質目的也是調查相關要素和調研群體背後千絲萬縷的聯系。

例如,調查用戶滿意度,一般涉及到産品本身(價格、包裝等)和受衆特點(年齡、地域、心理滿足等)兩個維度。

2)題目易讀、易理解、且具有一般性

問卷分發後,是需要受衆進行填寫的,所以問卷的易理解程度也最終決定者問卷的質量。

問卷并不是學術論文,不需要為了彰顯專業素養而涉及很多專業、晦澀難懂的詞彙,讓調查者能夠真的看懂才是關鍵。

而一般性則指的是這個問題的設置是否對所有受衆都具普遍意義。例如,調查居民出行方式的問卷中,你認為最安全的交通工具是,A火車 B飛機 C寶馬小轎車 D電動車,我們可以看到C選項不具有普遍意義,且和A、B、D不是一個維度的選項。

3)充分考慮被調者特點

在使用問卷調查方式時,要充分結合被調群體的特色,來進行問卷的設置;例如針對學齡前兒童和老年人,則不宜采取書面問卷調研的形式,要充分考慮到他們的語言偏好(有些老人可能普通話不标準,但方言流利)、對内容的理解能力,再派出訪談調研小組進行調研。

4)充分考慮問題排序(循序漸進)

問卷問題的設置除了考慮每個問題的規範性、合理性外,還需要考慮到問題與問題之間的邏輯性和連貫性,避免時間、空間、人稱等維度的頻繁跳躍。

5)充分考慮統計便利性

除了考慮問卷調查的受衆外,問卷設置還需要充分考慮後期問卷回收後的統計分析;盡可能減少後期工作壓力,變量不宜設置太多,應該用盡量少的變量高效獲取标簽信息,幫助後期研究定性。

線上(按數據采集端口細分為APP端和網頁端)

APP端(主)——數據埋點獲得相關數據:

首先,先和大家科普一下,數據埋點到底是什麼?以及APP端為何要特别重視數據埋點。

其實,所謂埋點就是在用戶使用APP的過程中,對他們的一系列行為數據進行收集,以優化産品和運營;而大多APP自帶服務和盈利性質(如淘寶、得到等),那麼想要實現轉化,引導購買就需要将“點”埋到具體的交互組件上(例如,點擊跳轉鍊接、購買按鈕等),然後對PV、UV;停留時間、跳出率、購買率等指标進行量化。

就埋點的形式而言,主要分為以下三種:

代碼埋點:控件操作發生時通過預先寫好的代碼來發送數據,目前百度統計、友盟都提供這一服務。

下面舉一個例子,例如,我們想統計淘寶APP裡面加入購物車這個按鈕的點擊次數,則在其被點擊時,可以在這個按鈕對應的 OnClick 函數裡面調用SDK提供的數據發送接口來發送數據。

優點:控制發送數據時間,事件自定義屬性詳細記錄;缺點:時間、人力成本大,數據傳輸的時效性。

可視化埋點:利用可視化交互手段,通過可視化界面配置控件操作與事件操作發生關系,通過後台截屏的方式采集數據;例如,當用戶産生多次刷新這一行動時,結合大數據算法,推算出用戶的喜好并切換推送内容、産品,再通過可視化埋點,自動切換到對應的個性化推薦内容頁面。

數據采集的兩個必要步驟(這篇文章把數據講透了)4

優點:成本低,速度快,産品、市場等各部門均能參與;缺點:行為記錄信息少,支持的分析方式少,減輕開發負擔。

無埋點:用戶展現UI界面元素時,平台會通過控件綁定觸發事件,事件被觸發的時候系統會有相應的接口讓開發者處理這些行為;上傳UI界面後,系統能夠自動識别生成控件的唯一ID,ID是在程序内部生成,隻需保證在不同的手機上面這些ID是一樣的,就能實現用戶端的無埋點數據獲取。

數據采集的兩個必要步驟(這篇文章把數據講透了)5

優點:無需埋點,方便快捷;缺點:行為記錄信息少,傳輸壓力大。

網頁端——網頁爬蟲(python,C…):

就具體語法而言,因為使用工具不同,并不能就具體語法提供指導(大家根據自己使用的語言,在CSDN上進行搜索),但其總體方法論是一緻的。

方法論:人工确定爬取信息的維度→分析目标網站URL構成→确認爬取工具→編寫程序語言→獲取數據→保存于本地→後續進行數據挖掘。

三、結語

本期,筆者通過一個“買菜”的例子,帶着大家了解了數據采集的幾種方式,相信大家有所收獲!

下期,筆者講在數據采集的基礎上,為大家講解如何利用常用工具進行數據清洗和數據清洗的幾個維度!

本文由 @小陳同學ing. 原創發布于人人都是産品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基于CC0協議。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved