tft每日頭條

 > 科技

 > 量化回測工具哪個好用

量化回測工具哪個好用

科技 更新时间:2024-07-03 14:56:02

量化回測工具哪個好用(問卷數據清洗與分析的幾點經驗)1

問卷調查作為最常用的社會研究方法之一,廣泛的應用到各個類型的用戶調研項目中。經曆了問卷設計這第一道關卡後,面對回收後的大量數據,你是否也有以下的困惑

  • 回收後的數據是真實的嗎?
  • 用什麼工具處理問卷數據最高效?
  • 如何分析和解讀問卷數據?

一.工具:該用什麼來處理數據?

其實進行基礎的描述性統計與交叉分析時,Excel和Spss這兩款工具都有相對應的功能可以實現,大家可以根據平時的使用習慣自行選擇。

在實際工作中,這兩個工具常結合起來使用。Spss的優勢在于,兩個視圖查看數據比較方便、可以撰寫語法來實現數據批量處理;Excel的優勢在于,圖表的可視化更豐富、更改圖表外觀非常便捷。因此,通常先使用Spss來進行數據清洗和分析,再導出到Excel中對圖表的格式進行編輯

二.清洗:如何對數據進行清洗?

線上問卷投放成本低、回收時效高,但由于難以監控用戶填答的過程,緻使問卷中常隐藏着一些不真實的數據,因此,回收問卷後的第一步,就是給數據做清洗以保證數據盡可能的真實有效。數據清洗包含三個方面,其一,規範數據視圖(主要針對Spss);其二,清理無效樣本。其三,對特殊題型進行處理。

1.數據視圖規範化

數據視圖規範化是一個經常被忽視的環節,雖然它不對數據結果産生直接的影響,但是前期對數據視圖做好規範化處理有利于減少後續數據分析、語法撰寫出現失誤的概率,也就是說,它是一個微小、但卻可以提升工作效率的步驟。那麼,如何對Spss的數據視圖進行規範化呢?

由于Spss中的變量視圖與數據視圖相關聯,因此隻需對變量視圖的11列逐一進行調整、規範化即可。具體參考步驟如下

  • 名稱:将名稱列與原始問卷中的編碼進行一一對照,檢查是否有誤
  • 類型:将類型列與原始問卷中的題型進行一一對照,選擇題需為數字、填空題需為字符串
  • 寬度:将同類題型變量取值所占有的寬度調成一緻以方便後續查看
  • 小數:根據題型進行調整,選擇題的小數需為零,填空題的小數依據題目具體分析
  • 标簽:将标簽調整成直觀易懂的描述;将名稱列合并到标簽列中以便後續查看
  • 值:将值列與原始問卷中的選項進行比較,檢查是否有誤
  • 缺失:邏輯跳轉題的“未選擇”會被計為零值,不利于後續的交叉分析;可對照原始問卷中的邏輯跳轉設置,将該跳轉題零值剔除(對于缺失值的處理,因問卷系統不同而有差異,此處以京東limesurvey為例)
  • 列:将同類題型的數據視圖中的列寬調成一緻以方便後續查看
  • 對齊:将數字類型右對齊、字符串類型左對齊
  • 測量:将定類變量設置成名義;将定序變量設置成有序;将定距定比變量設置成标度
  • 角色:一般系統默認為為輸入,代表自變量

量化回測工具哪個好用(問卷數據清洗與分析的幾點經驗)2

變量視圖規範化可參考此示意圖

2.清理無效樣本

清理無效樣本遵循兩個原則,從整體到部分、從一維到二維。

首先,對問卷樣本整體進行處理。

根據填答完整性處理

  • 首先需要剔除未完整填答必答題的樣本,即未完整填答問卷的樣本。其次,為尊重用戶隐私,我們會将一些敏感問題設置為非必答題,這時可以根據項目需求來決定是否需要剔除非必答題未完整填答的樣本

根據提交時間處理

  • 提交問卷的時間同樣重要,有時正式投放問卷前,調研員會對問卷進行測試填答,有時樣本填答問卷的日期超出了計劃日期,因此需要剔除問卷提交時間早于和晚于問卷投放時間的樣本

根據填答時間處理

  • 填答問卷時長過短或過多的樣本均被視為無效樣本,因此我們需要剔除少于最低填答時間(一般情況下,填答每道問題需要5秒,因此最低填答時間即為5秒*題目數量)和填答時間過長(一般情況下,問卷填答時間不超過30分鐘)的樣本

其次,對問卷各部分進行處理。

通常情況下,問卷設計會分為三部分。

  • 甄别部分:此部分會設置一些題目來甄别參與問卷調查的用戶是否為我們的目标樣本
  • 主體部分:此部分會根據項目的研究内容測量用戶行為、用戶态度
  • 屬性部分:此部分會獲取用戶的人口屬性(人口屬性(性别、年齡、婚姻、城市)、社會屬性(學曆、職位、個人月收入、家庭月收入)以便做用戶畫像

甄别部分處理

  • 剔除不符合甄别條件的樣本。根據項目需求,問卷中可能會設置一些甄别調研目标用戶的題目,如拟對使用過某産品的用戶進行問卷調查,那麼在問卷設計時則會用一道甄别題來詢問“您是否使用過該産品”,若該用戶選擇“否“,則需要剔除這類不符合甄别條件的樣本

主體部分處理

  • 剔除連續性回答樣本。連續性回答有兩種情況,其一,選擇同一選項過多:如該問卷有30道題,但某樣本選擇A選項有25道題,則将該樣本視為連續性回答樣本,需剔除;其二,填答呈現某種規律性:如某樣本在填答中呈現“A-B-A-B”或”A-B-C-D”等某種規律,則被視為規律性填答的樣本,需剔除
  • 剔除不符合固定填答邏輯的樣本。在問卷設計中,有一類題組前後兩道題(幾道題)有關聯的邏輯,如選擇前一道題A的人不能選擇後一道題的B,此時則需要剔除互斥題矛盾的樣本
  • 剔除未通過陷阱題的樣本。為了确認用戶是有在認真填答問卷,有時會在問卷主體部分穿插一道“常識題“,如”中國的首都是哪裡“,若用戶選擇非北京的城市,則會把該樣本剔除

屬性部分處理

  • 各個屬性題組的内部數據清理,剔除人口屬性、社會屬性、站内屬性三個屬性題組内部數據存在矛盾的樣本。如人口屬性内部(性别、年齡、婚姻、城市),年齡與婚姻可能存在矛盾,20歲以下的女子、22歲以下的男子婚姻狀态不能為已婚;社會屬性内部(學曆、職業、個人月收入、家庭月收入),個人月收入不能大于家庭月收入
  • 各個屬性題組間的數據清理,将人口屬性、社會屬性、站内屬性進行兩兩比較,剔除題組間數據存在矛盾的樣本。如人口屬性的年齡與學曆之間可能存在矛盾,小于18歲的群體一般情況下不會擁有本碩博學曆

各個部分間處理

  • 将問卷甄别部分、主體部分、屬性部分進行逐一比較,剔除各部分間數據存在矛盾的樣本。比較原則,将題目數量較少的部分與題目數量較多的部分進行比較。每一部分逐一比較雖然需要花費一定的時間,但為了确保樣本是真實有效的,這個步驟是必不可少的

3.對特殊題型進行處理

問卷中時有一些文本題,如選擇題中的“其他,請注明“選項或填空題。

在處理文本題時,有兩種情況,其一,回碼,即當文本題的填答内容可量化或與原始選項可合并時,需将文本題的填答内容轉置成可計算的數值,并删除文本題的填答内容。如某選擇題為“請問您使用過下列哪些網購平台“,即便選項中有”京東“,但用戶沒有注意到該選項,而是在”其他,請注明“選項中填寫了”京東“,此時就需要對該樣本的填答情況進行回碼,将之納入到京東選項下,并删除文本填答内容。

其二,重新編碼,若文本題的填答内容不可回碼,需要進行重新編碼,并記錄到編碼簿中。仍然以“請問您使用過下列哪些網購平台“這道題為例,若用戶在”其他,請注明“中填寫了未在既有選項中出現的答案,則需要對該答案進行重新編碼,并做記錄。

三.分析:如何對問卷數據進行基礎分析?

1. 常用問卷數據分析與解讀維度

問卷數據分析時,最常使用的分析方法為頻數分析、描述分析、交叉分析。

頻數分析

  • 總體頻數

拿到問卷數據後,首先可以将每道題各選項的頻數按降序排列,從而對數據分布趨勢有一個整體了解

數據解讀:了解用戶總體的行為、态度偏好

  • 分組頻數

除觀察各選項的總體分布趨勢外,也可将具有相似特征的選項進行合并分組分析,從而獲得更宏觀維度上的數據解讀。以商品關注要素題目為例,浏覽商品時關注的這11個要素可按降序排列,我們可以發現,用戶最關注品牌,其次為參數信息,對店鋪的關注最弱。但有時,我們不需要這麼細緻的分析維度,此時可以把這11個要素分組為商品層面和平台層面,來觀察用戶更關注哪個層面,将各選項百分比加總後可以得出結論,浏覽商品時,較平台層面,用戶對商品層面更為關注。同時,還可以對每個維度内的選項進行降序排列,從中可以得知,商品層面中,用戶對品牌的關注最強,對新品的關注最弱

數據解讀:了解不同維度上的用戶行為、态度偏好

量化回測工具哪個好用(問卷數據清洗與分析的幾點經驗)3

頻數分析可參考此示意圖

②描述性分析

常用于計算數值型的單變量統計量,主要包括以下三種類型的統計量。

  • 描述集中趨勢的統計量

常用的統計量有均值、中位數、衆數、百分位數

  • 描述離散程度的統計量

常用的統計量有樣本方差、樣本标準差、均值标準差、極差、離散系數

  • 描述分布形态的統計量

常用的統計量有偏度和峰度

數據解讀:了解用戶行為、态度(數值型變量)的基本特征和整體分布形态,同時可為後續做更複雜的分析與建模做鋪墊

③交叉分析

适用于對兩個及兩個以上變量之間的關系進行分析,從而得出更為立體的調研結論。

  • 用戶屬性、用戶行為、用戶态度做交叉

如可以将用戶屬性進行拆分來觀測不同用戶屬性的數據分布與總體的差異,關注顯著高于和低于總體的數據。以商品關注要素題目為例,總體樣本中71.6%的用戶在浏覽商品時關注品牌,其中81.4%男性關注品牌、61.8%的女性關注品牌,數據間有顯著差異,則需要關注品牌在用戶性别上的差異,并做出标記。當用戶屬性為定序變量時,可看行變量是否随着用戶屬性的升序或降序呈現出某種趨勢,如随着年齡的遞增,用戶越關注商品品牌。需要注意的是,當行變量在用戶屬性上的數據差異較大時,應對照用戶屬性的樣本量進行檢驗,若樣本量少于30,數據差異的誤差可能較大

數據解讀:了解用戶屬性、行為、态度間的關系

量化回測工具哪個好用(問卷數據清洗與分析的幾點經驗)4

交叉分析解讀可參考此示意圖

除上述提到的基本統計外,還可以應用聚類分析、相關分析、回歸分析等對問卷進行深入分析。

2.數據格式規範化

數據格式規範化有助于快速的查找數據,也能讓合作項目的小夥伴清晰的了解到問卷數據的産出,提升工作效率。使用何種格式來規範數據沒有固定的模闆,這裡可以提供一些參考。

标記樣本量

  • 這一步驟是必須且重要的,問卷中的每道問題總填答人數、每個選項的填答人數都需要逐一進行标注

形成列聯表

  • 一般情況下,将問卷題目與選項置入到行變量中,将樣本屬性(如細分人群)的變量置入到列變量中,以方便查看

根據題組拆分sheet

  • 将反映不同研究内容的題組數據置于Excel不同的sheet中,以便後續能夠快速查找

量化回測工具哪個好用(問卷數據清洗與分析的幾點經驗)5

數據格式規範化可參考此示意圖

中科易研以十餘年行業積累為基礎,結合互聯網大數據技術,秉承“數據、信息、知識、智慧”的方法論,堅持“用數據說話、用數據決策、用數據管理、用數據創新”的理念,以自主研發獲得國家發明專利的易研問卷平台和易研大數據雲平台為依托,專注于為教育科研機構、政府企事業單位提供基于數據采集、數據清洗、數據檢索、數據管理、數據分析和可視化、數據資源整合等全流程數據服務,并為用戶提供大數據雲平台搭建服務。

以上就是回收問卷後,從清洗到分析的一些經驗,有需要的小夥伴們趕緊用起來吧!

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved