從我們每個人的社交網絡、消費信息、運動軌迹……到企業的銷售運營數據、産品生産數據、交通網絡數據……數據正充斥着我們的生活。
如何從海量數據中獲取别人看不到的知識,如何用數據武裝營銷工作、優化産品、進行用戶研究、支持決策,數據分析,才能最大限度地發揮數據的價值呢?
知乎上的書單很多,你可能聽說過很多學習方法,但試過之後才知道這些跟效率無關。
數據分析師應該具備哪些技能
要明确學習路徑,最有效的方法是看具體的職業和工作所需的特定技能。
我們從拉勾中找到了一些最具代表性的數據分析師職位信息,看看高薪的數據分析師需要哪些技能。
其實數據分析師的基本功并沒有太大的區别,可以總結如下:
SQL數據庫基本操作、基本的數據管理可以使用 Excel/SQL 進行基本的數據分析和展示可以使用腳本語言進行數據分析,Python 或 R具備獲取外部數據的能力,例如爬蟲具備基本的數據可視化能力,能夠編寫數據報表熟悉常用的數據挖掘算法:回歸分析、決策樹、随機森林、支持向量機等。
尋找最适合的學習路徑
什麼是最有效的學習路徑?
你必須清楚的是你想要達到什麼?如果你想用數據分析方法來支持工作決策,那麼你可能需要知道數據分析的流程是什麼,通過數據分析方法可以得到什麼信息,這些信息可以用來支持什麼樣的工作。
然後你需要知道實現這個目标,需要哪些技能,哪些不需要學習。其實在這個過程中,你會對知識的框架有一個大緻的了解,并且知道如何避免無效信息。
更重要的是,你需要了解完成一個數據分析項目的基本流程是什麼。隻有這樣,你才能知道自己所學的知識是如何應用到具體工作中的,學完之後才能進行針對性的訓練,做到有的放矢。
數據分析工作流程
1、定義問題在進行具體分析之前,你需要确定問題是什麼?你想得出什麼結論?例如,某個區域的空氣質量變化趨勢如何?影響公司銷售增長的關鍵因素有哪些?生産過程中影響生産力和質量的核心指标有哪些?如何分析用戶畫像,進行精準營銷?如何根據曆史數據預測未來某個階段的用戶行為?問題的定義需要你了解業務的核心知識,并獲得一些可以幫助你進行分析的經驗。
2、數據采集如果有具體問題,則需要獲取相關數據。例如,如果要探索北京空氣質量變化趨勢,可能需要收集北京近年來的空氣質量數據、天氣數據,甚至工廠數據、氣體排放數據、重要時刻表數據等。
如果要分析影響公司銷售的關鍵因素,需要調用公司的曆史銷售數據、用戶畫像數據、廣告投放數據等。獲取數據的方法有很多。
一是公司的銷售和用戶數據。可以直接從企業數據庫調用,所以需要SQL技能才能完成數據提取等數據庫管理工作。比如你可以根據需要提取2017年所有的銷售數據,提取今年銷量最大的50個産品的數據,提取上海和廣東用戶的消費數據……SQL可以通過簡單的命令幫你完成這些任務。
二是獲取外部公開數據集。一些科研機構、企業、政府會對外開放一些數據。你需要到特定網站下載這些公共數據。
三是編寫網絡爬蟲。例如,您可以通過爬蟲獲取工作站點招聘信息,在租房網站上爬取某個城市的租房信息,獲取知乎點贊排名等。根據從互聯網上爬取的數據,可以分析某個行業,某個人群。這是一種非常可靠的市場研究和競争産品分析方法。
3、數據預處理原始數據可能存在很多問題,如數據不完整、數據重複、數據無效等。隻有把這些影響分析的數據處理好,才能得到更準确的分析結果。
比如空氣質量數據,有很多天因為設備沒有監測到的數據,有的數據被重複記錄,有的數據因設備故障而失效。
那麼我們就需要用相應的方法來處理,比如數據不完整,是直接去掉這個數據,還是用相鄰的值來補全,這些都是需要考慮的問題。
當然,我們也可能有數據分組、基本描述性統計量的計算、基本統計圖形的繪制、數據值的轉換、數據的正态化處理等,這些都可以幫助我們掌握數據的分布特征,是進一步了解數據的基礎。
4、數據分析與建模這部分需要了解基本的數據分析方法、數據挖掘算法,了解不同方法的适用場景和适用問題。分析應避免濫用和誤用統計分析方法。統計分析方法的濫用和誤用主要是由于該方法能解決什麼樣的問題、該方法的應用前提、該方法的數據要求等問題不明确。
例如,如果你發現在一定條件下,銷量和價格成正比,那麼你可以在此基礎上建立一個線性回歸模型,而你發現價格和廣告是非線性的,你可以先建立一個邏輯回歸模型進行分析。當然,你也可以學習一些數據挖掘算法和特征提取方法來優化你的模型,得到更好的結果。
5、數據可視化和數據報告撰寫
最直接的分析結果是統計量的描述和顯示。
例如,我們通過數據的分布發現數據分析師薪酬最高的5個城市,目前各種編程語言的流行排名,北京近年來空氣質量的變化趨勢,商品消費者的區域分布……這些都是我們通過簡單的數據分析和可視化就可以顯示結果。
其他則需要深入探索内部關系,例如影響産品質量最關鍵的幾個指标。你需要對不同指标與産品質量之間進行相關性分析,然後才能得出正确的結論。再比如,如果你需要預測未來某個時間段的産品銷量,你需要對曆史數據進行建模和分析,才能對未來的情況有更準确的預測。
數據分析報告不僅是分析結果的直接呈現,也是對相關情況的全面了解。所以你需要一個講故事的邏輯,如何從宏觀問題中得到令人信服的結果,且深入細緻到問題的各個方面。
你看,其實數據分析隻是幾步,實施起來并不難。所以最好的學習路徑是遵循解決問題的過程,一旦你了解了這個過程,然後逐步完成每個部分,你會發現這是一件特别容易上手的事情。
當然,如何尋找和篩選優質的學習資源,如何避免學習過程中的陷阱,如何解決問題……這些都是我們在學習過程中會遇到的問題。
不過不用擔心,CPDA數據分析師的課程就是遵循這條學習路徑的。是無數數據分析師的經驗,無數數據分析行業内的專家的總結,6天面授課 365天的遠程網課, 足以幫助你培養數據分析思維,建立數據分析體系,熟練運用到工作業務中。
為了滿足同學們的更多需求,我們還研發了《R語言快速入門》和《Power BI可視化》等等實用微課,你隻需要聯系我們,就可以深入學習數據分析。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!