前面的兩篇文章,簡單地分享了下關于數據分析這個工作所涉及到的崗位,流程和所用到的軟件。這篇文章給大家分享下有關于數據分析的幾個基本的知識點。當然,我分享的切入點還是以我的工作中所涉及到的主要内容為基礎,這些内容也是在數據分析這個大類中普遍需要知道的基本知識。今天先給大家介紹三個數據分析中的基本知識點。
SQL語言:
SQL的全稱是Structured Query Language,是數據分析中必須,一定要掌握的語言,除非你所在的公司數據量十分小,隻用Excel就能解決所有問題(當然這種公司也不少),實話實說這種公司應該也用不到數據分析崗位。而隻要一個公司數據量足夠大,需要數據庫,那SQL語句就是必須的,一定的。
還是想先從Structured說起,中文翻譯是結構化,什麼是結構化?用大白話說就是一個表格的第一行是各個列的名字,而剩下的所有行都是數值。舉個例子說明就是如下圖所示的表格就是一個結構化數據表格。
而下圖展示的是一個非結構化的數據表格:
在數據分析中所要處理的數據都是如第一個圖中所展示的結構化的數據表格。在實際工作中也确實會遇到數據源是非結構化的,且非結構化的數據格式也多種多樣。這就需要在存入數據庫前把非結構化的數據轉變成結構化的,方法因實際工作情況而定。
而SQL就是專門用在處理結構化表格的編程語言,盡管SQL的基本語法都大緻相同,但不同的公司或平台對于SQL又有不同的擴展,尤其對于一些函數(Function)來說,不同的平台所用到的Function還是不同的。在微軟的SQL Server中的SQL叫Transact-SQL或T-SQL,在Oracle Server中用到的SQL是PL-SQL,SAS中的SQL是SAS SQL等等。
數據類型(Data Type):
數據類型指的就是除去第一行每列的名字外,表格中的數值的類型,在我常用的軟件SAS中,就是把所有的數據歸為兩類,一類是數字型(numeric),一類是字符型(character)。拿上面的結構性表格為例,就是在姓名一列中,數值是“張三”,“李四”等等這些都是字符型,說白了就是這些數值是“文字”,如果數據中包括特殊符号如“ ”,“$”等都屬于字符型;而工資一列中的5000,5500等屬于數值型。
有兩點需要注意:第一個是一列隻能有一種數據類型;第二個是有的時候一列雖然顯示數字5000,5500等,但有可能是字符型數值,需要查看這一列的數據屬性。拿excel來舉例,很簡單的就是右擊,在格式(format cells)中查看數據類型。
Excel中的數據類型查看(英文版)
SAS對于數據類型的定義是非常簡單的,通常在别的平台中還有其他的數據類型,比如最常見的就是日期(在SAS中日期歸為數字型)。數據類型在數據分析中是十分重要的,因為涉及到了後面的數據的計算和公式的使用。
數據的提取,轉移和加載(ETL):
ETL,英文全稱Extracting, Transferring and Loading,通過字面意思也能大概了解,這個過程是數據的轉移,說的直白一點就是數據的“複制粘貼”。
雖然可以用“複制粘貼”來幫助理解,但ETL在數據分析中是一個無處不在的,甚至有時是十分巨大的工程,可以說存在在數據分析的方方面面,甚至在北美有很多的大公司中數據相關的崗位的主要工作内容就是ETL。
比如在數據庫的建立中,就有從原始數據(Raw File)中讀取數據并且存入數據庫,這個過程就是ETL。拿加拿大的銀行系統來舉例,客戶的信用評分數據就是從第三方的信用評級機構中來(加拿大的是Equifax和TransUnion),而第三方的評級機構通常都是通過CSV file給到銀行的,銀行這邊的數據庫管理者(Database Administrator)根據第三方給的格式錄入數據到數據庫。
再比如在數據使用階段,我們一般都是用不同的軟件去提取數據庫中的數據。在這個階段,一個是需要建立好和數據庫之間的連接;一個是就像上面所說,要注意數據類型在各個軟件或平台間的定義是否相同,當然現在很多的軟件都有自動轉換數據類型的功能。
另一個可能的場景就是數據庫的轉換。比如我們最近更換數據庫,把從Oracle Server中的數據轉移到SQL Server中來等等。而我知道的專門做ETL的一個工具就是SQL Server Integration Service(SSIS)。當然,市面上專門用來做ETL的工具還有很多,且每個數據分析相關的軟件中都有ETL接口。
上面所提到的三個概念隻是數據分析中的很小一部分,但也确實是數據分析中最基本的幾個概念,且每個概念中也包含了相當多的内容,比如SQL語句,以後也會分享SQL的語法格式。當然未來也會分享更多的數據分析相關的概念,以及相關的專有名詞,希望上面提到的這些能幫到大家。
圖自網絡,侵删。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!