對于統計學專業的學生,對于R軟件的使用并不陌生,堪稱數理統計軟件的标配,R軟件也可以做數據處理和數據分析,雖說職場工作對于R軟件使用不多,但是R軟件絕對是科研人數據分析的最愛。
本文主要講解獲取數據後,如何對于數據的整體情況做預覽,包括數據導入、數據表查看、數據導出等功能,下面一起來學習。
示例工具:R x64 3.5.3、RStudio
本文講解内容:數據概覽
适用範圍:數據導入、導出、概覽
R軟件讀取數據文件,這裡主要介紹三種文件的讀取,分别是文本文件讀取、csv文件讀取、xlsx文件讀取。
一、數據讀取與生成
1.純文本文件
讀純文本文件使用的是read.table()函數,read.table()函數的參數如下所示。
read.table(file,header=FALSE,sep="",quote="\"'",row.names,col.names,nrows=-1,skip=0,encoding="unknown",text,skipNul=FALSE)
file是讀入數據的文件名,header=TRUE表示所讀數據的第一行為變量名,sep是數據分隔的字符,row.names, col.names對于行名和列名可以指定命名,skip表示讀數據時跳過的行數,使用ead.table()函數導入文本數據如下所示,指定分隔符為逗号,第一行作為變量名。
df <- read.table("C:\\Users\\尚天強\\Desktop\\R數據集\\data.txt",sep = ",",header=TRUE)
df
2.CSV文件
讀CSV文件跟讀文本文件的參數一樣,參數如下所示。
read.csv(file,header=TRUE,sep=",",quote="\"",dec=".",fill=TRUE,comment.char="")
這裡直接使用read.csv讀取,默認是逗号分隔這裡可以不寫。
df1 <- read.csv("C:\\Users\\尚天強\\Desktop\\R數據集\\data.csv")
df1
3.XLSX文件
R讀取Excel數據,需要安裝readxl包,安裝完成才能加載使用。
#安裝包
install.packages("readxl")
#進行加載包
library(readxl)
安裝完成readxl包後,使用read_excel命令即可導入數據。
df2=read_excel("C:\\Users\\尚天強\\Desktop\\R數據集\\data.xlsx")
df2
4.生成數據表
生成數據表使用data.frame命令,與之前pandas生成數據表類似,生成的數據表如下。
#手動創建數據表
data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c0010"),
NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"),
AGE=c(23,20,23,25,27,24,26,31,26,30),
ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"),
SAL=c(2000,1500,2000,NA,8500,NA,5500,9500,NA,900))
二、數據概覽
1.數據維度
#查看數據維度
dim(data)
數據的維度為10行5列。
2.查看數據表
#查看數據表
fix(data)
調用fix函數,會出現交互模式,對于其中的一些數據和變量名進行修改,使用起來跟EXCEL一樣方便。
3.查看特定列的格式
使用typeof函數查看數據格式,其中ID、NAME、ADDRESS為字符類型,AGE、SAL為數值類型。
typeof(data$ID)
typeof(data$NAME)
typeof(data$AGE)
typeof(data$ADDRESS)
typeof(data$SAL)
4.查看空值
Is.na函數用于檢查R中的空值,當返回的結果為True時,說明數據有空值,返回的結果為False時,說明數據沒有空值,以下可以看到數據有3個空值。
#查看空值
is.na(data)
查看具體某一列是否有空值,可以單獨索引那一列,然後使用Is.na函數。
#查看單列的空值
is.na(data$SAL)
計算某一列有幾個空值,可以先判斷是否為空值,然後使用length函數計算其個數,聽過計算可以得出SAL列有3個空值。
#判斷并計算某一列有幾個空值
length(data$SAL[is.na(data$SAL)==TRUE])
5.查看唯一值
unique()函數用于查看數據表的唯一值,功能與EXCEL中去除重複值的功能一緻。
#查看數據表的唯一值(删除重複值)
unique(data)
對于單列去除重複值,可以将那一列索引出來,然後使用unique()函數去除重複值。
#查看數據表中SAL列的唯一值
unique(data$SAL)
6.查看數據表數值
R中有多個函數用來查看數據表中的數據,包括數據的範圍、數據的極值等,下面的代碼用于查看數據範圍與極值的範圍。
#查看數據範圍
range(data$AGE)
#查找最小值
min(data$AGE)
#查看最小值最在的行位置
which.min(data$AGE)
#查找最大值
max(data$AGE)
#查看最大值所在的行位置
which.max(data$AGE)
7.查看列名稱
names()函數查看數據表中的列名稱。
names(data)
8.數據預覽
head()函數用來查看數據表中的前N行數據,默認顯示前10行數據,可以自己設置參數n的值來确定查看的行數。
#查看前5行
head(data,n = 5)
tail函數與head()函數相反,用來查看數據表中後N行的數據,默認顯示後10行數據,可以自己設置參數n的值來确定查看的行數。
#查看後3行
tail(data,n=3)
三、數據導出
1.導出為csv文件
#輸出到csv格式文件
write.csv(x = data,file = "C:\\Users\\尚天強\\Desktop\\out_table.csv",row.names = FALSE)
2.導出為txt文件
#輸出到txt格式文件
write.table(x=data,file = "C:\\Users\\尚天強\\Desktop\\out_txt.txt",sep = ",",row.names = FALSE)
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!