tft每日頭條

 > 科技

 > r語言數據分析與實戰

r語言數據分析與實戰

科技 更新时间:2024-12-19 01:10:31

對于統計學專業的學生,對于R軟件的使用并不陌生,堪稱數理統計軟件的标配,R軟件也可以做數據處理和數據分析,雖說職場工作對于R軟件使用不多,但是R軟件絕對是科研人數據分析的最愛。

本文主要講解獲取數據後,如何對于數據的整體情況做預覽,包括數據導入、數據表查看、數據導出等功能,下面一起來學習。

示例工具:R x64 3.5.3、RStudio

本文講解内容:數據概覽

适用範圍:數據導入、導出、概覽

r語言數據分析與實戰(從零開始學R數據分析)1

R軟件讀取數據文件,這裡主要介紹三種文件的讀取,分别是文本文件讀取、csv文件讀取、xlsx文件讀取。

一、數據讀取與生成

1.純文本文件

讀純文本文件使用的是read.table()函數,read.table()函數的參數如下所示。

read.table(file,header=FALSE,sep="",quote="\"'",row.names,col.names,nrows=-1,skip=0,encoding="unknown",text,skipNul=FALSE)

file是讀入數據的文件名,header=TRUE表示所讀數據的第一行為變量名,sep是數據分隔的字符,row.names, col.names對于行名和列名可以指定命名,skip表示讀數據時跳過的行數,使用ead.table()函數導入文本數據如下所示,指定分隔符為逗号,第一行作為變量名。

df <- read.table("C:\\Users\\尚天強\\Desktop\\R數據集\\data.txt",sep = ",",header=TRUE) df

r語言數據分析與實戰(從零開始學R數據分析)2

2.CSV文件

讀CSV文件跟讀文本文件的參數一樣,參數如下所示。

read.csv(file,header=TRUE,sep=",",quote="\"",dec=".",fill=TRUE,comment.char="")

這裡直接使用read.csv讀取,默認是逗号分隔這裡可以不寫。

df1 <- read.csv("C:\\Users\\尚天強\\Desktop\\R數據集\\data.csv") df1

r語言數據分析與實戰(從零開始學R數據分析)3

3.XLSX文件

R讀取Excel數據,需要安裝readxl包,安裝完成才能加載使用。

#安裝包 install.packages("readxl") #進行加載包 library(readxl)

安裝完成readxl包後,使用read_excel命令即可導入數據。

df2=read_excel("C:\\Users\\尚天強\\Desktop\\R數據集\\data.xlsx") df2

r語言數據分析與實戰(從零開始學R數據分析)4

4.生成數據表

生成數據表使用data.frame命令,與之前pandas生成數據表類似,生成的數據表如下。

#手動創建數據表 data<-data.frame(ID=c("c001","c002","c003","c004","c005","c006","c007","c008","c009","c0010"), NAME=c("Rmesh","Khilan","Kaushik","Chaitali","Hardik","Komal","Tom","Muffy","Susan","Kevin"), AGE=c(23,20,23,25,27,24,26,31,26,30), ADDRESS=c("Ahmed","Delhi","Kota","Mumbai","Bhopal","MP-A","MP-B","Indore","JP-No.1","JP-No.2"), SAL=c(2000,1500,2000,NA,8500,NA,5500,9500,NA,900))

r語言數據分析與實戰(從零開始學R數據分析)5

二、數據概覽

1.數據維度

#查看數據維度 dim(data)

數據的維度為10行5列。

r語言數據分析與實戰(從零開始學R數據分析)6

2.查看數據表

#查看數據表 fix(data)

調用fix函數,會出現交互模式,對于其中的一些數據和變量名進行修改,使用起來跟EXCEL一樣方便。

r語言數據分析與實戰(從零開始學R數據分析)7

3.查看特定列的格式

使用typeof函數查看數據格式,其中ID、NAME、ADDRESS為字符類型,AGE、SAL為數值類型。

typeof(data$ID) typeof(data$NAME) typeof(data$AGE) typeof(data$ADDRESS) typeof(data$SAL)

r語言數據分析與實戰(從零開始學R數據分析)8

4.查看空值

Is.na函數用于檢查R中的空值,當返回的結果為True時,說明數據有空值,返回的結果為False時,說明數據沒有空值,以下可以看到數據有3個空值。

#查看空值 is.na(data)

r語言數據分析與實戰(從零開始學R數據分析)9

查看具體某一列是否有空值,可以單獨索引那一列,然後使用Is.na函數。

#查看單列的空值 is.na(data$SAL)

r語言數據分析與實戰(從零開始學R數據分析)10

計算某一列有幾個空值,可以先判斷是否為空值,然後使用length函數計算其個數,聽過計算可以得出SAL列有3個空值。

#判斷并計算某一列有幾個空值 length(data$SAL[is.na(data$SAL)==TRUE])

r語言數據分析與實戰(從零開始學R數據分析)11

5.查看唯一值

unique()函數用于查看數據表的唯一值,功能與EXCEL中去除重複值的功能一緻。

#查看數據表的唯一值(删除重複值) unique(data)

r語言數據分析與實戰(從零開始學R數據分析)12

對于單列去除重複值,可以将那一列索引出來,然後使用unique()函數去除重複值。

#查看數據表中SAL列的唯一值 unique(data$SAL)

r語言數據分析與實戰(從零開始學R數據分析)13

6.查看數據表數值

R中有多個函數用來查看數據表中的數據,包括數據的範圍、數據的極值等,下面的代碼用于查看數據範圍與極值的範圍。

#查看數據範圍 range(data$AGE) #查找最小值 min(data$AGE) #查看最小值最在的行位置 which.min(data$AGE) #查找最大值 max(data$AGE) #查看最大值所在的行位置 which.max(data$AGE)

r語言數據分析與實戰(從零開始學R數據分析)14

7.查看列名稱

names()函數查看數據表中的列名稱。

names(data)

r語言數據分析與實戰(從零開始學R數據分析)15

8.數據預覽

head()函數用來查看數據表中的前N行數據,默認顯示前10行數據,可以自己設置參數n的值來确定查看的行數。

#查看前5行 head(data,n = 5)

r語言數據分析與實戰(從零開始學R數據分析)16

tail函數與head()函數相反,用來查看數據表中後N行的數據,默認顯示後10行數據,可以自己設置參數n的值來确定查看的行數。

#查看後3行 tail(data,n=3)

r語言數據分析與實戰(從零開始學R數據分析)17

三、數據導出

1.導出為csv文件

#輸出到csv格式文件 write.csv(x = data,file = "C:\\Users\\尚天強\\Desktop\\out_table.csv",row.names = FALSE)

r語言數據分析與實戰(從零開始學R數據分析)18

2.導出為txt文件

#輸出到txt格式文件 write.table(x=data,file = "C:\\Users\\尚天強\\Desktop\\out_txt.txt",sep = ",",row.names = FALSE)

r語言數據分析與實戰(從零開始學R數據分析)19

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved