失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > python与r语言处理excel数据_【R语言】批量读取Excel数据并合并(升级版)

python与r语言处理excel数据_【R语言】批量读取Excel数据并合并(升级版)

时间:2018-09-10 17:24:29

相关推荐

python与r语言处理excel数据_【R语言】批量读取Excel数据并合并(升级版)

我之前写过一篇批量读取Excel数据的,代码比较原始和啰嗦:张敬信:【Matlab/R语言】批量读入Excel文件​

近年来,R语言技术突飞猛进,再来一篇更简洁高级的。

批量读取并合并,道理很简单,总共分三步:

(1) 获取批量数据文件的路径

(2) 循环机制批量读取

(3) 合并成一个数据文件

强大的purrr包+管道,使得后两步可以同时做,或者一气呵成。

载入R包:

library(tidyverse)

library(readxl)

library(writexl)

以xlsx文件为例,如果是xls文件,改用read_xls()函数即可,或者不区分,直接用read_excel()也行。

将合并后的数据写出到 Excel :

write_xlsx(df, "新工作簿.xlsx") # 写出

一. 多个数据表列名相同

这是最常见的情形,读取+按行堆叠合并,即可得到总的数据表。再分两种情况讨论:数据在多个工作簿(即多个xlsx文件)

比如,在datas文件夹下有3个xlsx文件,每个文件的列名都是相同的:

files = list.files("datas/", pattern = "xlsx", full.names = TRUE)

df = map_dfr(files, read_xlsx) # 批量读取+按行堆叠合并

df

注1:数据文件名可以随便,不需要规律命名。

注2:数据文件甚至可以嵌套多层文件夹,只需要设置参数 recursive = TRUE.

2. 数据在一个工作簿的多个工作表(1个xlsx文件,包含多个sheet)

还是上述数据,只是都在 “1-3月提奖额.xlsx ”中:

path = "1-3月提奖额.xlsx"

df

~ read_xlsx(path, sheet = .x)) # 批量读取+按行堆叠合并

结果同上。

注:同样,各个sheet可以随便起名,不需要规律命名。

二. 多个数据表列名不同

都是同样的批量读取,但合并时不能只是简单的按行堆叠,而是需要做数据连接(join),得到总的数据表。也分两种情况讨论:数据在多个工作簿(即多个xlsx文件)

比如,datas 文件夹下有3个xlsx文件:

注意,3个数据表中的人名是有重复的,所以不能简单按行堆叠。

实际上,这是将所有信息都合并到一起,即做全连接。又因为是多表依次做连接,再结合 reduce() 就能实现。

files = list.files("datas/", pattern = "xlsx", full.names = TRUE)

df = map(files, read_xlsx) %>%

reduce(full_join, by = "人名") # 读入并依次做全连接

df

2. 数据在一个工作簿的多个工作表(1个xlsx文件,包含多个sheet)

还是上述数据,只是都在 “3-5月业绩.xlsx ”中:

path = "exercise/3-5月业绩.xlsx"

df

~ read_xlsx(path, sheet = .)) %>%

reduce(full_join, by = "人名") # 读入并依次做全连接

结果同上。

————————————

原创作品,转载请注明。

如果觉得《python与r语言处理excel数据_【R语言】批量读取Excel数据并合并(升级版)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。