失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > R语言科学计数法数据改变/丢失/失准 取消科学计数法的原因和解决方法

R语言科学计数法数据改变/丢失/失准 取消科学计数法的原因和解决方法

时间:2022-12-04 15:25:15

相关推荐

R语言科学计数法数据改变/丢失/失准 取消科学计数法的原因和解决方法

问题描述

如何在R中取消科学计数法 &

对R中使用科学技术法表示的数据“取消科学计数法”以后,得到的值和原来的值会不一样。

需求背景

分析留存数据时,数据库底表的字段是一个30位/两百位的字符串,比如0011111100000000000001,第一个0表示最近一天该用户没登陆,第三位的1表示3天前该用户登陆了,以此类推

底表的格式是字符串,但我下载格式是csv,csv自动把这个字段的格式改成数值型了(我也不知道为啥),所以我用R读取这个文件时,“0011111100000000000001“就变成了”11111100000000000001“,我需要在前面补0补满30位,具体操作可以看我另一篇文章:

R语言在数据前面补0/补1的方法

然而,补0的函数要求输入的格式是字符串,但我直接把原始数据转成字符串格式的话会发生下面这样尴尬的情况,比如原始数据是“11111111111111111111111111111111111”,那么R就会显示1.11+e30,然后转成character 类型以后就直接变成“1.11+e30”,补0以后就会是“000001.1111e+30”(类似这样,反正就是还有小数点和e等字样)

所以,我需要先取消科学计数法的表示,然后再转成字符串格式。

取消科学计数法的方法一

在读取或处理数据前使用options函数

#取消科学计数法options(scipen = 200)#scipen 表示在200位数字以内都不使用科学计数法

取消科学计数法的方法二

在读取或处理数据时使用format函数

#取消科学计数法format(data, scientific=F)# data即处理的数据字段

后续的bug

用上面的方法一或者二以后,确实不是科学计数法了,可得到的值和原来的值会不一样,如:

>a <-123456789987654321123456

>a

[1] 1.234568e+23

>format(a,scientific=F)

[1] “123456789987654325240268”

>format(a,scientific=F,digits=14)

[1] “123456789987654325240268”

>format(a,scientific=F,digits=7)

[1] “123456789987654325240268”

原因

对于很大的数(比如10^20量级),R的储存不会保留全部精度,而是保留部分精度(比如前15位),忽略剩余精度(比如后5位)

解决方法

(1)最好就是从源头解决问题,一开始拉取数据的时候就拉成文本格式,不要是数值格式,比如从SQL数据库里拉原始数据的时候就用SQL指令把那行很大的数改成文本格式。

(2)用其他软件如excel的导入数据功能,把原本数值格式的数据在导入时就改成文本格式,保存以后,再用R读写新文件

如果觉得《R语言科学计数法数据改变/丢失/失准 取消科学计数法的原因和解决方法》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。