失眠网 > 数据分析用Python的Pandas模块读写Excel数据及一些实用的变换排序筛选清洗列

数据分析用Python的Pandas模块读写Excel数据及一些实用的变换排序筛选清洗列

时间：2020-08-09 03:01:17

为了学习Pandas的用法，在网上查了很多帖子，但大部分帖子都是搬运工，不是太简单就是太复杂，不直观，似乎得是行家才行，而且没有讲到有实际意义的时候，就已经断片儿了，在这里分享一些完全是自己的数字+亲测，同时从范围上达到有一定的应用价值，不仅仅只讲一个点。

dishwasher_jobs.xlsx 这是例子数据，下载请用下面链接：

链接：/s/1MBb0Xq51K_927zjz6Lg52g

提取码：lo7l

如何安装python，这一步推荐廖雪峰的网站：安装Python，有文字和视频教程，很详细；这方面也有不少坑，要看各位运气，在此给几个相关的术语：PyCharm，Jupyter Notebook(小白首选)，Anaconda(windows第一次安装很方便)，这些都是Python的开发环境，至于哪个更好用需要各位自己决定。我在Windows上运气欠佳，最后选择在Linux上安装了Jupyter Notebook，出错的情况最少，目前使用的环境是 Debian9 + Python3.5 + Jupyter Notebook。

import pandas as pdfrom pandas import DataFramedf=pd.read_excel('dishwasher_jobs.xlsx') #全部读入df

一共有7列和390行数据，但发布时间(黄色)有两种格式，这个格式可以在Excel里控制，请看下图：

Excel表里的两种格式会直接影响到Python里的可读性。

下面的例子是通过加入列编号筛选usecols=[0,1,2,3]来限制读入的信息，这对很宽的表意义重大，现实中有很多表有50-60列，大部分字段是针对系统的。

如果你的EXCEL表里有更多花样可以看这篇分享，内容丰富。

df=pd.read_excel('dishwasher_jobs.xlsx',usecols=[0,1,2,3])df

pd显示有很多很多变化，更多关于显示细节可以看这篇分享或PANDAS手册。

用下面的命令可以更改表里“列”的次序

pd.DataFrame(df, columns=[ '薪资', '工作地点','职位','公司名称'])

单例排序->“工作地点”

df=pd.read_excel('dishwasher_jobs.xlsx')df.sort_values(by="工作地点",ascending=False)

根据“备注”排序

df.sort_values(by="备注",ascending=False)

双列排序

df.sort_values(by=["工作地点","薪资"],ascending=False)

根据序号排序

df.sort_index(ascending=False)

显示工作地点在->广州-黄埔区，整个字段单选！

10月更新：显示工作地点在->广州-黄埔区，*整个字段单选！用这个命令更正规一些，用于更多的命令组合时不容易出错：

df.loc[df[‘工作地点’] == ‘广州-黄埔区’]

更复杂一点的工作地点筛选：整个字段多选！

职位描述里包含“包吃住”，截取字段内容！

更多关于字符函数可以看分享。

另外我在原来数据了人工加入了一些“垃圾”字符作为例子，在做两个数据清洗的简单案例：

有“垃圾”字符的地方用红点标出了

用下面的命令就可以清除那些“垃圾”字符。

这个功能是非常有用的，不光可以清除“垃圾”，还可以用去除“固定”的词汇，有时可以帮很大的忙！

import rebad_chars = ['?', '!', ',', ';', "'", '|', '-', ' ', '(', ')','[', ']', '[]', '{', '}', ':', '&', '\\n']df['职位'] = df['职位'].str.replace('|'.join([re.escape(s) for s in bad_chars]), '')df

下面是清理过的结果

下面的例子是把中文括号->西文括号，这是一个更简单和直观的替换方法，可以以此类推根据你的需要替换。

df['职位']=df['职位'].str.replace('（','(') df['职位']=df['职位'].str.replace('）',')')df

统计功能

data=df.groupby(['工作地点']).size() #分组统计data

字段的拆分/切片

例子中的薪资99.99%是这样的格式：

3-4.5千/月

4-5万/年

3.5-4.5千/月

0.8-1万/月

如果想进一步分析，就需要拆分，51job招聘网站有非常多的爬网及分析例子，我所看到都用类似if循环函数写处理过程，有些分享写得非常漂亮，但Code却无法用，所以在此分享效率非常高，非常炫的两个Pandas功能，先将3-4.5千/月拆分成四个字段“薪资最低”，“薪资最高”，“千/万”，“月/年”