失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > java获取word书签表格数据_Python读取word文档里面的表格数据

java获取word书签表格数据_Python读取word文档里面的表格数据

时间:2022-12-12 06:05:08

相关推荐

java获取word书签表格数据_Python读取word文档里面的表格数据

更多精彩,请点击上方蓝字关注我们!

我们常见的办公数据通常可以分为结构化数据与非结构化数据,比如常见的word, ppt, excel。前两者存储的是非结构化数据,excel存储的是结构化数据。从事数据统计或分析的工作或多或少都会从excel获取结构化数据。让结构化数据变为非结构化数据,较为容易。但是让非结构化数据变为结构化数据相对较难,数据科学其实大部分前期工作都是让非结构化数据变为结构化数据。我们来看看如何将word文档的表格数据转化为excel数据。如有word表格数据

读取word文档,读取所有表格数据

这里获取第8个表格数据

获取变量名

['model', 'TP', 'TN', 'FP', 'FN', 'Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'Kappa', 'MCC', 'F1 score']

获取表格内结构化数据

转化为数据集:

源代码:

# -*- coding: utf-8 -*-"""@author: weineng.zhou"""from docx import Document import numpy as npimport pandas as pdfilename = "D:/mydocx.docx"document = Document(filename) tables = document.tables table = tables[7]# 获取变量名varname = []for i in range(len(table.columns)):varname.append(table.cell(0,i).text)print(varname)# 获取表格数据data = []for i in range(1,len(table.rows)): for j in range(len(table.columns)): data.append(table.cell(i,j).text)# list to 1D arrayarr1 = np.array(data)# 2D arrayarr2 = arr1.reshape(len(table.rows)-1,len(table.columns))# 2D array to 2D datasetdf=pd.DataFrame(arr2)# 给数据集赋予变量名df.columns=varname# 导出数据df.to_excel('D:/myexcel.xlsx',index=False)

运用此种方法,当我们遇到很多word当中的表格数据,难以做统计分析的时候,我们可以运用次种方法变为我们想要的数据结构,然后进行分析。

END

碧茂课堂精彩课程推荐:

1.Cloudera数据分析课;

2.Spark和Hadoop开发员培训;

3.大数据机器学习之推荐系统;

4.Python数据分析与机器学习实战;

详情请关注我们公众号:碧茂大数据-课程产品-碧茂课堂

现在注册互动得海量学币,大量精品课程免费送!

关注最新行业动态,

加群进行技术交流!

如果觉得《java获取word书签表格数据_Python读取word文档里面的表格数据》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。