失眠网 > 利用Python读取网络数据文件

利用Python读取网络数据文件

时间：2024-04-24 07:10:55

相关推荐

利用Python读取网络数据文件

场景

在实践机器学习算法过程中，有的数据源可以通过网络获取。于是，想利用Python代码直接加载到程序中，省去下载的操作。一方面是可能是由于懒，另一方面还可以秀一下“肌肉”，哈哈哈 …作为一名实在的假“程序猿”，手动下载资源如果被小弟们看到，太跌份儿不是！开发工具

Anaconda 2Python 3

描述

在贝叶斯分类器学习过程中，积累了问题。文章涵盖以下3方面内容：

通过 Python 代码实现网络数据的加载、保存等操作代码中相关方法、模块的具体使用机器学习过程中常用的数据集推荐实验数据集

pima-indians.data.csv

代码

# python 3import csvimport pandas as pdfrom io import StringIOfrom urllib import requesturl='https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data's = request.urlopen(url).read().decode('utf8') # 1 读取数据串dfile = StringIO(s)# 2 将字符串转换为 StringIO对象，使其具有文件属性 creader = csv.reader(dfile) # 3 将流转换为可迭代的 reader（csv row）dlists=[rw for rw in creader] # 4 其他转换、操作

数据效果

开放数据集

时间序列数据的网址

http://www.stat.wisc.edu/~reinsel/bjr-data/ 评分数据集

/基本数据描述：

包括以下三个数据集：

a. 943个用户对1682个电影的10万条评分b. 6040个用户对3900个电影的1百万条评分c. 71567个用户对10681个电影的1千万条评分Book-Crossing书籍评分数据

http://www.informatik.uni-freiburg.de/~cziegler/BX/

基数数据描述：

包含了278,858个用户对271,379本书籍的1,149,780条评分。该数据集由Cai-Nicolas Ziegler在8 - 9月用4周的时间从Book-Crossing社区用网络爬出。Jester笑话数据集笑话评分集合

http://www.ieor.berkeley.edu/~goldberg/jester-data/来自UC Berkeley的Ken Goldberg发布的一个推荐系统使用的数据集。包含关于100个笑话的73,496名用户评分的410万条连续评分。GPS轨迹数据

/en-us/downloads/b16d359d-d164-469e-9fd4-daa38f2b2e13/default.aspxGPS轨迹与运输模式标签

/apps/pubs/?id=141896Movebank动物轨迹

/手机WIFI蓝牙

http://crawdad.cs.dartmouth.edu/

手机和wifi的轨迹

【注】

后续有机会,统一整理数据集url.

参考

StringIO以及BytesIOPython StringIO.StringIO() 50 Examples.ModuleNotFoundError: No module named ‘cStringIO’从Python 3.0开始，StringIO和cStringIO模块已经取消CSV File Reading and Writing. Py2数据挖掘&机器学习及其他领域数据集汇总

如果觉得《利用Python读取网络数据文件》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。