主要步骤
1.全局概览
2.收集数据
3.探索数据,可视化数据获取洞见
4.为机器学习算法准备数据
5.选择模型并训练模型
6.调优模型
7.展示解决方案
8.上线,监控并维护系统
用真实数据做机器学习
学习机器学习时,用真实的数据集要比用模拟的数据要更加具有吸引力。幸运的是,有成千上万的开发数据集可供我们使用,下面列出几个选择:
UCI机器学习仓库 http://archive.ics.uci.edu/ml/Kaggle数据集 /datasets亚马逊AWS数据集 /fr/datasets/
数据集索引:
/http://opendatamonitor.eu//https://goo.gl/SJHN2k 维基http://goo.gl/zDR78y Quora/r/datasets Reddit
这些数据都非常有学习实践价值,所以不要低估了这些数据的价值。最好是把这些数据用起来,能够极大提升机器学习的实战能力。
全局概览
这里选用的是加州房价数据。
我们要建立的模型需要能够从数据中学习并预测任意区域的房价中位数,在给定其他特征的情况下。
确定问题
到底目标是什么,可能构建一个模型并不是最终目标呢?这个模型能够给我们带来什么?确定问题很重要,它是指导我们整个机器学习后续流程的关键。
管道
To Be Continued.
参考:
《Hands-On Machine Learning with Scikit-Learning and Tensorflow》
如果觉得《【机器学习】端到端机器学习实践》对你有帮助,请点赞、收藏,并留下你的观点哦!