失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 机器学习笔记2:数据建模全流程

机器学习笔记2:数据建模全流程

时间:2024-06-07 23:15:15

相关推荐

机器学习笔记2:数据建模全流程

数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:

我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:

商业理解

即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。

以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的操作步骤:

1.数据源导入

可以将不同格式的数据源导入建模,常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库,这几种方式都能将数据导入建模工具,并且导入的数据量级可以达到10万以上,100万也木有问题,基本能满足所有建模数据要求。

导入数据操作步骤:

1)打开 KNIME,点击顶部file—new新建一个作业,点击左侧IO->XLS Reader(或其他数据源图标),将图标拖拽至建模区,如图所示:

2)右键双击XLS Reader图标,Browse本地数据源,点击确定。

execute运行之后,数据就成功导入KNIME系统,这时候可以通过Hilite table 节点查看导入的数据,如图所示:

2.数据处理

数据处理包括数据填充,数据标准化,数据转化和数据编码,即对原始数据进行数据噪音去除,字段类型转化,字段赋值和过滤等,主要目的是为最后的建模提供优质可信的训练数据集,尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一,此部分占据整个模型工作量的60%以上。

(2)One to Many: 将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1,否则为0,简单来说就是将一行数据转化为值为1或0的矩阵。

(3)String Manipulation:字符串操作,删除一列的前导和尾随空格,或者一列衍生新值。

(5)Color Manager:给指定字段标识颜色,一般是目标字段标颜色,便于查看结果。

(6)Domain Calculator:更新数据的域值,通过限制数据于值的百分比来删除离散数据(最大值域或最小值域)。

通过以上节点可以处理基本的数据清洗和整理工作,可以建立简单的模型了,更高级的数据处理节点以后介绍。

3.数据建模

模型选择和模型评估

(1)数据分区

将数据分为训练数据和测试数据两个部分,选择节点Partitioning,可以对分区方式进行设置,示例:相对50%分区,使用随机种子。

算法参考:/passball/article/details/7661887/

(2)Naive Bayes

(3)kNN

(4)Logistic

参考文档:/jerrylead/archive//03/13/1982639.html

(5)Decision Tree

(6)Neural Network

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

4模型优化和改进

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果觉得《机器学习笔记2:数据建模全流程》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。