大数据和数据科学
定义
对多种不同类型的数据进行收集(大数据)和分析(数据科学、分析、可视化),以此来为在分析的初始阶段未知的问题找到答案
目标
发现数据和业务的联系支持将数据源迭代集成到企业中发现和分析可能影响到业务的因素利用可视化技术,以恰当的、可靠的且合乎道德规范的方式来发布数据大数据特征(6个V)
数据量大(Volume)数据更新快(Velocity)数据类型多样/可变(Variety)数据黏度大(Viscosity)数据波动性大(Volatility)数据准确性低(Veracity)信息收敛三角
业务驱动因素
期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大的业务驱动力
数据科学依赖
丰富的数据源信息组织和分析信息交付展示发现和数据洞察数据科学过程阶段
定义大数据战略和业务需求选择数据源获得和接收数据源制定数据假设和方法集成和调整进行数据分析使用模型探索数据部署和监控DW&BI&大数据架构
数据湖
数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据环境,可供多种场景使用。
数据湖可能很快变成数据沼泽,在数据被摄取时要对元数据进行管理。
数据科学家可以挖掘和分析数据的环境原始数据的集中存储区域,只需很少量的转换数据仓库明细历史数据的备用存储区域信息记录的在线归档可以提供过自动化的模型识别提取流数据的环境大多数据仓库都依赖于 ETL,大数据解决方案,如数据湖,则依赖于 ELT。
基于服务的体系结构
批处理层加速层服务层机器学习
监督学习:基于通用规则无监督学习:基于找到的那些隐藏的规律(数据挖掘)强化学习:基于目标的实现机器学习探索了学习算法的构建和研究,是无监督学习和监督学习方法的结合
数据和文本挖掘技术
剖析数据缩减关联聚类自组织映射活动
定义大数据战略和业务需求
组织试图解决什么问题,需要分析什么要使用或获取的数据源是什么提供数据的及时性和范围对其他数据结构的影响以及与其他数据结构的相关性对现有建模数据的影响选择数据源
数据源头数据格式数据元素代表什么如何连接其他数据数据的更新频率获得和接收数据源
制定数据假设和方法
集成和调整数据进行分析
使用模型探索数据
填充预测模型训练模型评估模型创建数据可视化部署和监控
提供洞察和发现使用附加数据源迭代工具
MPP (大规模并行处理)的武功县数据库技术基于分布式文件的数据库 Hadoop数据库内算法大数据云解决方案统计计算和图形语言数据可视化工具集实施指南
战略一致性就绪评估风险评估组织和文化变迁战略交付成果应考虑管理以下要素
信息生命周期元数据数据质量数据采集数据访问和安全性数据治理数据隐私学习和采用运营度量指标
技术使用指标加载和扫描指标。提取率和与用户社区的交互学习和故事场景如果觉得《DAMA数据治理学习笔记-大数据和数据科学》对你有帮助,请点赞、收藏,并留下你的观点哦!