互联网电商大数据环境
——数据分析实践培训精华笔记(一)
工作内容
项目:DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析
数据:流量数据/交易数据B2C/会员与活动数据/物流与配送数据/内部财务数据
数据产品举例:淘宝数据魔方/腾讯用户画像/京东罗盘/客户标签
工作事宜
平台工作:系统不好用/上线/工具开发/权限控制/开发监控程序/报错
数据开发:抽取和装载日志数据和源系统数据/开发宽表模型/数据开发需
求/业务咨询/数据开发需求/大促等临时提取数据/数据异常
电商项目生命周期
提出需求-需求文档-讨论可行性-初步数据来源-需求调研-初步方案-时间预算-PMO跟进项目-整体排期-测试日期-数据质量测试排期-制定详细实现方案-mapping文档-方案建表-开发ETL-ETL单元测试-调度平台-详细mapping提测-ETL逻辑上到测试环境-跑批-根据mapping写SQL测试ETL逻辑-质量测试-上线
hadoop应用
1. 数据仓库、商业智能(阿里、腾讯系、百度、京东、新浪)
2.互联网广告计算Yahoo
3.站内搜索引擎项目 Ebay, 支付宝
4.内容推荐引擎人人,优酷,新浪
5.病毒分析/垃圾邮件识别 Yahoo,360
6.云计算百度,亚马逊
7.其他
商业智能与数据仓库基础
背景一:
操作层数据特点是细节化、分散化、个案化
决策型数据特点是集成化、综合化、汇总化
背景二:
企业对应用集成的需求{实习监控运转情况、决策支持未来发展、预测}
企业对当前应用系统的要求{支持中远期决策,全局信息实时监控与决策}
现行应用系统的弊端{数据分散、数据不兼容、系统应用孤立}
BI
商业智能:利用数据提高决策质量。业务-数据-数据价值(报表或图-可任意快速旋转组合)
BI智能:BI产生的数据集合像
BI技术:ETL/DW/OLAP/DM
BI效益:集成并分析历史或实时数据,将数据升华为执行力
(1) 洞察力:高层分析(战略目标)、中层分析(绩效战术)、一线分析(有效行动)
(2) 协同一致:供应商-各部门-客户
DW
先构建数仓才能提供BI应用。而数仓建设以现有企业业务系统和大量业务数据的积累为基础。
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。
1.聚焦决策者的数据建模与分析,排除对决策无用的数据
2.集成异种数据源,数据一致性(关系数据库+一般文件+联机事务处理记录)
3.相对稳定:数据仓库的数据只添加罕更新保证数据稳定。通常需要三种数据访问:数据初始化装入、数据的添加和数据查询访问。
4.反映历史变化。操作型数据库主要关心当前某时间段内数据。而数仓数据包含历史信息,可通过发展历程和未来趋势做定量分析。
数据仓库不是静态概念,只有把信息及时交给需要这些信息的使用者供其做出改善业务经营的决策,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策者,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
如果觉得《互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门》对你有帮助,请点赞、收藏,并留下你的观点哦!