失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

时间:2020-10-16 09:38:15

相关推荐

数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记

数据仓库与数据挖掘的OLAP技术

1.数据仓库

Ø概念:数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.

Ø关键特征:

v面向主题:围绕一些主题;关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理(这是数据库的任务)。排除对于决策无用的数据,提供特定主题的简明视图。

v数据集成:由异种数据源(关系数据库,一般文件,联机事务处理记录)集成构成的;使用数据清理和数据集成技术。

v随时间而变化:数据仓库的时间范围比操作数据库要长的多,每一个关键结构都隐式或显式地包含时间元素。

v数据不易丢失:数据是只读的(除了初始转载),不需要事务处理,恢复,和并发控制。

Ø建立数据仓库

数据集成,数据清理和数据统一

对于异种数据库的集成,传统的数据库做法:包装程序和集成程序--》查询驱动

数据仓库做法:异种源的信息预先集成--》更新驱动

Ø操作数据库系统(OLTP)与数据数据仓库(OLAP)的区别

Ø数据仓库的存在价值

v提高两个系统的性能:操作数据库是为已知的任务和负载设计的,数据仓库涉及大量数据在汇总级的计算,在操作数据库上处理OLAP查询,可能大大降低操作人物的性能。

v系统中数据的结构,内容和用法都不相同:操作数据库只维护详细的原始数据,而数据仓库将一种源的数据统一,产生高质量的,纯净的和集成的数据用于决策

2.多维数据模型

Ø基本概念:

v数据方:允许以多维数据建模和观察,由维和事实定义

v维:记录的视角或视点,每个维都有一个表与之相关联,称为维表。

v事实表:包括事实的名称或度量以及每个相关维表的关键字。

Ø数据库模式:

v星型模型:一个大的事实表+一组小的维表

v雪花模型:对星型模型的维表进行规范化,减少冗余

v事实星座:多个事实表共享维表

Ø数据集市

数据仓库搜集了关于整个组织的主题信息,是企业范围的,采用事实星座模式

数据集市是数据仓库的一个部门子集,针对选定主题,是部门范围的,采用星型模式

Ø数据挖掘查询语言(DMQL)

v原语定义:

立方体定义(事实表)

definecube<cube_name>[<dimension_list>]:

<measure_list>

维定义(维表)

definedimension<dimension_name>as(<attribute_or_subdimension_list>)

v实例(图2.6事实星座模式用DMQL定义)

Ø度量

v概念:数据方的度量是一个数值函数,该函数可以对数据方的每一个点求值,通过对给定的各维-值对聚集数据,计算该店的度量值。

v分类

²分布的:将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。如,count(),min(),max(),sum()

²代数的:能够由一个具有M个参数的代数函数计算,而每个参数都可以用一个分布聚集函数求得。如,avg(),max()

²整体的:不存在一个具有M个(其中,M是常数)参数的代数函数进行这一计算。如,rank(),median()

Ø概念分层

定义一个映射序列,将底层概念到更一般的高层概念

v模式分层

v集合分组分层

ØOLAP操作

v上卷:沿概念分层向上攀升,或维规约

v下钻:沿概念分层向下,或引入新的维

v切片和切换:在给定的数据方的一个维进行选择,导致一个子方

v转轴(旋转):转动数据的视角,提供数据的替代表示

3.数据仓库的系统结构

Ø三层数据仓库结构:

顶层:客户(查询/报告工具,分析工具,数据挖掘工具)

中间层:OLAP服务器(ROLAP,MOLAP)

底层:数据仓库服务器

Ø数据仓库模型

v企业仓库:收集关于主题的所有信息,跨越整个组织

v数据集市:数据集市包含企业范围数据的一个子集,范围限于选定主题

v虚拟仓库:操作数据库在视图上的集合

ØOLAP服务器类型

vROLAP:中间服务器,介于关系后端服务器和用户前端工具之间,使用关系或拓充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。

vMOLAP:基于数组的多维存储引擎,支持数据的多维视图,将多维视图直接映射到数据方数组结构,

vHOLAP:较大的可规模性的ROLAP+快速运算的MOLAP

v特殊的SQL服务器

4.数据仓库的实现

Ø数据方的有效计算

v一个n维数据方的方体,

若每个维都没有分层,则方体总数为:2^n

若每个维不止一层,则方体总数是

v部分物化:方体选择计算

v多路数组聚集(例2.12)

Ø索引OLAP数据

位图索引,连接索引,复合连接索引

Ø元数据

v数据仓库存储的描述:仓库模式,视图,维,层次结构,导出数据的定义等

v操作元数据

v数据仓库结构

v汇总用的算法

v由操作环境到数据仓库的映射

v关于系统性能的数据

v商务元数据

Ø数据仓库后端工具和实用数据

v数据提取

v数据清理

v数据变换

v装入

v刷新

5.数据方技术的进一步发展

Ø发现驱动的探查

预计算的度量指出数据例外,在所有的聚集级指导用户的数据分析过程,我们称这种度量为例外指示符。例外是一个数据方单元值,基于某种统计模型,它显著地不同于预计值。

6.由数据仓库到数据挖掘

Ø数据仓库的运用:

v信息处理:基本查询和基本的统计分析

v分析处理:支持基本的OLAP操作

v数据挖掘:找出隐藏的模式和关联,构造分析模型,进行分类和预测

Ø数据挖掘,信息处理,联机数据分析

v信息处理基于查询,可以发现有用的信息,直接反映存放在数据库中的信息,或通过聚集函数可计算的信息;

vOLAP是数据汇总,聚集工具,帮助简化数据分析;

v数据挖掘是自动发现隐藏在大量数据中的隐含模式和有趣只是。

如果觉得《数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。