数据仓库技术与联机分析处理 Data Warehouse &ampamp; OLAP.ppt-得力文库

资源描述

《数据仓库技术与联机分析处理 Data Warehouse &ampamp; OLAP.ppt》由会员分享，可在线阅读，更多相关《数据仓库技术与联机分析处理 Data Warehouse &ampamp; OLAP.ppt（143页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第二讲数据仓库技术与联机分析处理,Data Warehousing & OLAP,本章主要内容,1.多数据源问题2.数据预处理问题3.数据仓库的定义及其理解数据的粒度数据的分割数据组织形式数据追加4.数据仓库的模型概念/逻辑/物理模型5.联机分析技术(OLAP)6.数据库的设计与开发,1.多数据源问题,数据不一致：一处变了而另一处没变数据属性差异：男女（0,1）（T,F）数据重复:冗余数据不完整：存在空值噪声数据：偏差或误差高维数据：数据的多属性模式不统一：集成为单一数据集的2个或多个数据源模式不同。数据不平衡：某一类样本的数量明显少于其他类型样本的数量,数据质量的多维度量,多维度量观点：精确

2、度完整度一致性可信度附加价值可访问性跟数据本身的含义相关的内在的、上下文的、表象的,2.数据预处理,数据清理填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示，它小得多，但可以得到相同或相近的结果数据离散化数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要,数据预处理的形式,数据规约,数据集成,数据清洗,数据变换,-2, 32, 100, 59, 48-0.02, 0.32,1.00, 0.59, 0.48,数据清理空缺值,数据并不总是完整的例如：数据库表中，很多条记录的对

3、应字段没有相应值，比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上,如何处理空缺值,忽略元组：当类标号缺少时通常这么做（假定挖掘任务设计分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。人工填写空缺值：工作量大，可行性低使用一个全局变量填充空缺值：比如使用unknown或-使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值(如项目经理的平均工资150,000.)使用最可能的值填充空缺值：使用像Bayesian公式或判定

4、树这样的基于推断的方法,数据清理噪声数据,噪声：一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据,如何处理噪声数据,分箱(binning):首先排序数据，并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类：监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据,数据平滑的分箱方法,通过考察“邻居”（周围的值）来平滑存储数据的值，用“箱的深度”表示不同的箱里有相同个数的数据，

5、用“箱的宽度”来表示每个箱值的取值区间。由于分箱方法考虑相邻的值，因此是一种局部平滑方法。分箱的主要目的是去噪，将连续数据离散化，增加粒度。,数据平滑的分箱方法,price 的排序后数据(美元): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34划分为（等深的）箱:-箱1: 4, 8, 9, 15-箱2: 21, 21, 24, 25-箱3: 26, 28, 29, 34用箱平均值平滑:-箱1: 9, 9, 9, 9-箱2: 23, 23, 23, 23-箱3: 29, 29, 29, 29用箱边界值平滑:-箱1: 4, 4, 4, 15-箱2: 21,

6、21, 25, 25-箱3: 26, 26, 26, 34,边界值平滑时，先确定两个边界，然后依次计算除边界值外的其它值与两个边界的距离，与之距离最小的边界确定为平滑边界值。具体如下计算：-箱1： 8-44；15-87；故选4做为平滑边界值。 9-45；15-96；故选4做为平滑边界值。-箱2： 21-210；25-214；故选21做为平滑边界值。 24-213；25-241；故选25做为平滑边界值。-箱3： 28-262；34-286；故选26做为平滑边界值。 29-263；34-295；故选26做为平滑边界值。,聚类,通过聚类分析查找孤立点（落在聚类集合之外的值），消除噪声,回归,x,y,

7、y = x + 1,X1,Y1,Y1,线性回归（二元关系）多元回归（多变量）,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,数据集成,数据集成：将多个数据源中的数据整合到一个一致的存储中模式集成：整合不同数据源中的元数据实体识别问题：匹配来自不同数据源的现实世界的实体，比如：A.cust-id=B.customer_no检测并解决数据值的冲突对现实世界中的同一实体，来自不同数据源的属性值可能是不同的可能的原因：不同的数据表示，不同的度量等等,处理数据集成中的冗余数据,集成多个数据库时，经常会出现冗余数据同一属性在不同的数据库中会有不同的字段名一个属性可以由另外一个

8、表导出，如“年薪”有些冗余可以被相关分析检测到,重复应当在元组级检测。它是指同一数据，存在两个或多个相同的元组。数据值冲突的检测与处理。对于现实世界的同一实体，来自不同数据源的属性值可能不同。如表示、比例或编码的不同。仔细将多个数据源中的数据集成起来，能够减少或避免结果数据中的冗余与不一致性，从而可以提高挖掘的速度和质量。,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,数据变换,平滑：去除数据中的噪声（分箱、聚类、回归）聚集：汇总，数据立方体的构建数据泛化：沿概念分层向上汇总，用高层次概念替换低层次“原始”数据。规范化：将数据按比例缩放，使之落入一个小的特定区

9、间最小最大规范化Z-score规范化小数定标规范化属性构造通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度（height,width)area,数据变换规范化,最小最大规范化z-score规范化:属性A的值基于A的平均值和标准差.小数定标规范化（移动小数点位置）,其中，j是使 Max(| |)1的最小整数,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,数据归约策略,数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间数据归约数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数

10、据归约策略数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间。,数据立方体聚集,最底层的方体对应于基本方体基本方体对应于感兴趣的实体在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体在可能的情况下，对于汇总数据的查询应当使用数据立方体,维归约,通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目，使得模式更易于

11、理解启发式的（探索性的）方法逐步向前选择逐步向后删除向前选择和向后删除相结合判定归纳树,启发式的（探索性的）方法,逐步向前选择:由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中。其后每次迭代，将原属性集剩下的属性中的最好的属性添加到该集合中。逐步向后删除：整个属性集开始，每次删除最坏的。向前选择和向后删除相结合：每步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。判定归纳树：（每个节点表示一个属性上的测试，每个分枝对应于测试的一个输出；每个叶子节点表示一个判定类。,数据压缩,有损压缩 VS. 无损压缩前者能由压缩数据重新构造原始数据而不丢失任何信息；后者只能构造原始数据的近

12、似值。字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩，压缩精度可以递进选择有时可以在不解压整体数据的情况下，重构某个片断两种有损数据压缩的方法：小波变换和主要成分分析,数值归约,通过选择替代的、较小的数据表示形式来减少数据量有参方法：使用一个参数模型估计数据，最后只要存储参数即可。线性回归方法：Y=+X多元回归：线性回归的扩充对数线性模型：近似离散的多维数据概率分布无参方法：直方图聚类选样,直方图,一种流行的数据归约技术将某属性的数据划分为不相交的子集，或桶，桶中放置该值的出现频率桶和属性值的划分规则等宽：桶的宽度区间是常数等深

13、：桶的频率粗略地为常数V-最优：具有最小方差的直方图,等宽：桶的宽度区间是常数等深：桶的频率粗略地为常数（每个桶包含大致相同个数的临近数据样本）V-最优：具有最小方差的直方图（直方图的方差是每个桶代表的原数据的加权和，其中权等于桶加值的个数。MaxDiff:考虑每对相邻值之间的差.,聚类,将数据集划分为聚类，然后通过聚类来表示数据集如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效数据可以分层聚类，并被存储在多层索引树中聚类的定义和算法都有很多选择,聚类与分类的区别,分类(classification)：找出描述并区分数据类或概念的模型，以便使用该模型预测类标记

14、未知的对象类。从历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。分类的目的是学会一个分类函数或分类模型(即分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。聚类(clustering)：是指根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组（簇），并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。是研究如何在没有训练的条件下把样本划分为若干类。（无监督学习），进行聚类前并不知道将要划分成几个簇和什么样的簇，也不知道根据哪些空间区分规则来定义簇。,选样,允许用数据的较小随机样本（子

15、集）表示大的数据集对数据集D的样本选择：简单随机选择n个样本，不回放：由D的N个元组中抽取n个样本简单随机选择n个样本，回放：过程同上，只是元组被抽取后，将被回放，可能再次被抽取聚类选样：D中元组被分入M个互不相交的聚类中，可在其中的m个聚类上进行简单随机选择（mM）分层选样：D被划分为互不相交的“层”，则可通过对每一层的简单随机选样得到D的分层选样,数据预处理,为什么要预处理数据？数据清理数据集成数据变换数据归约数据离散化,离散化,三种类型的属性值：名称型e.g. 无序集合中的值(如颜色, 民族.)序数e.g. 有序集合中的值 (如职称)连续值e.g. 实数离散化将连续属性的范围划分为区间有

16、效的规约数据基于判定树的分类挖掘离散化的数值用于进一步分析,离散化和概念分层,离散化通过将属性域划分为区间，减少给定连续属性值的个数。区间的标号可以代替实际的数据值。概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据,数据数值的离散化和概念分层生成,分箱（binning）例如,通过数据分布到箱中,并且箱中的平均值或中值替换箱中的每个值,可以将属性值离散化。直方图分析（histogram）直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层。聚类分析将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节

17、点。基于熵的离散化通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为：51263.98, 60872.34通常数据分析人员希望看到划分的形式为50000，60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间,自然划分的3-4-5规则,规则的划分步骤：如果一个区间最重要的数字上包含3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(3,6,9划分成三个等宽区间；72,3,2)如果一个区间最重要的数字上包含2，4，或8个不同的值，就将该区间划分为4个等宽子区间；

18、如果一个区间最重要的数字上包含1，5，或10个不同的值，就将该区间划分为5个等宽子区间；将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g. 5%-95%,分类数据的概念分层生成,分类数据是指无序的离散数据，它有有限个值（可能很多个）。分类数据的概念分层生成方法：由用户或专家在模式级显式的说明属性的部分序。通过显示数据分组说明分层结构的一部分。说明属性集，但不说明它们的偏序，然后系统根据算法自动产生属性的序，构造有意义的概念分层。对只说明部分属性集的情况，则可

19、根据数据库模式中的数据语义定义对属性的捆绑信息，来恢复相关的属性。,属性集的规格,根据在给定属性集中，每个属性所包含的不同值的个数，可以自动的生成概念分成；不同值个数最多的属性将被放在概念分层的最底层。,country,province,city,street,5个不同值,65 个不同值,3567 个不同值,674,339 个不同值,数据预处理,3.数据仓库,企业级的数据库和应用多建立在传统的关系数据库上，但是随着要处理、分析的数据的海量增长，传统的数据库越来越力不从心。研究表明：20092020年，全球数据信息量将实现44倍的增长，其中需要管理的文件数将增加67倍，总存储量将增长30倍。企业

20、在PB级甚至EB级的数据中寻找相关信息无异于大海捞针，制定信息驱动决策的成本和复杂性将与日俱增。面对日益增长的非结构化和多结构化数据洪流的冲击，企业如何管理、分析数据、发掘数据价值并形成洞察力，已成为企业提升竞争力的关键因素。,数据处理大致可以分成两大类：,联机事务处理OLTP（on-line transaction processing）、联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查

21、询结果。,操作处理与分析处理,事务处理操作型数据传统的数据库决策分析分析型数据由传统的数据库向数据仓库演变,早期的分析处理是在传统的基于事务处理的数据库基础上添加统计分析和决策支持等分析功能来实现的，但随着技术和需求的发展，传统的数据库已经无法满足决策分析的需求，传统的数据库逐步向数据仓库演变，即分析处理系统逐步从事务处理系统中独立出来。,数据库处理的两大应用,联机事务处理（OLTP）操作型处理操作型处理，为企业的特定应用服务是对数据库的联机的日常操作，通常是对一个或一组记录的查询和修改人们关心的是响应时间、数据的安全性和完整性决策支持系统（DSS）分析型处理分析型处理，用于管理人员的决策分析

22、经常需要访问大量的历史数据数据仓库 + 联机分析处理 + 数据挖掘（ DW + OLAP + DM ） DSS,操作型系统与分析型系统,事务处理操作型数据传统的数据库决策分析分析型数据由传统的数据库向数据仓库演变,系统开发周期SDLCSystem Development Life Cycle需求分析设计编程实现测试系统集成系统实施相反的螺旋周期系统实施数据集成测试针对数据编程设计DSS系统结果分析理解需求,数据仓库的定义,W.H.Inmon定义：数据仓库(Data Warehouse)是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Vo

23、latile）、反应历史变化的（Time Variant）数据集合，用于支持管理决策。,数据仓库和数据库,数据库是文件系统发展的革命性结果。数据仓库是数据库在互联网时代发展的一次变革两者的根本区别：1、数据仓库中包含过去的数据以及综合的、集成的和提炼过的信息，结构相对灵活。2、大量数据进入数据仓库后，被修改和更新的操作较少。,数据仓库发展历史,数据库,文件系统,数据仓库,分布式数据云,数据仓库的4大特点,面向主题的（Subject Oriented）数据仓库中的数据通常是按照一定的主题域进行组织。主题是一个抽象概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系

24、统相关。如：客户、产品、账目集成的（Integrated）数据仓库中的数据是在对原有分散的数据库、源文件等进行各种处理的基础上经过系统加工、汇总和整理得到的，是关于整个企业的一致的全局信息。相对稳定的（Non-Volatile）数据仓库的数据主要供企业决策分析使用，主要的数据操作是查询，修改和删除很少。随时间变化的（Time Variant）数据仓库中的数据通常包含大量相关的历史信息，记录企业过去某一时间到目前各个阶段的信息。,数据仓库,面向主题主题是在较高层次上对数据抽象面向主题的数据组织分为两步骤抽取主题确定每个主题所包含的数据内容每个主题在数据仓库中都是由一组关系表实现的集成的数据不

25、可更改随时间变化的,数据仓库面向主题,数据仓库集成的,面向主题集成的数据仓库的数据是从原有的分散数据库数据中抽取来的消除数据表述的不一致性（数据的清洗）数据的综合数据不可更改随时间变化的,数据仓库集成,数据仓库,面向主题集成的数据不可更改数据仓库的主要数据操作是查询、分析不进行一般意义上的数据更新（过期数据可能被删除）数据仓库强化查询、淡化并发控制和完整性保护等技术随时间变化的,数据仓库的特点数据不可更改,数据仓库,面向主题集成的数据不可更改随时间变化的不断增加新的数据内容不断删除旧的数据内容定时综合数据仓库中数据表的键码都包含时间项，以标明数据的历史时期,数据仓库的特点随时间变化,数据

26、仓库的结构,OLTP系统,RDBMSSybase,SAP/ERP,5-10 年,过去详细数据,当前详细数据,轻度汇总数据,高度汇总数据,数据集市,分析型CRM,业务指标分析,数据仓库,数据仓库/决策分析系统,EXCEL,OLTP系统面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。,数据仓库的结构,数据源,ETL（Extract Transform Load）,数据存储,数据流（Data Flow）,数据仓库建立的过程,数据的粒度,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别粒度级越小，细节程度越高，综合程度越低，回答查询

27、的种类越多粒度影响数据仓库中数据量的大小粒度问题是设计数据仓库的一个重要方面双重粒度在数据仓库的细节级上创建两种粒度短期储存的低粒度（真实档案），满足细节查询具有综合的高粒度（轻度综合），做分析,数据的分割,分割是指把数据分散到各自的物理单元中去，以便能分别独立处理，提高数据处理效率是粒度之后的第二个主要设计问题两个层次的分割系统层：DBMS，一种定义应用层：开发者，多种定义多种分割的标准日期：最常用的地理位置组织单位.,数据组织形式,简单堆积轮转综合数据按一定的格式进行轮转的累加简化直接按一定的时间间隔，对数据进行提取，是操作型数据的一个快照连续把新的快照追加到以前的连续数据上去,数据组织形

28、式（简单堆积）每日由数据库中提取并加工的数据逐天积累堆积,数据组织形式（轮转综合）数据按一定的格式进行轮转的累加,数据组织形式简单堆积与轮转综合的比较,数据组织形式(简化直接)按一定的时间间隔，对数据进行提取，是操作型数据的一个快照,数据组织形式(连续)把新的快照追加到以前的连续数据上去,数据追加,数据仓库的数据初装完成以后，再向数据仓库输入数据的过程称为数据追加变化数据的捕获时标法：加标识DELTA法：对更新作记录前后映象法：两次快照的对比日志法：利用DBMS的日志，需改进,数据库的体系化环境,是在一个企业或组织内部，由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境

29、操作型环境、分析型环境四层体系化环境操作型环境OLTP全局级数据仓库部门级局部仓库个人级个人仓库，用于启发式的分析数据集市（Data Mart）特定的、面向部门的小型数据仓库是为满足用户特定需求而创建的数据仓库是数据仓库的子集,数据库的体系化环境,数据库的体系化环境,数据仓库的开发生命周期,数据仓库的基本数据模式1,星型模式(Star Schema)事实表(fact table)，存放基本数据，相关主题的数据主体（BCNF）维(dimension)，影响、分析主体数据的因素量(measure)，事实表中的数据属性维表(dimension table)，表示维的各种表维是量的取值条件，维用外键表

30、示以事实表为中心，加上若干维表，组成星型数据模式例：产品-商店-销售额,CustSales,LocationSales,ProdSales,TimeSales,Sales,time id,product id,location id,customer id,sales revenue,units sold,Product,product id,make,model,Time,time id,date,year,quarter,month,week,Location,location id,region,city,store,Customer,customer id,category,group

31、,Sales fact,Sales measures,Time dimension,Attributes of the time dimension,数据仓库的基本数据模式2,雪花模式(Snowflake Schema)维一般是由若干层次组成把维按其层次结构表示成若干个表规范化、节省存储空间但需多做连接操作,CustSales,LocationSales,ProdSales,TimeSales,Sales,time id,product id,location id,customer id,sales revenue,units sold,Product,product id,make,mod

32、el,Time,time id,date,year,quarter,month,week,Location,location id,region,cityid,store,Customer,customer id,category,group,Sales fact,Sales measures,city,city id,name,zip,city,数据仓库系统,数据仓库居系统的核心地位是信息挖掘的基础数据仓库管理系统是整个系统的引擎负责管理整个系统的运转数据仓库工具一般的查询工具、功能强大的分析工具是整个系统发挥作用的关键,数据仓库系统,一个集成化的产品集,数据仓库系统,DesignWareh

33、ouse Architect,ManageSybase ASIQ,VisualizeBrioCognos,数据分析模型,早期静态数据值的相互比较需求从多个不同的数据源中综合数据从不同的角度观察数据多变的主题、多维数据E-R不能完全支持,数据分析模型,四种分析模型绝对模型静态数据分析只能对历史数据进行值的比较，描述基本事实用户交互少解释模型静态数据分析在当前多维视图的基础上找出事件发生的原因思考模型动态数据分析多维分析在决策者的参与下，找出关键变量需要高级数据分析人员的介入公式模型动态性最高的一类自动完成变量的引入工作,数据仓库系统的工具层,查询工具主要是对分析结果的查询很少有对记录级数据的查询

34、验证型工具多维分析工具用户首先提出假设，然后利用各种工具通过反复、递归的检索查询以验证或否定假设发掘型工具从大量数据中发现数据模式预测趋势和行为,联机分析处理OLAP,信息数据从原始数据转化来的、能够真正为用户所理解，并真实反映企业多维特性的数据。OLAP是一种软件技术，它能够使分析人员（管理或执行人员）从多种角度对信息数据进行快速、一致、交互地存取，并达到深入理解数据的目的。（OLAP委员会）,联机分析处理OLAP,是针对特定问题的联机访问和分析。通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取，允许分析人员对数据进行深入观察,OLAP的12条准则,多维概念的视图透明性存取能

35、力稳定的报表性能客户/服务器体系结构维的等同性动态的稀疏矩阵处理能力多用户支持能力非受限的跨维操作直观的数据操纵灵活的报表生成非受限维与聚集层次,OLAP的简要准则FASMI,FASMIFast Analysis of Shared Multidimensional Information快速性：5秒内反应（专门的技术支持）分析性：逻辑分析、统计分析共享性：并发访问控制多维性：数据分析的多维视图（关键）信息性：及时获得管理决策的大容量信息,数据仓库的多维数据模型,数据仓库由若干变量和多个维度构成定义：称A（维度1,维度2,.维度k,；变量1,变量2,变量k）是一个名称为A的n维数组，也称A为n

36、维超立方体（Hypercube）或多维数据模型。例如（地区,时间,销售渠道,销售额）,联机分析处理-基本概念,变量是描述数据的实际意义的名称，描述数据“是什么”，即已发生的实事，取值为连续性实数；如“管理成本”；维是人们观察变量（度量指标、事实）的一个特定角度，例如：时间、地理；维的层次是在某个维度上观察数据时需要的在不同细节程度的描述，也称“维的级别”；维成员是一个维度在某个层次上的一个具体取值多层次维的维成员是各层次取值的组合对应一个数据项，维成员是该数据项在该维中位置的描述,多维数据集（即多维数组）当多维模型的每个维度都指定了确定的维成员，且每个变量对应于每个给定的维成员都赋予了具体的数

37、值，它就构成一个多维数据集。可以表示为（维1,维2,变量1，变量2，），如（地区,时间,销售渠道,销售额）多维数组每个维的维成员对应变量的一个取值称为数据单元（单元格），每个单元格描述了一个确定的实事。可以理解为交叉表的数据格,联机分析处理-基本概念,变量：销售额维：时间，城市，商品维层次：时间（年，季度，月) 维成员：2005第一季度(Q1)多维数组:(时间，城市，商品，销售额）数据单元（“Q1”,”上海”,”计算机”,500)该多维数组可用3个2维矩阵来表示和存储。,超立方体结构多立方体结构,联机分析处理-基本操作,在多维数组中选择一个二维子集的动作称为切片（Partial/Local S

38、lice）。舍弃一些观察角度在多维数组的某一维上选定若干维成员的操作称为切块。(Dice)多个切片的叠加旋转（Rotate）是改变维的显示方向的操作,以用户容易理解的角度来观察数据,相当于坐标旋转。,目的：方便用户从不同的层次观察多维数据上卷: （roll up）对多维数据选定的维度成员，按照其上层次维度对数据进行求和计算并展示的操作。将较低层次的细节数据概况为较高层次的汇总数据，增加数据的粒度，减少了数据单元格的个数或数据集的维度。下钻：（drill down）对多维数据选定的维度成员，按照其下层次维度对数据进行分解的操作。,联机分析处理-钻取,927,812,1038,1023,680,6

39、05,952,825,Q4,Q2,Q1,Q3,家庭娱乐,计算机,北京,上海,广州,重庆,500,234,200,546,214,516,切片,切块,地理维,商品维,时间维,上卷：在时间维的“季度”层次上上卷为“年度”的层次下钻：在时间维下钻到“月”,OLAP系统的分类,按照多维数据集存储管理的数据库来划分：1、多维OLAP系统MLOAP(专门的多维数据库)2、关系OLAP系统RLOAP（传统的关系DB）3、混合OLAP系统HLOAP,基于多维数据库的OLAPMOLAP,以多维方式组织数据（综合数据）以多维方式显示（观察）数据多维数据库的形式类似于交叉表，可直观地表述一对多、多对多的关系如：产品

40、、地区、销售额关系多维多维数据库由许多经压缩的、类似于数组的对象构成，带有高度压缩的索引及指针结构以关系数据库存放细节数据、以多维数据库存放综合数据,基于关系数据库的OLAPROLAP,以二维表与多维联系来表达多维数据（综合数据）星型结构事实表，存储事实的量及各维的码值（BCNF）维表，对每一个维，至少有一个表用来保存该维的元数据（多层次、冗余）事实表通过外键与每个维表相联系雪花、星座模拟多维方式显示（观察）数据,MOLAP.vs.ROLAP,MOLAP计算速度较快支持的数据容量较小缺乏细节数据的OLAPROLAP结构较复杂以关系模拟多维支持适当细节的OLAP较成熟,混合OLAP系统HLOAP

41、,MOLAP和ROLAP两种结构技术优点的有机结合，并能满足用户各种复杂的分析请求。准多维数据库管理系统在传统关系DBMS基础上，增加了多维数据集的存储管理和查询分析功能而形成的数据库管理系统。Oracal,SQL Server,DB2都增加了多维数据管理和分析功能，形成市场广泛接受的准多维数据库管理系统。,OLAP工具,桌面级工具BrioQuery (ROLAP)Business Objects (ROLAP)Cognos Impromptu (ROLAP)Cognos PowerPlay (MOLAP)服务器级OLAPArbor Software Essbase (MOLAP)MicroS

42、trategy DSS Agent (ROLAP )Oracles Express (hybrid MOLAP/ROLAP,数据挖掘与OLAP,都属于分析型工具DM是挖掘型工具DM试图自动地发现隐藏在数据中的模式或规律OLAP是验证型工具OLAP更多地依赖于用户的输入和假设两者相辅相成，互补以DM挖掘潜在的模式、预测未来趋势以OLAP来验证DM的结果,数据仓库的新发展,分布式数据仓库（Distributed Data Warehouse）分布式云存储（ Distributed Data Cloud）,数据仓库知名厂商列表,知名数据仓库,IBMDB2 Data Warehouse Edition

43、 DB2数据服务器+SPSS商业智能基础产品，集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件，提供了一套基于可视化数据仓库的商业智能解决方案。MicrosoftBI体系 SQL Server提供了多种服务和工具来实现数据仓库系统的整合。主要有：SSAS(SQL Server Analysis Service, 整合数据服务工具)和SSRS（ SQL Server Reporting Service, 报告工具）。这些都为用户提供了构建分析应用程序所需的各种特殊工具和功能，能实现数据仓库系统需要的建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发

44、布等功能。,信息用户所面临的变化“从10%的人花100%的时间使用工具到100%的人花10%的时间使用工具.”,SoundView Financial GroupBusiness Intelligence Report,数据仓库在宝钢的实践,信息生产者,信息消费者,高级用户,IT人员,报表查阅者,活跃的分析人员,报表用户,企业信息环,业务用户希望得到的不仅是一个含有正确信息的报表，并且需要能进一步分析及格式化报表的基本的功能，以满足其特定的需要。高级用户希望能直接访问数据，进行特别查询、分析及报表。IT人员希望能为企业中的任何人、在任何地方提供对数据的访问，或向他们进行发布，同时减少他

45、们自己堆集如山的报表和管理的麻烦。,用户所需要的是什么?,宝钢计算机系统,铁水系统,一、二期工程钢区,宝钢TCP/IP光纤主干网络（一、二期工程地域：DEC TDM）（三期工程地域：IBM ATM）,IBM RS60007013-J30 x3台512MB,UNISYSU6000/65 x2台512MB,检化验,DEC Alpha2100-4/275512MB,250转炉炼钢,DEC Alpha2100-4/275 x2台384MB,1420冷轧,DEC Alpha2100-4/275 x2台192MB,1580热轧,DEC VAX4600A x4台128MB,电炉/圆坯连铸,DEC Alph

46、a2100-4/200 x2台384MB,2030冷轧,DEC VAX4600 x2台256MB,2050热轧,DEC Alpha4100 x2台1 GB,高速线材,DEC Alpha4100-5/300x2台 512MB,1550冷轧前库,PC ServerSCO UNIX,300吨转炉炼钢,IBM RS6000 /J50 x2台1 GB,钢管分公司,HP 9000 K370 x2台512MB,宝钢整体产销管理系统,IBM 9672-R25主机,IBM SP主机,数据仓库服务器,操作系统: OS/390 数据库: IBM DB2 角色: 数据仓库的重要数据来源,IBM 9672（公司产销系统）,IBM SP (数据仓库服务器）,操作系统: IBM AIX数据库 : SAS Data Set角色: 数据仓库、数据分析处理、报表系统发布（Domino Web Server）的核心平台,

展开阅读全文