数据仓库概念设计和介绍学习教案.pptx

上传人:一*** 文档编号:71960465 上传时间:2023-02-07 格式:PPTX 页数:29 大小:564.75KB
返回 下载 相关 举报
数据仓库概念设计和介绍学习教案.pptx_第1页
第1页 / 共29页
数据仓库概念设计和介绍学习教案.pptx_第2页
第2页 / 共29页
点击查看更多>>
资源描述

《数据仓库概念设计和介绍学习教案.pptx》由会员分享,可在线阅读,更多相关《数据仓库概念设计和介绍学习教案.pptx(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、会计学1数据仓库概念设计和介绍数据仓库概念设计和介绍(jisho)第一页,共29页。事务处理环境不适宜事务处理环境不适宜DSSDSS应用应用(yngyng)(yngyng)的原因的原因 n n事务处理和分析处理的性能特性不同事务处理和分析处理的性能特性不同 n n操作型处理对数据的存取操作频率高而每次操作处理的时间短;操作型处理对数据的存取操作频率高而每次操作处理的时间短;n n在分析处理环境中,某个在分析处理环境中,某个DSSDSS应用程序可能需要应用程序可能需要(xyo)(xyo)连续几个小连续几个小时,从而消耗大量的系统资源。时,从而消耗大量的系统资源。n n数据集成问题数据集成问题n

2、n数据动态集成问题数据动态集成问题n n历史数据问题历史数据问题 n n数据的综合问题数据的综合问题 n n 第1页/共29页第二页,共29页。抽取抽取抽取抽取(chu q(chu q)程序程序程序程序n n用抽取程序能将数据从高性能联机事务处理方式中转移出来,在用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析需要总体分析(fnx)(fnx)数据时就与联机事务处理性能不发生冲突。数据时就与联机事务处理性能不发生冲突。n n用抽取程序能将数据从联机事务处理范围内移出时,数据的控制用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。方式就发生了转变。第2页

3、/共29页第三页,共29页。蜘蛛网问题蜘蛛网问题蜘蛛网问题蜘蛛网问题(wnt)(wnt)vv数据缺乏可信性数据缺乏可信性vv数据无时基数据无时基vv数据算法数据算法(sunf)(sunf)上的差异上的差异vv抽取的多层次抽取的多层次vv外部数据问题外部数据问题vv无起始的公共数据源无起始的公共数据源vv生产率低生产率低vv根据全部数据生成企业报表根据全部数据生成企业报表vv定位数据需要浏览大量文件定位数据需要浏览大量文件vv抽取程序很多,并且每个都是定制的,不得不克服抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。很多技术上的障碍。vv数据转化为信息的不可行性数据转化为信息的不可

4、行性vv数据没有集成化数据没有集成化vv缺乏将数据转化为信息所需的历史数据缺乏将数据转化为信息所需的历史数据第3页/共29页第四页,共29页。体系结构设计环境体系结构设计环境体系结构设计环境体系结构设计环境(hunjng)(hunjng)的层次的层次的层次的层次n n数据操作层只保存原始数据并且服务于高性能事务处理领域数据操作层只保存原始数据并且服务于高性能事务处理领域(lny)(lny);n n数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;n n数据的部门层几乎只存放导出数据;数据的部门层几乎只存放导出数据;n n在数

5、据个体层中完成大多数启发式分析在数据个体层中完成大多数启发式分析操作操作(cozu)(cozu)层层原子原子/数据仓库层数据仓库层部门层部门层个体层个体层第4页/共29页第五页,共29页。数据仓库的概念数据仓库的概念(ginin)(ginin)数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可(bk)修改的数据集合。William H.Inmon 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。第5页/共29页第六页,共29页。数据仓库的特性数据仓库的特性(txng)(txng)vv面向主题面向主题vv典型的主题领域:客户

6、;产品典型的主题领域:客户;产品(chnpn)(chnpn);交易;交易;帐目帐目vv集成的集成的vv数据提取、净化、转换、装载数据提取、净化、转换、装载vv非易失的非易失的vv数据仓库的数据通常是一起载入和访问的,但数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新并不进行一般意义上的数据更新vv随时间的变化性随时间的变化性vv数据仓库中的时间期限要远远长于操作型系统数据仓库中的时间期限要远远长于操作型系统中的时间期限(中的时间期限(510510年);年);vv数据仓库中的数据是一系列某一时刻生成的复数据仓库中的数据是一系列某一时刻生成的复杂的快照;杂的快照;vv数据仓库的

7、键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。第6页/共29页第七页,共29页。数据仓库的结构数据仓库的结构(jigu)早期早期(zoq)(zoq)细节级细节级当前当前(dngqin)(dngqin)细细节级节级轻度综合级轻度综合级数据集市数据集市高度综合级高度综合级元元数数据据操作型转换操作型转换第7页/共29页第八页,共29页。数据仓库设计中的几个数据仓库设计中的几个(j)重要概念重要概念 vvETLETLvvETLETL(Extract/Transformation/LoadExtract/Transformation/Load)用户从数用户从数据源抽取出所需的数据,

8、经过数据清洗、转换据源抽取出所需的数据,经过数据清洗、转换,最终最终按照预先定义好的数据仓库模型,将数据加载到数据按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。仓库中去。vv元数据元数据vv关于数据的数据,指在数据仓库建设过程中所产生关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。键数据。同时元数据还包含关于数据含义的商业信息。vv粒度粒度vv数据仓库的数据单位中保存数据的细化或综合程度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高

9、,粒度级就越小;相反,细化的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。程度越低,粒度级就越大。vv分割分割(fng)(fng)vv结构相同的数据被分成多个数据物理单元。任何给结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割定的数据单元属于且仅属于一个分割(fng)(fng)。第8页/共29页第九页,共29页。典型典型(dinxng)(dinxng)的元数据包括:的元数据包括:vv数据仓库表的结构数据仓库表的结构vv数据仓库表的属性数据仓库表的属性vv数据仓库的源数据(记录系统)数据仓库的源数据(记录系统)vv从记录系统到数据仓库的映射从记录

10、系统到数据仓库的映射vv数据模型的规格说明数据模型的规格说明vv抽取日志抽取日志(rzh)(rzh)vv访问数据的公用例行程序访问数据的公用例行程序第9页/共29页第十页,共29页。数据仓库设计中的几个重要(zhngyo)概念(续)vvDataMartDataMartvv数据集市数据集市-小型的,面向部门或工作组级数据小型的,面向部门或工作组级数据仓库。仓库。vvOperationDataStoreOperationDataStorevv操作数据存储操作数据存储ODSODS是能支持企业日常的全是能支持企业日常的全局应用的数据集合局应用的数据集合,是不同于是不同于DBDB的一种新的数据的一种新的

11、数据环境环境,是是DWDW扩展后得到的一个混合形式。四个扩展后得到的一个混合形式。四个基本特点:面向主题的基本特点:面向主题的(Subject-Oriented)(Subject-Oriented)、集、集成成(jchn)(jchn)的、可变的、的、可变的、当前或接近当前的。当前或接近当前的。vvdatamodeldatamodelvv数据模型数据模型-(1 1)逻辑数据结构,包括由)逻辑数据结构,包括由DBMSDBMS为有效进行数据库处理提供的操作和约束;为有效进行数据库处理提供的操作和约束;(2 2)用于表示数据的系统(例如,)用于表示数据的系统(例如,ERDERD或关系或关系型模型)。型

12、模型)。vvartifactartifactvv人工关系人工关系-在在DSSDSS环境中用于表示参照完整性环境中用于表示参照完整性的一种设计技术。的一种设计技术。第10页/共29页第十一页,共29页。企业企业(qy)数据模型到数据仓库数据模型的转数据模型到数据仓库数据模型的转换换vv除去纯粹用于操作型环境的数据除去纯粹用于操作型环境的数据vv在企业在企业(qy)(qy)键码结构中增加时间元素键码结构中增加时间元素vv增加导出数据增加导出数据vv创建人工关系创建人工关系第11页/共29页第十二页,共29页。数据模型的规范化数据模型的规范化/反规范化反规范化vv为了减少程序在表中的跳转、节省为了减

13、少程序在表中的跳转、节省I/OI/O,需将多,需将多个相关的表合并;个相关的表合并;vv引入冗余数据;引入冗余数据;vv当访问概率有很大悬殊时,要对数据做进一步当访问概率有很大悬殊时,要对数据做进一步分离分离(fnl)(fnl);vv在物理数据库的设计中引入导出数据可以减少在物理数据库的设计中引入导出数据可以减少I/OI/O;vv建立所谓的建立所谓的“创造的创造的”索引或创造的简要记录索引或创造的简要记录(如卷中的前十名顾客是(如卷中的前十名顾客是)第12页/共29页第十三页,共29页。数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。(元数据管理)数据仓库项

14、目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户第13页/共29页第十四页,共29页。从操作型的现存系统到数据仓库中数据从操作型的现存系统到数据仓库中数据转换工作转换工作(gngzu)的难点的难点vv现有系统缺乏数据集成,跨越不同应用的数据现有系统缺乏数据集成,跨越不同应用的数据集成性很差集成性很差vv存取现存系统的效率,扫描已有文件成了数据存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题仓库体系结构设计者主要面对的问题(wnt)(wnt)vv时基的变化时基的变化vv数据要浓缩数据要浓缩

15、第14页/共29页第十五页,共29页。概念:数据概念:数据概念:数据概念:数据(shj)(shj)周期、简要记录周期、简要记录周期、简要记录周期、简要记录vv数据周期:是指从操作型数据发生改变起,到数据周期:是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间。这个变化反映到数据仓库中所用的时间。vv从操作型环境知道数据的改变到这个变化反从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历映到数据仓库中至少应该经历2424小时。小时。vv简要记录:或聚集记录,是把不同操作型数据简要记录:或聚集记录,是把不同操作型数据的详细信息聚集在一个记录中而形成的记录。的详细信息聚集

16、在一个记录中而形成的记录。vv好处:好处:减少数据量;减少数据量;vv为用户的访问为用户的访问(fngwn)(fngwn)和分析提和分析提供了一种紧凑的方便的数据组织形式;供了一种紧凑的方便的数据组织形式;vv缺点:信息的详细程度将会降低。缺点:信息的详细程度将会降低。第15页/共29页第十六页,共29页。数据仓库的建模数据仓库的建模数据仓库的建模数据仓库的建模vv数据模型数据模型vv所有的实体都是平等关系所有的实体都是平等关系(gunx)(gunx)。vv仅仅从数据模型的角度来着手设计数据仓库会仅仅从数据模型的角度来着手设计数据仓库会产生一种产生一种“平面平面”效应。效应。vv星型连接星型连

17、接vv事实表:位于星型连接的中央,它是被大量载事实表:位于星型连接的中央,它是被大量载入数据的实体。入数据的实体。vv维表:周围的其它实体。维表:周围的其它实体。vv在很多情况下:文本数据与数值数据是分离开在很多情况下:文本数据与数值数据是分离开的。的。vv通过数据预连接和建立有选择的数据冗余,设通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。计者为访问和分析过程大大简化了数据。vv星型连接应用于设计数据仓库中很大的实体,星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。而数据模型则应用于数据仓库中较小的实体。第16页/共29页第十七页

18、,共29页。VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid第17页/共29页第十八页,共29页。数据数据(shj)建模的十条戒律建模的十条

19、戒律必须回答紧迫的问题;必须回答紧迫的问题;必须有正确的事实表;必须有正确的事实表;将有正确的维表,描述必须按最终用户的业务术语表达;将有正确的维表,描述必须按最终用户的业务术语表达;必须理解数据仓库所影响的公司过程或影响数据仓库的必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;公司过程;对于事实表,应该对于事实表,应该(ynggi)(ynggi)有正确的有正确的“粒度粒度”;根据需要存储正确长度的公司历史数据;根据需要存储正确长度的公司历史数据;以一种对于公司有意义的方式来集成所有必要的数据;以一种对于公司有意义的方式来集成所有必要的数据;创建必要的总结表;创建必要的总结表;创建必

20、要的索引;创建必要的索引;能够加载数据仓库数据库并使它以一种适宜的方式可用。能够加载数据仓库数据库并使它以一种适宜的方式可用。第18页/共29页第十九页,共29页。数据(shj)集市外部(wib)数据用自顶向下的方法用自顶向下的方法(fngf)(fngf)构建数据仓库构建数据仓库数据集市建造企业数据仓库H建设中心数据模型H一次性的完成数据的重构工作H最小化数据冗余度和不一致性H存储详细的历史数据从企业数据仓库中建造数据集市H得到大部分的集成数据H直接依赖于数据仓库的可用性操作数据问题投资效益的时间?H建设中心数据模型的必要性和可能性?初始费用?企业数据仓库第19页/共29页第二十页,共29页。

21、用自底向上的方法用自底向上的方法(fngf)(fngf)构建数据仓库构建数据仓库数据(shj)集市建立部门数据集市限制在一个主题区域快速投资收益区域自治设计的可伸缩性强对相关部门的应用容易复制对每个数据集市需要(xyo)数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库(EDW)把建造EDW作为一个长期的目标存在的问题:数据集市的数据都是可用的吗?能生成数据模型吗?如何解决不一致性?外部数据操作数据(全局)&操作数据(局部)操作数据(局部)数据集市企业数据仓库第20页/共29页第二十一页,共29页。数据仓库的开发数据仓库的开发数据仓库的开发数据仓库的开发(kif)(kif)过程过程过程过程

22、vv建立或获得企业的数据模型;建立或获得企业的数据模型;vv定义记录系统;定义记录系统;vv设计数据仓库并按主题领域进行设计数据仓库并按主题领域进行(jnxng)(jnxng)组织;组织;vv设计和建立操作型环境中的记录系统和数据仓库之设计和建立操作型环境中的记录系统和数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有间的接口,这些接口能保证数据仓库的载入工作能有序的进行序的进行(jnxng)(jnxng);vv开始载入第一个主题领域,进入载入和反馈过程,开始载入第一个主题领域,进入载入和反馈过程,数据仓库中的数据在此过程中也在不断地改变。数据仓库中的数据在此过程中也在不断地改变。第21

23、页/共29页第二十二页,共29页。数据模型的内容数据模型的内容数据模型的内容数据模型的内容(nirng)(nirng)vv标识主要主题领域。标识主要主题领域。vv各个主要主题之间的各种关系各个主要主题之间的各种关系(gunx)(gunx)。vv清晰地定义模型的边界。清晰地定义模型的边界。vv把原始数据和导出数据分离。把原始数据和导出数据分离。vv每个主题领域需要标识每个主题领域需要标识vv键码键码vv属性属性vv属性分组之间的关系属性分组之间的关系(gunx)(gunx)vv多重出现的数据多重出现的数据vv数据的类型数据的类型第22页/共29页第二十三页,共29页。表达数据模型的最好表达数据模

24、型的最好(zu ho)数据数据vv最实时最实时vv最准确最准确vv最完备最完备vv与外部与外部(wib)(wib)数据源最近数据源最近vv最具结构兼容性最具结构兼容性vv定义记录系统就是找出现存系统所具有的最好的数据定义记录系统就是找出现存系统所具有的最好的数据第23页/共29页第二十四页,共29页。将数据模型变为数据仓库要做的主要将数据模型变为数据仓库要做的主要将数据模型变为数据仓库要做的主要将数据模型变为数据仓库要做的主要(zh(zh yo)yo)工作工作工作工作vv如果原先没有时间元素的话,时间元素必须加入到键如果原先没有时间元素的话,时间元素必须加入到键码结构中码结构中vv必须清除所有

25、的纯操作型数据必须清除所有的纯操作型数据vv需要将参照完整性关系需要将参照完整性关系(gunx)(gunx)转换成转换成“人工关系人工关系(gunx)”(gunx)”vv将经常需要用到的到处数据假如到设计中将经常需要用到的到处数据假如到设计中vv对数据的结构进行调整对数据的结构进行调整vv增加数据阵列增加数据阵列vv增加数据冗余增加数据冗余vv在合适的情况下进一步分离数据在合适的情况下进一步分离数据vv在合适的时候合并数据表在合适的时候合并数据表vv需要做数据的稳定性分析需要做数据的稳定性分析第24页/共29页第二十五页,共29页。在接口中需完成在接口中需完成(wn chng)的工作的工作vv

26、数据抽取数据抽取vv对来自对来自(liz)(liz)操作型、面向应用型环境的数据的集操作型、面向应用型环境的数据的集成成vv数据时基的变更数据时基的变更vv数据压缩数据压缩vv对现存系统环境的有效扫描对现存系统环境的有效扫描第25页/共29页第二十六页,共29页。数据仓库开发数据仓库开发数据仓库开发数据仓库开发(kif)(kif)成功的关键成功的关键成功的关键成功的关键vv关键关键(gunjin)(gunjin):是数据体系结构设计者和:是数据体系结构设计者和DSSDSS分分析者之间的反馈循环。析者之间的反馈循环。vv有几点观察结果对数据仓库环境的成功建立是至关有几点观察结果对数据仓库环境的成

27、功建立是至关重要的问题:重要的问题:vvDSSDSS分析人员一定要严格遵循分析人员一定要严格遵循“给我我所要的东西,给我我所要的东西,然后我能告诉你我真正需要的东西然后我能告诉你我真正需要的东西”的工作模式;的工作模式;vv反馈循环的周期越短,越有可能成功;反馈循环的周期越短,越有可能成功;vv需要调整的数据量越大,反馈循环所需要的周期就需要调整的数据量越大,反馈循环所需要的周期就越长越长第26页/共29页第二十七页,共29页。数据仓库的应用数据仓库的应用数据仓库的应用数据仓库的应用(yngyng)(yngyng)(yngyng)(yngyng)vv在证券业的应用在证券业的应用:可处理客户分析

28、、帐户分析、证可处理客户分析、帐户分析、证券交易数据分析、非资金交易分析等多个业界关心券交易数据分析、非资金交易分析等多个业界关心的主题,为客户提供针对其个人习惯、投资组合的的主题,为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。投资建议,从而真正作到对客户的贴心服务。vv在银行领域的应用在银行领域的应用:防范银行的经营风险、实现科防范银行的经营风险、实现科学管理以及进行决策学管理以及进行决策.vv在税务领域的应用:可以解决三个方面的问题:在税务领域的应用:可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟一是查出应税未报者和瞒税漏税者,并对其进行

29、跟踪;二是对不同行业、产品和市场中纳税人的行为踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税特性进行描述,找出普遍规律,谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税务征稽策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。款进行预测,制定最有效的征收计划。vv 在保险业的应用在保险业的应用:满足保险行业日益增长的各种满足保险行业日益增长的各种查询、统计、报表以及分析的需求,提高防范和化查询、统计、报表以及分析的需求,提高防范和化解经营风险的能力,有效利用这些数据来实现经营解经营风险的能力,有效利用这些数据来实现经营目标,预测保险业的发展趋势目标,预测保险业的发展趋势(qsh)(qsh),甚至利用这,甚至利用这些数据来设计保险企业的发展宏图,在激烈的竞争些数据来设计保险企业的发展宏图,在激烈的竞争中赢得先机中赢得先机.vv在客户服务及营销方面的应用在客户服务及营销方面的应用:CRM:CRMvv在保健领域的应用在保健领域的应用:揭示出如何以较低费用获取较揭示出如何以较低费用获取较高质量的治疗策略趋势高质量的治疗策略趋势(qsh)(qsh)和模式和模式.第27页/共29页第二十八页,共29页。HaveAnyQuestions?CSLIANG8848.NET第28页/共29页第二十九页,共29页。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 管理文献 > 管理工具

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com