数据仓库与数据挖掘的决策支持.pptx-得力文库

资源描述

《数据仓库与数据挖掘的决策支持.pptx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘的决策支持.pptx（122页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、5.1 5.1 数据仓库的基本原理数据仓库的基本原理5.1.1 数据仓库概念5.1.2 数据仓库结构5.1.3 数据集市5.1.4 元数据第1页/共122页5.1.1 5.1.1 数据仓库的概念（1 1）W.H.InmonW.H.Inmon在建立数据仓库一书中，对数据仓库的定义为：数据仓库是面向主题的、集成的、稳定的，不同时间的数据集合，用于支持经营管理中决策制定过程。第2页/共122页1、数据仓库的概念（2 2）SASSAS软件研究所定义：数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有效的决策支持。第3页/共122页1、数据仓库的概念传统数据库用于事务处理，也叫操作型

2、处理，是指对数据库联机进行日常操作，即对一个或一组记录的查询和修改，主要为企业特定的应用服务的。用户关心的是响应时间，数据的安全性和完整性。数据仓库用于决策支持，也称分析型处理，用于决策分析，它是建立决策支持系统（DSSDSS）的基础。第4页/共122页操作型数据（DBDB数据）与分析型数据（DWDW数据）之间的差别为：第5页/共122页2、数据仓库特点（1 1 1 1）数据仓库是面向主题的）数据仓库是面向主题的主题是数据归类的标准，每一个主题基本对应一个宏观的分析领域。例如，银行的数据仓库的主题：客户 DWDW的客户数据来源：从银行储蓄DBDB、信用卡DBDB、贷款DBDB等三个DBDB中

3、抽取同一客户的数据整理而成。在D DW W中分析客户数据，可决定是否继续给予贷款第6页/共122页2、数据仓库特点（2 2 2 2）数据仓库是集成的）数据仓库是集成的数据进入数据仓库之前，必须经过加工与集成对不同的数据来源进行统一数据结构和编码统一原始数据中的所有矛盾之处，如字段的同名异义，异名同义，单位不统一，字长不一致等。总总之之,将将原原始始数数据据结结构构做做一一个个从从面面向向应应用用到到面面向向主主题题的大转变。的大转变。第7页/共122页2、数据仓库特点（3 3 3 3）数据仓库是稳定的）数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更

4、新的。（4 4 4 4）数据仓库是随时间变化的）数据仓库是随时间变化的数据仓库内的数据时限在5 5 1010年，故数据的键码包含时间项，标明数据的历史时期，这适合DSSDSS进行时间趋势分析。数数据据库库只只包包含含当当前前数数据据，即即存存取取某某一一时时间间的的正正确的有效的数据。确的有效的数据。第8页/共122页2、数据仓库特点 (5)(5)(5)(5)数据仓库的数据量大数据仓库的数据量大.大型DWDW是一个TBTB（1000GB1000GB）级数据库问题（一般为10GB10GB级相当于一般数据库100MB100MB的100100倍）(6)(6)(6)(6)数据仓库的硬件要求较高数据仓

5、库的硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统.最好的数据仓库是大的和昂贵的。最好的数据仓库是大的和昂贵的。第9页/共122页近期基本数据：是最近时期的业务数据，是数据仓库用户最感兴趣的部分，数据量大。历史基本数据：近期基本数据随时间的推移，由数据仓库的时间控制机制转为历史基本数据。轻度综合数据：是从近期基本数据中提取出的，这层数据是按时间段选取，或者按数据属性（attributesattributes）和内容（contentscontents）进行综合。高度综合数据层：这一层的数据是在轻度综合数据基础上的再一次综合，是一种准决策数据。5.1.2 数据仓库结构第10页/共12

6、2页元数据:整个数据仓库的组织结构由元数据组织,它不包含数据仓库中的实际数据信息。作用：（1 1）定位数据仓库的目录内容（2 2）数据从业务环境向数据仓库环境传递时数据仓库的目录内容（3 3）指导从当前基本数据到轻度综合数据到高度综合数据的综合算法的选择。组成：（1 1）数据结构（2 2）用于综合的算法（3 3）从业务环境到DWDW规划5.1.2 数据仓库结构第11页/共122页数据仓库结构图第12页/共122页1.数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前，全世界对数据仓库总投资的一半以上均集中

7、在数据集市上。5.1.3 数据集市（Data Mart）第13页/共122页数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。数据集市是指具有特定应用的数据仓库，主要针对某个应用或者具体部门级的应用，支持用户获得竞争优势或者找到进入新市场的具体解决方案2.数据集市概念第14页/共122页3.数据集市与数据仓库的关系数据集市不等于数据仓库，多个数据集市简单合并起来不能成为数据仓库。各数据集市之间对详细数据和历史数据的存储存在大量冗余。同一个问题在不同的数据集市的查询结果可能不一致，甚至互相矛盾。各数据集市之间以及与源数据库系统之间难以管理。第15

8、页/共122页 1、规模小2、特定的应用3、面向部门4、由业务部门定义，设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集11、可升级到完整的数据仓库4.数据集市的特性第16页/共122页5.两种数据集市结构从属数据集市从属数据集市(DependentDataMart)(DependentDataMart)从属：数据直接来自中央数据数据直接来自中央数据库，能够保持数据的一致性。库，能够保持数据的一致性。关键业务部门建立从属的数关键业务部门建立从属的数据集市，可以很好的查询反应据集市，可以很好的查询反应速度

9、。速度。第17页/共122页5.两种数据集市结构独立数据集市(IndependentDataMart)独立：数据直接来自各生产系统。数据直接来自各生产系统。从投资考虑，用来解决各个部从投资考虑，用来解决各个部门比较迫切的决策问题。门比较迫切的决策问题。第18页/共122页6.数据集市与数据仓库的差别数据仓库是基于整个企业的数据模型建立的，它面向企业范围的主题；数据集市是按照某一特定部门的数据模型建立的，由于每个部门有自己特定的需求，因此，对他们对数据集市的期望也不一样，也称作部门级数据仓库部门的主题与企业的主题之间可能存在关联，也可能不存在关联。数据集市的数据组织一般采用星形模型，大型数据仓库

10、的数据组织采用第三范式。第19页/共122页元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境，即关于数据的数据(meta(meta data)data)。元数据就相当于数据库系统中的数据字典元数据包括四种元数据关于数据源的元数据关于数据模型的元数据关于数据仓库映射的元数据关于数据仓库使用的元数据5.1.4元数据第20页/共122页它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为：（1 1）数据源中所有物理数据结构，包括所有的数据项及数据类型。（2 2）所有数据项的业务定义。（3 3）每个数据项更新的频率，以及由谁或哪个过

11、程更新的说明。（4 4）每个数据项的有效值。1 1、关于数据源的元数据第21页/共122页这类元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。这类元数据可以支持用户从数据仓库中获取数据。数据仓库的数据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点，再对模型加以修改和变换。2 2、关于数据模型的元数据第22页/共122页这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项与数据仓库建立了映射关系，就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的，经过那些转换、变换和加载过程3 3

12、、关于数据仓库映射的元数据第23页/共122页3、关于数据仓库映射的元数据一个抽取要经过以下几个步聚获取过滤验证融合综合装载存档从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作，其工作量占整个数据仓库开发的70%第24页/共122页这类元数据是数据仓库中信息的使用情况描述。数据仓库的用户最关心的是两类元数据：（1 1）元数据告诉数据仓库中有什么数据，它们从哪里来。即如何按主题查看数据仓库的内容。（2 2）元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足他们的需求，或者与他们的愿望相似，他们就可以再次使用那些查询而不必从头开始编程。关于数据仓库使用的元数据能帮助用户到数

13、据仓库查询所需要的信息，用于解决企业问题。4、关于数据仓库使用的元数据第25页/共122页5.25.2数据仓库系统数据仓库系统 5.2.1数据仓库系统结构数据仓库系统由数据仓库（DW）、仓库管理和分析工具三部分组成第26页/共122页1、数据仓库管理系统（1 1）定义部分用于定义和建立数据仓库系统。它包括：设计和定义数据仓库的数据库定义数据来源确定从源数据向数据仓库复制数据时的清理和增强规则（2 2）数据获取部分该部件把数据从源数据中提取出来，依定义部件的规则，抽取、转化和装载数据进入数据仓库。第27页/共122页（3 3）管理部分它用于管理数据仓库的工作，包括：对数据仓库中数据的维护

14、把仓库数据送出给分散的仓库服务器或DSSDSS用户对仓库数据的安全、归档、备份、恢复等处理工作1、数据仓库管理系统第28页/共122页（4 4）信息目录部件（元数据）数据仓库的目录数据是元数据，由三部分组成：技术目录：由定义部件生成，关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映象信息。业务目录：由仓库管理员生成，关于仓库数据的来源及当前值；预定义的查询和报表细节；合法性要求等。信息引导器：使用户容易访问仓库数据。利用固定查询或建立新的查询，生成暂时的或永久的仓库数据集合的能力等。（5 5）DBMSDBMS部分 DWDW的存储形式仍为关系型数据库。1、数据仓库管理系统第29页/共

15、122页分析工具集分两类工具：（1）查询工具数据仓库的查询不是指对记录级数据的查询，而是指对分析要求的查询。一般包含：可视化工具：以图形化方式展示数据，可以帮助了解数据的结构、关系以及动态性。2、数据仓库工具集第30页/共122页多维分析工具（OLAP工具）:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取，这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角，如时间、地域、业务等。2、数据仓库工具集第31页/共122页（2）数据挖掘工具从大量数据中挖掘具有规律性知识，需要利用数据挖掘（Data Mining）工具。2、数据仓库工具集第32页

16、/共122页3、数据仓库的运行结构数据仓库应用是一个典型的客户/服务器（C/SC/S）结构形式数据仓库采用服务器结构，客户端所做的工作有：客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQLSQL查询、复杂的计算和各类综合功能等。现在，越来越普通的一种形式是三层C/SC/S结构形式，即在客户与数据仓库服务器之间增加一个多维数据分析（OLAPOLAP）服务器。第33页/共122页OLAPOLAP服务器将加强和规范化决策支持的服务工作，集中和简化了原客户端和数据仓库服务器的部分工作，降低了系统数据传输量。这种结构形式工作效率更高。这种结构形式工作效率更高。三层C/S结构

17、第34页/共122页5.2.2 5.2.2 数据仓库的存储数据仓库的存储数据仓库存储采用多维数据模型。维就是相同类数据的集合，商店、时间和产品都是维各个商店的集合是一维，时间的集合是一维，商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。两维表，如通常的电子表格。三维构成立方体，若再增加一维，则图形很难想象，也不容易在屏幕上画出来。第35页/共122页数据仓库是以多维表型的“维表事实表”结构形式组织的，共有三种形式：1、星型模型大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”（大表）以及多个“

18、维表”（小表）所组成。“事实表”中存放大量关于企业的事实数据（数量数据）。例如：多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据，维表是围绕事实表建立的较小的表5.2.2 5.2.2 数据仓库的存储数据仓库的存储第36页/共122页第37页/共122页2、雪花模型雪花模型是对星型模型的扩展，雪花模型对星型模型的维表进一步层次化，原来的各维表可能被扩展为小的事实表，形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量，以及把较小的维表联合在一起来改善查询性能。在上面星型模型的数据中，对“产品表”“日期表”“地区表”进行扩展形成雪花模型数据见下图。5.2.2 5.2

19、.2 数据仓库的存储数据仓库的存储第38页/共122页第39页/共122页3、星网模型星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维，如时间维，连接多个事实表。5.2.2 5.2.2 数据仓库的存储数据仓库的存储第40页/共122页第（2 2）部分 5.3 联机分析处理（OLAP）5.4 数据仓库的决策支持第41页/共122页5.3 5.3 联机分析处理联机分析处理联机分析处理（On Line Analytical Processing，OLAP）的概念最早是由关系数据库之父E.F.Codd(科德)于1993年提出的。在数据仓库系统中，联机分析处理是重要的数据分析工具。

20、OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。第42页/共122页5.3.1 基本概念OLAP是在OLTP(联机事务处理系统)的基础上发展起来的。OLTP是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数据的查询和增、删、改等进行处理。OLAP是以数据仓库为基础的数据分析处理。它有两个特点：一是在线性（On Line），由客户机/服务器这种体系结构来完成的；二是多维分析，这也是OLAP的核心所在。第43页/共122页1 1、OLAPOLAP的定义的定义联机分析处理是共享多维信息的快速分析。它体现了四个特征：（1）快速性：用户对OLAP的快速反应能力

21、有很高的要求。（2）可分析性：OLAP系统应能处理任何逻辑分析和统计分析。（3）多维性：系统必须提供对数据分析的多维视图和分析。（4）信息性：OLAP系统应能及时获得信息，并且管理大容量的信息。第44页/共122页2 2、OLAPOLAP准则准则 1993年，E.F.Codd提出OLAP的12条准则，其主要的准则有：1）多维数据分析；2）客户/服务器结构；3）多用户支持；4）一致的报表性能等。第45页/共122页2 2、OLAPOLAP准则准则多维概念视图企业的数据空间本身就是多维的。因此OLAP的概念模型也应是多维的。用户可以对多维数据模型进行切片、切块、旋转坐标或进行多维的联合（概括和聚

22、集）分析。第46页/共122页稳定的报表性能报表操作不应随维数增加而削弱，即当数据维数和数据的综合层次增加时，提供的报表能力和响应速度不应该有明显的降低。2 2、OLAPOLAP准则准则第47页/共122页客户/服务器体系结构 OLAP是建立在客户/服务器体系结构上的。要求多维数据库服务器能够被不同的应用和工具所访问。2 2、OLAPOLAP准则准则第48页/共122页多用户支持当多个用户要在同一分析模式上并行工作，需要这些功能的支持。灵活的报表生成报表必须充分反映数据分析模型的多维特征，并可按用户需要的方式来显示它。2 2、OLAPOLAP准则准则第49页/共122页3 3、

23、OLAPOLAP的基本概念的基本概念OLAP是针对特定问题的联机数据访问和分析。（1）变量：变量是数据的实际意义，即描述数据“是什么”。（2）维：维是人们观察数据的特定角度。如产品维、顾客维、时间维等。（3）维的层次：数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。（4）维成员：维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。第50页/共122页3 3、OLAPOLAP的基本概念的基本概念5）多维数组：一个多维数组可以表示为：（维1，维2，维n，变量）一个5维的结构，即（产品，地区，时间，销售渠道，销售额）。（6）数据单元（单元格）：多维数组的取值称为数据

24、单元。如：5维数据单元（牙膏，上海，1998年12月，批发，销售额为100000）。第51页/共122页4、OLAP与OLTP的关系与比较（1）OLTP(联机事务处理系统)OLTP是低层人员利用计算机网络对数据库中的数据进行查询、增、删、改等操作，以完成事务处理工作。OLTP利用数据库快速地处理具体业务。OLTP应用要求多个查询并行。第52页/共122页4、OLAP与OLTP的关系与比较（2）OLAPOLAP是高层人员对数据仓库进行信息分析处理。存取大量的数据包含聚集的数据按层次对比不同时间周期的聚集数据以不同的方式来表现数据要包含数据元素之间的复杂的计算能够快速的响应用户的查询第

25、53页/共122页4、OLAP与OLTP的关系与比较（3）OLAP与OLTP对比（对比表）OLTPOLAP数据库数据数据仓库数据细节性数据综合性数据当前数据历史数据一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理用户数量大用户相对较少面向应用，事务驱动面向分析，分析驱动第54页/共122页 5.3.2 OLAP5.3.2 OLAP5.3.2 OLAP5.3.2 OLAP的数据组织的数据组织 MOLAP(多维OLAP)和ROLAP(关系OLAP)是OLAP的两种具体形式：ROLAP是基于关系数据库存储方式建立的OLAP。多维数据映射成平面型的关系表。采用星型模型。MOLAP是基

26、于多维数据库存储方式建立的OLAP；表现为“超立方”结构，类似于多维数组的结构。在分析中，需要“旋转”数据立方体以及“切片”、“切块”等操作。第55页/共122页MOLAPMOLAP和ROLAPROLAP的对比表MOLAPMOLAPROLAPROLAP固定维可变维维交叉计算多维视图行级计算超大型数据库读-写应用维数据变化速度快数据集市数据仓库第56页/共122页例如，以“产品、城市、时间”三维数据，如图 5.3.3 OLAP5.3.3 OLAP的决策支持：OLAPOLAP多维数据分析第57页/共122页1 1、基本功能：切片和切块对三维数据，通过“切片”，分别从城市和产品等不同的角度观察销售

27、情况：第58页/共122页2 2）钻取钻取：例如，19951995年各部门销售收入表如下：第59页/共122页对时间维进行下钻操作，获得新表如下：钻取（续）第60页/共122页旋转前的数据旋转第61页/共122页旋转后的数据旋转（续）第62页/共122页旋转后再切片第63页/共122页假设有一个5维数据模型，5个维分别为：商店，方案，部门，时间，销售。1三维表查询在指定“商店=ALL，方案=现有”情况的三维表（行为部门，列为时间和销售量）5.3.45.3.4、OLAPOLAP实例第64页/共122页19941995%增长率销售量利润增长%销售量利润增长%销售量利润增长服装234,

28、67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6(8.0)汽车375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定商店、方案后的三维表第65页/共122页19941995%增长率销售利润增长%销售利润增长%销售利润增长汽车375,09822.4325,40227.2(13.2)21.4维修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,54547.55.38.2音乐63,7678.222,07114.2(63.

29、4)7.3 2 2、向下钻取对汽车部门向下钻取出具体项目的销售情况和利润增长情况。第66页/共122页1995Sales服装381,102家具66,005汽车325,402所有其它306,6773 3、切片表切片（SliceSlice）操作是除去一些列或行不显示第67页/共122页1995销售量现有计划差量差量%服装381,102350,00031,1028.9家具66,00569,000(2,995)(4.3)汽车325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74 4、旋转表这次旋转操作得到19951995年的交叉表方案为：现有

30、、计划、差量、差量%。第68页/共122页5.4.2 5.4.2 数据仓库的决策支持数据仓库的决策支持美国著名的NCR数据仓库公司对数据仓库总结5种决策支持能力。1、报表 2、随机分析 3、预测 4、实时决策 5、事件触发的自动决策第69页/共122页1 1、报表、报表数据仓库所面临的最大挑战是数据集成。传统的环境经常有上百个数据源，每一数据源都有各自定义的标准和实施技术。建立的数据仓库是通过收集各种来源的数据，来回答预先设置的一些问题，告诉决策者“发生了什么”。它为以后数据仓库的发展奠定了基础。第70页/共122页2 2、随机分析、随机分析数据仓库应用的第二种决策支持是，从“发生了什么”转向

31、“为什么会发生”。分析活动就是了解报表数据的涵义，需要更多更详细的数据进行各种角度的分析。在第二阶段的数据仓库主要用于随机分析。第71页/共122页3 3、预测数据仓库的第三种决策支持是帮助决策者来预测未来，回答“将要发生什么”。数据仓库需要利用历史资料创建预测模型。第72页/共122页4 4、实时决策数据仓库的第4种决策支持是企业需要准确了解“正在发生什么”，从而需要建立动态数据仓库（实时数据库），用于支持战术型决策，即实时决策。有效地解决当前的实际问题。第1到第3种决策支持的数据仓库都以支持企业内部战略性决策为重点，帮助企业制定发展战略。第4种决策支持侧重在战术性决策支持。动态数据仓库能够

32、逐项产品、逐个店铺、逐秒地作出最佳决策支持。第73页/共122页5 5、事件触发的自动决策数据仓库的第5种决策支持是由事件触发，利用动态数据库自动决策，达到“希望发生什么”。例如，电子货架标签技术结合动态数据仓库，可以帮助企业按照自己的意愿实现复杂的价格管理自动化，以便以最低的损耗售出最多的存货。第74页/共122页 5.5 5.5 知识发现与数据挖掘知识发现与数据挖掘 5.6 5.6 数据挖掘的决策支持及应用数据挖掘的决策支持及应用第（3 3）部分第75页/共122页演变阶段商业问题支持技术产品厂家产品特点数据搜集（20世纪60年代）数据访问（20世纪80年代）数据仓库决策支持（20世纪90

33、年代数据挖掘（正在流行）“过去五年中整个有关联锁超市总收入是多少？”“联锁超市第一分部去年三月的销售额是多少？”“联锁超市第一分部去年三月的销售额是多少？第二分部据此可得出什么结论？”“下个月第二分部的销售会怎么样？为什么？”计算机、磁带和磁盘关系数据库（RDBMS），查询语言（SQL），ODBCOLAP、多维数据库和数据仓库高级算法、多处理器计算机和海量数据库IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初创公司提供历史性

34、的静态的数据在记录级提供历史性动态数据在各种层次上提供回溯的动态数据提供预测性信息表5-1数据挖掘的演变进程第76页/共122页产品ClementineDarwinDataminingWorkstationDataEngineIBMIntelligentMinerF-DBMSIDISInformationHarvesterKnowledgeSeekerNeuralWarePrisonReMind技术供应商规则归纳神经网络、遗传算法等神经网络神经网络、模糊逻辑、信号处理多种技术分数维规则发现模糊专家系统规则发现、决策树神经网络神经网络基于实例的推理、归纳逻辑IngegralSolutionsTh

35、inkingMachinesCorp.HNCSoftwareInc.MITGmbhIBMCorp.Cross/ZInternationalInc.InformationalDiscoveryInc.InformationalHarvestingAngossSoftwareInt1Ltd.NeuralWareInc.NestorInc.CognitiveSystems表5-2一些主要的数据挖掘产品第77页/共122页数据挖掘的兴起（1 1）8080年在美国召开了第一届国际机器学习研讨会；（2 2）8989年8 8月于美国底特律市召开的第一届KDDKDD国际学术会议；（3 3）9595年在加拿大

36、召开了第一届知识发现和数据挖掘国际学术会议；（4 4）我国于8787年召开了第一届全国机器学习研讨会。第78页/共122页5.5.1 5.5.1 知识发现与数据挖掘概念知识发现（KDD）：从数据中发现有用知识的整个过程。KDD过程定义：从数据集中提取出可信的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。“模式”可以看成是“知识”的雏形，经过验证、完善后形成知识。数据挖掘（DMDM）：KDDKDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patternspatterns）。第79页/共122页数据源数据数据集成目标数据预处理后数据转换数据模式知识数据选择预处理数据挖掘数据

37、转换结果表达和解释数据准备数据挖掘结果表达和解释KDDKDD过程第80页/共122页5.5.2 5.5.2 数据挖掘方法和技术（一）归纳学习方法分为两大类：信息论方法（决策树方法）和集合论方法 1 1、信息论方法（决策树方法）利用信息论的原理建立决策树或者是决策规则树。（1 1）ID3ID3方法：QuiulanQuiulan研制的ID3ID3方法是利用信息论中互信息建立决策树。（2 2）IBLEIBLE方法：我们研制的IBLEIBLE方法，是利用信息论中信道容量，寻找数据库中信息量大的多个字段的取值建立决策规则树。第81页/共122页 2 2、集合论方法（1 1）粗糙集（Rough Set

38、Rough Set）方法对数据库中的条件属性集与决策属性集建立上下近似关系，对下近似集合建立确定性规则，对上近似集合建立不确定性规则（含可信度）。（2 2）关联规则挖掘在交易事务数据库中，挖掘出不同商品集的关联关系，即发现哪些商品频繁地被顾客同时购买。5.5.2 5.5.2 数据挖掘方法和技术第82页/共122页（二）仿生物技术仿生物技术典型的方法是神经网络方法和遗传算法。1 1、神经网络方法：包括：前馈式网络、反馈式网络、自组织网络等多个神经网络方法。2 2、遗传算法：这是模拟生物进化过程的算法。它由三个基本算子组成：繁殖（选择）、交叉（重组）、变异（突变）遗传算法起到产生优良后代的

39、作用，经过若干代的遗传，将得到满足要求的后代（问题的解）。5.5.2 5.5.2 数据挖掘方法和技术第83页/共122页（三）公式发现在工程和科学数据库中对若干数据项（变量）进行一定的数学运算，求得相应的数学公式。1 1物理定律发现系统BACONBACON BACONBACON发现系统完成了物理学中大量定律的重新发现。2 2经验公式发现系统FDDFDD 我们研制了FDDFDD发现系统，寻找由数据项的初等函数或复合函数组合成的经验公式。5.5.2 5.5.2 数据挖掘方法和技术第84页/共122页（四）统计分析方法利用统计学原理通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识的方

40、法。（五）模糊数学方法利用模糊集合理论进行数据挖掘，如模糊聚类、模糊分类等。（六）可视化技术利用可视化技术分析数据库，找到潜在的有用信息。5.5.2 5.5.2 数据挖掘方法和技术第85页/共122页5.5.3 5.5.3 数据挖掘的知识表示（一）主要有四种：规则、决策树、浓缩数据、公式。1、规则规则知识由前提条件和结论两部分组成前提条件由字段项（属性）的取值的合取（与）和析取（或）组合而成。结论为决策字段项（属性）的取值或者类别组成。第86页/共122页第87页/共122页2、决策树例如：上例的人群数据库，按ID3ID3方法得到的决策树如下：数据挖掘的知识表示（二）第88页/共122

41、页 3、知识基（浓缩数据）例如上例的人群数据库，通过计算可以得出身高是不重要的字段，删除它后，再合并相同数据元组，得到浓缩数据如下表：数据挖掘的知识表示（三）第89页/共122页 5、公式例如，太阳系行星运动数据中包含行星运动周期（旋转一周所需时间，天），以及它与太阳的距离（围绕太阳旋转的椭圆轨道的长半轴，百万公里），数据如下表：发现的公式为：d3/p2=25数据挖掘的知识表示（五）第90页/共122页5.6 5.6 数据挖掘的决策支持及应用5.6.1 5.6.1 数据挖掘的决策支持分类有：关联分析、时序模式、聚类、分类、偏差检测、预测。1 1、关联分析若两个或多个数据项的取值之间重复出现

42、且概率很高时，它就存在某种关联，可以建立起这些数据项的关联规则。2 2、时序模式通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。第91页/共122页3 3、聚类：在数据库中找出一系列有意义的子集，即类。4 4、分类：对数据库中的类，找出该类别的概念描述规则。5 5、偏差检测：在数据库中找出异常数据。6 6、预测：利用历史数据找出变化规律的模型，并用此模型预测未来。5.6 5.6 数据挖掘的决策支持及应用第92页/共122页5.6.2 5.6.2 决策树及其应用1 1、决策树概念：决策树是用样本的属性作为结点，用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进

43、行分析和归纳而产生的。F根结点是所有样本中信息量最大的属性.F中间节点是该结点为根据的子树所包含的样本子集中信息量最大的属性.每个内部节点表示在一个属性上的测试F每个分枝代表一个测试输出,每个树叶节点是样本的类别值.第93页/共122页5.6.2 5.6.2 决策树及其应用决策树对新样本的分类过程:即通过新样本属性值的测试F从根结点开始按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别.第94页/共122页n数据挖掘的决策树方法的原理是信息论，信息论是C.E.ShannonC.E.Shannon为解决信息传递（通信）过程问题而建立的理论，也称为统计通信理

44、论。n一个传递信息的系统是由发送端（信源）和接收端（信宿）以及连接两者的通道（信道）三者组成。n信息论把通信过程看做是在随机干扰的环境中传递信息的过程。在这个通信模型中，信息源和干扰（噪声）都被理解为某种随机过程或随机序列。5.6.2 5.6.2 决策树及其应用第95页/共122页n在进行实际的通信之前，收信者（信宿）不可能确切了解信源究竟会发出什么样的具体信息，不可能判断信源会处于什么样的状态。这种情形就称为信宿对于信源状态具有不确定性。而且这种不确定性是存在于通信之前的。因而又叫做先验不确定性。n在进行了通信之后，信宿收到了信源发来的信息，这种先验不确定性才会被消除或者被减少。n如果干扰很

45、小，信源发出的信息能够被信宿全部收到，在这种情况下，信宿的先验不确定性就会被完全消除。5.6.2 5.6.2 决策树及其应用第96页/共122页n在一般情况下，干扰总会对信源发出的信息造成某种破坏，使信宿收到的信息不完全。因此，先验不确定性不能全部被消除，只能部分地消除。n通信结束之后，信宿还仍然具有一定程度的不确定性。这就是后验不确定性。n显然，后验不确定性总要小于先验不确定性，不可能大于先验不确定性。显然，后验不确定性总要小于先验不确定性，不可能大于先验不确定性。5.6.2 5.6.2 决策树及其应用第97页/共122页n如果后验不确定性的大小正好等于先验不确定性的大小，这就表示信宿根本没

46、有收到信息。n如果后验不确定性的大小等于零，这就表示信宿收到了全部信息。n可见，可见，信息是用来消除（随机）不确定性的度量。信息是用来消除（随机）不确定性的度量。信息量的大小，由所消除的不确定性的大小来计信息量的大小，由所消除的不确定性的大小来计量。量。5.6.2 5.6.2 决策树及其应用第98页/共122页信息论基本概念信息论基本概念n n定义定义1 1 1 1：若存在：若存在n n n n个相同概率的消息，则每个消息的概率个相同概率的消息，则每个消息的概率p p p p是是1/n1/n1/n1/n，一个消息传，一个消息传递的信息量为递的信息量为-Log-Log-Log-Log2 2 2

47、2(1/n),(1/n),(1/n),(1/n),概率越大概率越大,信息量越小信息量越小 n如英语有2626个字母,假如每个字母在文章中出现的次数平均的话,每个字母的信息量为:I(e)=-logI(e)=-log2 21/26=4.71/26=4.7如常用汉字有25002500个,假如每个汉字在文章中出现的次数平均的话,每个汉字的信息量为:I(e)=-logI(e)=-log2 21/2500=11.31/2500=11.35.6.2 5.6.2 决策树及其应用决策树及其应用第99页/共122页n n定义定义2 2 2 2：若有：若有n n n n个消息，其给定概率分布为个消息，其给定概率分布

48、为P=(p1,p2pn)P=(p1,p2pn)P=(p1,p2pn)P=(p1,p2pn)，则由该，则由该分分布传递的信息量布传递的信息量称为称为P P P P的熵，记为的熵，记为n n定义定义3 3 3 3：若一个记录集合：若一个记录集合T T T T根据类别根据类别属性属性的值被分成互相独立的类的值被分成互相独立的类C1,C2.CkC1,C2.CkC1,C2.CkC1,C2.Ck，则识别则识别T T T T的一个元素所属哪个类所需要的信息量为的一个元素所属哪个类所需要的信息量为Info(T)=I(p)Info(T)=I(p)Info(T)=I(p)Info(T)=I(p)，其中，其中P P

49、 P P为为C1,C2CkC1,C2CkC1,C2CkC1,C2Ck的概率分布，即的概率分布，即P=(|CP=(|CP=(|CP=(|C1 1 1 1|/|T|,.|C|/|T|,.|C|/|T|,.|C|/|T|,.|Ck k k k|/|T|)|/|T|)|/|T|)|/|T|)5.6.2 5.6.2 决策树及其应用决策树及其应用第100页/共122页定义定义4 4：若先根据非类别属性：若先根据非类别属性X X的值将的值将T T分成集合分成集合T T1 1,T,T2 2,TTn n，则确定，则确定T T中一个元素类的信息量可通过确定中一个元素类的信息量可通过确定T Ti i的的加权平均值

50、加权平均值来得到，即来得到，即Info(TInfo(Ti i)的加权平均值为：的加权平均值为：Info(X,T)=(|TInfo(X,T)=(|Ti i|/|T|)Info(T|/|T|)Info(Ti i)5.6.2 5.6.2 决策树及其应用决策树及其应用n n定义定义5 5 5 5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T T T T的的一个元素的信息量，另一个信息量是在已得到的属性一个元素的信息量，另一个信息量是在已得到的属性X X X X的值后需确定的的值后需确定的T T T T一个元一个元素的信息量，信息增

展开阅读全文