数据挖掘教案(73页).doc-得力文库

资源描述

《数据挖掘教案(73页).doc》由会员分享，可在线阅读，更多相关《数据挖掘教案(73页).doc（70页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、-数据挖掘教案第一周上课节次3节课型理论课题绪论教学目的使学生初步认识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义及其应用价值时间分配教学内容板书或课件版面设计数据挖掘的产生数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。计算机技术和信息技术的发展使其有能力处理这样大量的数据。数据挖掘的应用价值应用数据挖掘从大量数据中发现规律是面向某一应用的规律，具有具体的指导意义。早期数据挖掘主要应用于商业领域，随着人们对数据挖掘了解的逐步深入，其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。数据挖掘的发展过程数据挖掘是20世纪80

2、年代人工智能研究项目失败后，人工智能转入实际应用时提出的，是一个新兴的、面向商业应用的人工智能研究。数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据仓库的产生20世纪80年代出现了数据仓库的思想，数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。数据仓库的应用价值传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称，导致企业无法使用现有的业务处理来满

3、足决策分析的需要，因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境，这就是数据仓库存在的价值。数据仓库的发展过程数据仓库是一种新的数据处理体系结构，是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库，为企业决策支持系统提供所需的信息，是一种信息管理技术。目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。数据仓库的定义数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。数据仓库与数据挖掘的关系（1）数据仓库系统的数据可以作为数据挖

4、掘的数据源（2）数据挖掘的数据源不一定必须是数据仓库系统数据挖掘的功能数据挖掘的目标是从数据中发现隐含的、有意义的知识，包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。（1）概念描述对某类对象的内涵进行描述，并概括这类对象的有关特征。其中，特征性描述用于描述某类对象的共同特征，区别性描述用于描述不同类对象之间的区别。（2）关联分析关联分析的目的在于找出数据中隐藏的关联网。（3）分类与预测所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组，其关键是确定对数据按照什么标准或什么规则进行分类。所谓预测就是利用历史数据就爱能力模型，再运用最新数据作

5、为输入值，获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。（4）聚类分析又称为无指导的学习，其目的在于客观地按照被处理对象的特征分类，将有相同特征的对象归为一类。（5）趋势分析又称为时间序列分析，是从相当长的时间的发展中发现规律和趋势，是时序数据挖掘最基本的内容。（6）孤立点分析又称为孤立点挖掘，是指数据库中包含的一些与数据的一般行为或模型不一致的数据。（7）偏差分析又称为比较分析，是对差异和极端特例的描述，用于揭示事物偏离常规的异常现象。数据挖掘常用技术数据挖掘算法是数据挖掘技术的一部分，数据挖掘技术用于执行数据挖掘功能，一个特定的数据挖掘功能只适用于给定的领域。（1）聚类检

6、测方法是最早的数据挖掘技术之一，在聚类检测技术中，不是搜寻预先分类的数据，也没有自变量和因变量之分，因此也称为无指导的知识发现或无监督学习。聚类生成的组叫簇，是数据对象的集合。聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性，不同簇的两个对象之间具有较高的向异性。用于数据挖掘的聚类检测方法有：划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。（2）决策树方法主要应用于分类和预测，提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题，每个问题决定了继续下去的问题会是什么。决策树方法适合于处理费数值型数据。（3）人工神经网络

7、方法人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学习和应用所学知识，生成分类和预测的模式。对于数据是不定性的和没有任何明显模式的情况，应用人工神经网络比较有效。人工神经网络方法主要有：前馈式网络、反馈式网络和自组织网络。（4）遗传算法该算法模仿人工选择培育良种的思路，从一个初始规则集合开始，迭代地通过交换对象成员产生群体，评估并择优复制，优胜劣汰逐代积累计算，最终得到最有价值的知识集。繁殖：从一个旧种群选择出生命力强的个体产生新种群的过程。交叉：选择两个不同个体的部分进行交换，形成新个体的过程。变异：对某些个体的某些基因进行变异。（5）关联分析方法包含关联发

8、现（能够系统地、有效地得到关联规则，找出关联组合，在关联组合中，如果出现某一项，另一项也会出现）、序列模式发现（找到时间上连续的事件）和类似的时序发现模式（先找到一个事件顺序，再推测出其它类似的事件顺序）。（6）基于记忆的推理算法即使用一个模型的已知实例来预测未知的实例。数据挖掘的过程某些具有特定的应用问题和应用背景的领域是最能体现数据挖掘作用的应用领域。数据挖掘研究方向（1）专门用于知识发现的形式化和标准化的数据挖掘语言。（2）数据挖掘过程中的便于用户理解的及人机交互的可视化方法。（3）网络环境下的数据挖掘技术。（4）加强对各种非结构化数据的挖掘。数据挖掘应用的热点（1）网站的数据挖掘（2）

9、生物信息或基因的数据挖掘（3）文本的数据挖掘教学后记本章节的重点是数据挖掘与数据仓库的定义，难点是它们的应用价值，学生对它们的应用领域及案例相对较为感兴趣。上课时间第二周上课节次3节课型理论课题数据仓库的定义、结构、说明及其清理教学目的使学生初步了解数据仓库教学方法讲授重点、难点数据仓库的定义及其结构时间分配教学内容板书或课件版面设计数据仓库是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史的数据，这些数据时在传统的操作型数据库中很难或不能得到的。数据仓库的4个基本特征：（1）数据仓库的数据是面向主题的。（2）数据仓库的数据是集成的。（3）数据仓库的数据是不可更新的。（4）数据仓

10、库的数据时随时间不断变化的。数据仓库的数据是面向主题的面向主题性表示数据仓库中数据组织的基本原则，数据仓库中的所有数据都是围绕着某一主题组织和展开的。（1）主题的概念主题是一个抽象的概念，是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象，在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式，就是在较高上分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。（2）主题的划分原则在划分主题是，必须保证每个主题的独立性和完备性。主题确定后需要确定主题应该包含的数据。在主题的数据组织中应该注意

11、，不同的主题之间可能出现相互重叠的信息，这种主题间的重叠是逻辑的，而不是同一数据内容的物理存储重复。数据仓库的数据是集成的在数据进入数据仓库之前，必然要经过转换、统一与综合，这是数据仓库建设中最关键也是最复杂的一步。数据仓库的数据是不可更新的数据仓库的数据主要供企业决策分析之用，不是用来进行日常操作的，一般只保存过去的数据，而不随源数据的变化而实时更新，数据仓库中的数据一般不再修改。由于数据仓库的数据是不可更新的，因此也称其具有非易失性。这种不可更新性可以支持不同的用户在不同的时间查询相同的问题时获得相同的结果。数据仓库的数据是随时间不断变化的数据仓库的数据随时间的不断变化主要体现在数据仓库随

12、时间变化不断增加新的数据内容。数据仓库的数据初装完成后，再向数据仓库输入数据的过程称为数据追加。数据追加的内容仅限于上次向数据仓库输入后元数据库中变化了的数据。数据仓库中的数据可分为多个级别，不同综合级别称之为“粒度”。元数据元数据是“关于数据的数据”，可对数据仓库中的各种数据进行详细的描述与说明，说明每个数据的上下文关系，使每个数据具有符合现实的真实含义，使最终用户了解这些数据之间的关系。（1）元数据在数据仓库中的作用为决策支持系统分析员和高层决策人员服务提供便利。解决面向应用的操作型环境和数据仓库的复杂关系。（2）元数据的使用元数据在数据仓库开发期间的使用。元数据在数据源抽取中的作用。元数

13、据在数据清理与综合中的使用。（3）元数据的分类按元数据的类型可分为关于基本数据的元数据、用于数据处理的元数据和关于企业组织结构的元数据。按抽象级别可分为概念级、逻辑级和物理级的元数据。按元数据承担的任务可分为静态元数据和动态元数据。从用户的角度对元数据分类没有一个统一的标准，往往与元数据的使用目的有关，一般可分为技术元数据和业务元数据两类。（4）元数据的内容数据源的元数据数据模型的元数据数据准备区元数据数据库管理系统元数据前台元数据粒度的概念粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别，它影响存放在数据仓库中的数据量得大小，同时影响数据仓库所能回答查询问题的细节程度。粒度可分为按时

14、间段综合数据的粒度和按采样率高低划分的样本数据库两种形式。（1）按时间段综合数据的粒度按时间段综合数据的粒度是对数据仓库中的数据的综合程度高低的一个度量，一般是按照不同的时间段来综合数据。它及影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。为了适应不同查询的需要，数据仓库中经常建立多重粒度。（2）样本数据库样本数据库的粒度级别不是根据综合程度的不同来划分的，而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。样本数据库的抽取可以按照数据的重要程度不同来进行，样本数据库是建立在不同时点上的粒度。分割问题分割也是数据仓库中的一个重要概念，它是指将数据分散到

15、各自的物理单元中去，以便能分别独立处理，以提高数据处理效率。数据分割后俄数据单元称为分片。（1）分割的优越性容易重构容易重组自由索引顺序扫描容易恢复容易监控（2）数据分割的标准数据分割的标准石油开发人员选择的（有时间、商业领域、地理位置、组织单位等），在数据仓库中，按时间总是必需的。（3）分割的层次一般分为系统层（由数据库管理系统和操作系统完成分割）和应用层（由应用程序完成分割）两层。数据仓库中的数据组织形式（1）简单堆积结构这是数据仓库中最常用、最简单的数据组织形式，它从面向应用的数据库中每天的数据中提取出来，然后按照相应的主题集成为数据仓库中的记录。（2）轮转综合结构该结构将数据存储单位分

16、为日、周、月、年几个级别，结构简捷，数据量比简单堆积结构大大减少，但损失了数据细节。（3）简单直接结构类似于简单堆积文件，但不是每天集成后放入数据仓库，而是间隔一定时间间隔。简单直接结构也可以认为是按一定的时间间隔对数据库的采样。（4）连续结构通过两个或更多的连续的简单直接结构数据组织形式的文件，可以生成连续结构数据组织形式的文件。对于各种文件结构的最终实现，关系数据库中仍然要依靠“表”的结构。数据仓库通过标准手册进行说明，标准手册中包含：描述什么是数据仓库描述对数据仓库输送数据的源系统如何使用数据仓库有了问题如何获得帮助谁负责什么数据仓库的迁入计划数据仓库数据如何与面向应用的数

17、据相关联如何为决策分析系统使用数据仓库什么时候不向数据仓库中加数据数据仓库中没有什么类型的数据可利用的元数据的说明数据仓库的记录系统是什么数据从数据仓库中“清除”有以下几种形式：（1）数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中。（2）数据从高性能的介质转移到大容量介质上。（3）数据从数据仓库系统中真正清除。（4）数据从偶给你体系结构的一个层次转移到另一个层次。教学后记本章节的重点是数据仓库的定义，难点是数据仓库的结构，学生掌握情况一般，还需课后多查看相关资料。上课时间第三周上课节次3节课型理论课题数据仓库系统的设计、数据的访问及应用教学目的使学生学会设计数据仓库

18、系统，并访问其数据教学方法讲授重点、难点数据仓库系统的设计与素具仓库数据的访问时间分配教学内容板书或课件版面设计数据仓库系统设计方案数据仓库是一个面向数据分析处理的数据环境，数据仓库的数据是面向主体的、集成的、不可更新的、随时间不断变化的。（1）数据仓库系统设计与数据库系统设计的不同主要表现在面向的处理类型步步、面向的需求不同、系统设计的目标不同、两者的数据来源或系统的输入不同以及设计的方法和步骤不同等几个方面。（2）声明周期发SDLCSDLC有独立的手机需求和分析需求的阶段，一旦进入到构建数据库阶段，系统的需求就基本不变了。（3）螺旋式卡法方法CLDSCLDS方法没有独立的收集需求和分析需求

19、的阶段，而是将对需求的过程贯穿整个设计的过程。（4）数据驱动创建数据仓库的工作实在原有的数据库的数据基础上进行的，这种从已有数据出发的数据仓库设计方法被称为“数据驱动”的系统设计方案。其基本思路是：利用以前所取得的工作成果不再是面向应用利用数据模型数据仓库的系统设计是一个动态的返回和循环的过程。数据仓库设计的三级数据模型数据模型是对现实世界进行抽象的工具，抽象的程度不同，性阿城的抽象级别层次就不同。数据仓库的数据模型中不包含纯操作型的数据。数据仓库的数据模型扩充了码结构，增加了时间属性作为码的一部分。数据仓库的数据模型中增加了一些导出数据。在数据仓库设计中存在着概念级数据模型、逻辑数据模型和物

20、理数据模型三级。（1）概念数据模型是主观与客观之间的桥梁，最常用的表示方法是实体联系（E-R）法。（2）逻辑数据模型数据仓库中采用的路基数据模型就是关系模型，无论主题还是主题之间的联系都用关系来表示。数据仓库的逻辑数据模型描述了数据仓库的主题的逻辑实现，即每个主题所对应的关系表的关系模式的定义。（3）物理数据模型数据仓库的物理数据模型就是逻辑数据模型在数据仓库中的实现。（4）高层数据模型、中间层数据模型和低层数据模型高层数据模型对数据抽象程度最大，使用的主要表达工具是E-R图。高层数据模型建好后，对高层数据模型中标识的每个主要的主题域或实体，都要建一个中间层数据模型，中间层数据模型有联接数据组

21、（主要用于标识本主题域与其它主题域之间的联系）、基本数据组（基本不会发生变化的数据项）、二次数据组（基本不变化，但又有变化的可能的数据项）和类型数据组（经常变化的数据项）四种基本构造。底层数据模型就是物理数据模型。提高数据仓库的性能建立数据仓库过程中一个重要的问题就是如何提高系统的性能，提高系统性能主要就是提高系统的物理I/O性能。（1）粒度划分一般要将数据划分为：详细数据、轻度综合、高度综合三级或更多级粒度，不同粒度级别的数据用于不同类型的分析处理。划分粒度步骤：估算数据仓库中数据的行数和所需占用的空间大小。根据估算出的数据行数和所需占用的空间大小，决定是否要划分粒度及如何划分粒度。（2）分

22、割数据仓库中的库中的数据分割与数据库中的数据分片概念相近。按时间进行数据分割是最普遍的。分割的标准一般要考虑数据量、数据分析处理的实际情况、简单易行以及粒度划分侧率等几方面因素。（3）其它设计问题合并表建立时间序列将数据严格按处理顺序存放到一个或几个连续的物理块中，即所谓的建立数据序列。建立时间序列可以在同一次调页中处理更多的记录，将物理I/O的次数降到最低。引入冗余引入冗余的目的是减少连接操作，从而减少访问的代价，但引入冗余后需要注意维护数据各个副本间的一致性。表的物理分割生成导出数据建立广义索引数据仓库设计步骤数据仓库系统开发时一个经过不断循环、反馈而使系统不断增长与完善的过程，其设计大体

23、上可分为以下几个步骤：（1）概念模型设计（2）技术准备工作（3）逻辑模型设计（4）物理模型设计（5）数据仓库生成（6）数据仓库运行与维护在一些特殊情况下，有可能会出现数据从仓库流向操作性环境的这种数据“回流”现象，当出现“回流”情况时，对数据仓库数据的访问有数据仓库数据的直接访问和间接访问两种方式。数据仓库数据的直接访问所谓直接访问即操作环境下的一个传统应用向属于数据仓库的数据提出访问请求，在数据仓库环境中查询到所需的数据，再传输到操作型环境中。数据仓库数据的接按揭访问所谓间接访问即利用程序对数据仓库的数据进行定期的分析，将分析的结果产生新的文件，用来满足操作型应用的需要。数据仓库数据的访问大

24、多采用间接访问方式。主要应用领域：（1）全局应用主要用于企业在发展过程中形成的多种独立应用的系统，或者用于一些大公司地理位置上分布的多个子公司或部门。（2）复杂应用需要将数据分为操作环境数据和分析环境数据量大部分。教学后记本章节重点是数据仓库系统的设计和数据仓库数据的访问，难点是数据仓库的应用。学生并未真正建立和使用过数据仓库，对其设计和使用都还只是停留在理论阶段。上课时间第四周上课节次3节课型理论课题数据预处理的目的以及数据的清理、集成和变换教学目的使学生掌握数据的基本处理方法教学方法讲授重点、难点数据的清理、集成和变换时间分配教学内容板书或课件版面设计原始数据中存在的问题原始数据主要存

25、在以下几个方面问题：不一致重复不完整含噪声噪声是指一个测量变量中的随机错误或偏离期望的孤立点值。维度高一个完整的数据挖掘系统应该提供数据预处理模块，此模块的功能是形成供数据挖掘算法使用的目标数据知识基。数据预处理的方法和功能数据预处理包含数据清洗、数据集成、数据变换和数据归约击中方法。（1）数据清洗过程即填充空缺值，识别孤立点，去掉原始数据中的噪声和无关数据。（2）数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。数据集成涉及多个数据源的数据匹配、数值冲突和数据冗余的问题。（3）数据变换是把原始数据转换成为适合数据挖掘的形式，包括对数据的汇总和聚集、概化、规范化，还可能需要进

26、行属性的构造。（4）数据归约技术用于产生数据的规约表示，是的数据的范围减小，但更适合于数据挖掘算法的需要，并能够得到和原始数据相同的分析结果。从数据中选取合适的属性作为数据挖掘属性的过程有以下几个参考原则尽可能赋予属性名和属性值明确的含义。统一多数据源的属性值编码。去除唯一属性。去除重复属性。去除可忽略字段。合理选择关联字段处理空缺值处理空缺值有以下几种方法：忽略该记录去掉属性手工填写空缺值使用默认值使用属性平均值使用同类样本平均值预测最可能的值噪声数据的处理在测量一个变量时可能产生一些误差或者错误，是的测量值相对于真实值有一定的偏差，这种偏差成为噪声。去除噪声的方法有：（1）分箱分箱方法是一

27、种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“箱子”，实际上就是按照属性值划分的子区间。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。注意：分箱之前血药对记录按照目标属性值的大小进行排序。分箱方法有统一权重（等深分箱法）、统一区间（等宽分箱法）、最小熵和用户自定义区间等。分箱的目的是对各个箱子中的数据进行处理，所以完成分箱之后，要考虑的就是选择一种方法对数据进行平滑，使得数据尽可能接近。常使用的数据平滑方法有按平均值怕你规划、按边界值平滑和按中值平滑三种。（2）聚类聚类是将物理的或抽象对象的集合分组为由类似的对象组成的多个类的过程。

28、聚类的结果是生成一组由数据对象组成的集合，称为簇。同一簇中的所有对象具有相似性，并且一个对象与同簇中任何一个对象之间的相似性一定强于它于其它簇中任何一个对象之间的相似性。同一簇中的对象用相同的特征来标识，落在簇之外的值称为孤立点，这些孤立点被视为噪声。聚类的质心即聚类中的平均点。（3）回归回归试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。线性回归也称为简单回归，是最简单的回归形式，用直线建模，将一个变量看作另一个变量的线性函数。多元回归是线性回归的扩展，也成为复回归，有两个火两个以上自变量。数据挖掘所使用的

29、数据通常来自于多个数据存储，所以经常需要把多个数据存储合并起来，这个过程称为数据集成。而为了是数据符合算法和数据挖掘目标的需要，还学需要对数据进行变换。数据集成数据集成是将多文件或者多数据库中的异构数据进行合并，然后存放在一个一致的数据存储中，解决语义模型问题，主要工作涉及到数据的冲突问题和不一致数据的处理问题。在数据集成过程中，通常需要考虑模式匹配、数据冗余和数据值冲突问题。数据变换（1）平滑平滑即去除噪声，还可以将连续的数据离散化，增加粒度。数据平滑的方法包括分箱、聚类、回归等。（2）聚集聚集即对数据进行汇总。聚集常用来构造数据立方体。（3）数据概化从原始数据集得到的数据包含一些低层概念的

30、描述，而在数据挖掘中有时并不需要细化到这些概念，可以用它的高层概念替换，所以需要对数据进行概化。（4）规范化将数据按比例缩放，使之落入一个特定的区域，称为规范化。常用的规范化方法有最小最大规范化、零均值规范化和小叔定标规范化等。（5）属性构造为了提高数据挖掘的精度或者使数据结构更容易理解，有时会根据已有的属性构造新的属性添加到数据挖掘集中，这种方法对分类算法有帮助。教学后记本章节重点是数据的基本处理方法，难点是处理方法的应用。学生对处理方法的理论尚能掌握，但实际应用方面没有经验。上课时间第五周上课节次3节课型理论课题数据归约教学目的是学生掌握各种数据归约的方法教学方法讲授重点、难点各种数据

31、归约的算法及其实现时间分配教学内容板书或课件版面设计数据归约用于从源数据集中得到数据集的归约表示。数据归约的目的是为了获得比原始数据小得多的，但不破坏数据完整性的挖掘数据集，该数据集可以得到与原始数据相同的挖掘结果。数据归约的方法（1）数据立方体聚集即把聚集的方法用于数据立方体。（2）维归约即检测并删除不相关、弱相关或冗余属性。（3）数据压缩即选择正确的编码压缩数据集。（4）数值压缩即用较少的数据表示数据或采用较短的数据单位、数据模型代表数据。（5）离散化和概念分层使连续的数据离散化，就是用确定的有限个区段值代替原始值；概念分层是指用较高层次的概念替换低层次的概念，以此来减少取值个数。数据立方

32、体聚集数据立方体是数据的多维建模和表示，由维和事实组成。维就是涉及到的属性，而事实是一个具体的数据。维归约在数据立方体的概念基础上，把属性称为维，维归约即去掉不相关的属性，减少数据挖掘处理的数据量。属性子集选择的基本方法：逐步向前选择逐步向后删除向前选择和向后删除结合判定树归纳基于统计分析的归约数据压缩数据压缩就是用数据编码或者变换，得到原始数据压缩表示。数据压缩可以减少数据存储而不影响数据挖掘的结果。数据压缩的方法分为无损压缩和有损压缩两种。数值归约数值归约就是通过某种方法，选择较少的数据来替代原数据，减少数据量。（1）直方图直方图技术是一种常用的归约技术，它使用分箱方法对数据进行近似。每个

33、箱代表一个区域范围内的值，箱的宽度代表值域范围，箱的高度代表这个范围内的值的个数，即频率。每个箱可以代表一个属性的值和频率，称为一维直方图，也可以代表两个以上属性的值和频率，称为多维直方图。若每个箱只表示一个属性值，则成为单桶。（2）聚类用数据的聚类来代表实际数据，当数据中存在聚类特征时，即数据可以形成有限个聚类时，此方法可以很好的归约数据。（3）抽样抽样是对记录进行选取，用较小的数据样本集表示大的数据集。几种常用的抽样方法：不放回简单随机抽样放回简单随机抽样聚类抽样分层抽样（4）线性回归和非线性回归线性回归和非线性回归方法用数据模型近似数据，它们并不保存实际数据，而是产生一个数据模型，只保存

34、数据模型的参数，所以也称为参数方法。此类方法只对数值型数据有效。离散化与概念分层离散化就是为了适应算法或者存储的需要，用有限数量的离散数据替代连续数据。在数据集上递归的使用某种离散化技术就形成了数据集俄概念分层。（1）数值数据的离散化与概念分层数值数据的概念分层可以通过数据分析自动产生，它们能够无干预的完成对属性的概念分层，但是这些方法划分出来的层并不考虑边界值是否直观或自然。（2）分类数据的概念分层分类数据是指分类属性值所包含的数据。所谓分类属性，就是那先具有有限个取值的属性。典型的用于分类数据概念分层的方法有：由用户或者专家在模式级显式地说明数据的包含关系。通过显式数据分组说明分层结构的一

35、部分。根据属性值的个数自动产生分层。根据数据语义产生分层。教学后记本章节重点是各种数据归约算法的掌握，难点是各种算法的实现。学生对算法的掌握尚可，但对算法的实现还学要多加练习。上课时间第六周上课节次3节课型理论课题数据挖掘发现知识的类型（一）教学目的使学生掌握各种知识的概念及发现方法教学方法讲授重点、难点广义知识、关联知识和分类知识时间分配教学内容板书或课件版面设计广义知识的概念广义知识是指类别特征的概括性描述知识，即对大量数据的归纳、概括，提炼出带有普遍性的、概括性的描述统计知识。广义知识的发现方法（1）数据立方体也称为“多维数据库”、“实现视图”等，实质上就是一个多维数组，是维和变量的

36、组合表示。数据立方体的基本思想是实现某些常用的代价较高的聚集函数的计算，并将这些实现视图储存在多维数据库中。（2）面向属性的归约也称为维规约。规约即经过相互协议规定下来的共同遵守的条款。面向属性的规约即关于属性的经过相互协议规定下来的共同遵守的条款。规定这些条款的目的是减少属性个数，从而减少数据量。减少数据量的方法可以从以下几方面考虑：将无用的、冗余的、错误的或影响小的属性直接删除，减少属性个数。增大数据统计的粒度，提升概念树。对属性设置控制阈值，过滤一部分数据量。使用聚集函数。关联知识的概念关联知识是反映一个事件和其它事件之间以来或相互关联的知识。关联知识的发现方法（1）Apriori算法关

37、联规则的发现可分为两步：迭代识别所有的频繁项目集，要求频繁项目集的支持度不低于用户设定的最低值。从频繁项目集中构造可惜度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心，也是计算量最大的部分。（2）关联及关联规则数据关联是数据库中存在的一类重要的可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。关联可分为简单关联、时序关联、因果关联。关联规则从本质上讲是条件概率。在关联规则的挖掘中要注意：充分理解数据目标明确数据准备工作要做好选取恰当的最小支持度和最小可信度很好地理解关联规则如何合理地运用得出的关联关系，完全靠决策者的正确理解和决策。分类知识的概念分类知识

38、是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。分类知识的发现方法所谓分类，就是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规定进行分类。分类的过程：在已知训练集上，根据属性特征，为每一种类别找到一个合理的描述或模型，及分类规则。根据规则对新数据进行分类。对于分类规则的挖掘通常有决策树方法、贝叶斯方法、人工神经网络方法、粗糙集方法和遗传算法等。教学后记本章节重点是各种知识的概念，难点是各种知识的发现方法。学生能够掌握概念和各知识理论上的发现方法，但实际应用方面的经验比较匮乏。上课时间第七周上课节次3节课型理论课题数据挖掘发现知识的类型（二）教学目的

39、使学生掌握各种知识的概念及发现方法教学方法讲授重点、难点预测型知识和偏差型知识时间分配教学内容板书或课件版面设计预测型知识的概念预测型知识是根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。预测型知识的发现方法目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等对于连续型数值的预测可以用称为回归的统计技术进行建模，回归分析的目的是找到一个联系输入变量和输出变量的最优模型。回归方法包括：线性回归、多元回归、非线性回归等。偏差型知识的概念偏差型知识是对差异和极端特例的描述，解释事物偏离常规的异常现象。偏差即异常，在数据挖掘中也称其为“孤立点”

40、。孤立点探测和分析是数据挖掘中的一个很特殊的任务，被称为孤立点挖掘。偏差型知识的发现方法偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。最常用的偏差型知识的发现方法是异常探测法，异常探测法对异常的定义是：异常是既不属于聚类也不属于背景噪声的点。具体的异常探测算法有：基于统计的方法基于距离的方法基于偏离的方法教学后记本章节重点是各种知识的概念，难点是各种知识的发现方法。学生能够掌握概念和各知识理论上的发现方法，但实际应用方面的经验比较匮乏。上课时间第八周上课节次3节课型理论课题神经网络算法教学目的使学生了解并掌握神经网络算法教学方法讲授重点、难点神经网络的概念与基于神经网络的算法

41、时间分配教学内容板书或课件版面设计神经网络的研究的历史阶段：19431969年的初创期19701986年的过渡期1987今的发展期神经网络的概念（1）人工神经元原理神经元由细胞体、树突和轴突三部分组成，是一种根须状的蔓延物，是组成人脑的最基本单元。传递神经元冲动的地方称为突触。从信息处理功能看，神经元具有如下性质：多输入，单输出突触兼有兴奋和抑制两种性能可时间加权和空间加权可产生脉冲脉冲进行传递非线性（2）人工神经网络人工神经网络是一个并行和分布式的信息处理网络结构，严格来说，神经网络就是一个具有如下性质的有向图：对于每个节点有一个状态变量Vj节点j到节点i有一个连接权系数Tij对于每个节点有

42、一个阈值对于每个节点定义一个变换函数f(x)人工神经网络是生物神经网络的一种模拟和近似，它主要从两个方面进行模拟：一种是从结构和实现机理方面进行模拟；另一种是从功能上加以模拟，即尽量使得人工神经网络具有生物神经网络的某些功能特性。（3）MP模型与Hebb规则MP模型每个神经元的状态Si（i=1,2,n）只取0或1，分别代表抑制与兴奋，每个神经元的状态由MP方程决定：Hebb规则若i与j两种神经元之间同时处于兴奋状态，则它们之间的连接应加强：神经网络的计算机模型（1）反向传播模型（BP模型）BP模型是1985年由Rumelhart等人于提出的，该模型具有分层结构，最下层是输入层，中间是隐含层，最

43、上面一层是输出层。信息从输入层一次向上传递，直至输出层。BP网络的主要优点有：只要有足够多的隐含层和隐节点，BP网络可以逼近任意的非线性映射关系。BP网络的学习算法术语全局逼近的方法，因而具有良好的泛化能力。BP网络的主要缺点有：收敛速度慢局部极值难以确定隐含层和隐节点的个数BP网络能够实现输入输出的非线性映射关系，但并不依赖于模型。由于连接权的个数很多，个别神经元的损坏只对输入输出关系有较小的影响，因此BP网络具有较好的容错性。BP网络由于具有很好地逼近非线性映射的能力，因而它可以应用于信息处理、图像识别、数据挖掘等多个方面。（2）反馈式Hopfield模型J.Hopfield于1982年提

44、出了离散型反馈神经网络DHNN，于1984年又提出了连续型反馈神经网络CHNN。离散型Hopfield神经网络（DHNN）离散型神经网络是一个单层的神经网络，每个节点之间互相连接。DHNN有同步和异步两种工作方式，同步方式在任何时刻t，所有神经元都更新，网络收敛于一个稳定点或一个周期解；异步方式在任一时刻t只有一个神经元状态更新，其余神经元状态不变，异步方式使能量函数单调下降，保证了网络稳定性和收敛性。连续型Hopfield网络模型（CHNN）Hopfield连续型网络结构与电子电路直接对应，主要用于优化计算。定义神经网络拓扑神经网络的拓扑结构在一定程度上影响网络的分类能力。隐层单元数与问题的要求、输入输出单元的多少都有直接关系。基于神经网络的算法神经网络的工作过程可分为两个阶段：第一阶段是对神经网络进行训练（学习期），在学习

展开阅读全文