BI学习笔记.pdf-得力文库

资源描述

《BI学习笔记.pdf》由会员分享，可在线阅读，更多相关《BI学习笔记.pdf（10页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、K2MG-E专业技术人员绩效管理与业务能力提升练习与答案数据仓库是从业务数据库发展起来，用于支持管理决策的一种面向主题的面向主题的、集成的、集成的、相、相对稳定的对稳定的、随时间变化的数据的集合、随时间变化的数据的集合。数据仓库系统由后台数据预处理、数据仓库数据管理和前台应用服务三大部分构成。数据仓库中，数据，数据是以多维数据集的形式进行存储的。而根据维度表结构的不同，又将其物理结构分为星形模型和雪花模型。在数据仓库中，元数据起着非常重要的作用，它帮助建立、管理和使用数据仓库。数据集市作为一个规模较小的数据仓库，有易实现、见效快的特点，当受到时间、财力等条件的约束，或者仅需要对某个部门级别构建

2、数据仓库时，数据集市是一个不错的选择。数据仓库系统开发是一个需要经过不断循环、反馈而使系统不断增长与完善的过程，是以分析作为驱动的，同时又是用于分析的。在具体的设计开发过程中，涉及一系列的模型设计，包括概念模型、逻辑模型、物理模型。在进行数据仓库的逻辑模型设计时必须处理两个重要的问题：粒度级别的划分以及数据分割，这将影响到数据仓库的查询能力和查询效率，必须慎重对待。数据仓库的设计与开发是一项复杂的工程，一般须经过数据仓库的规划与分析、数据仓库的设计与实施以及数据仓库的应用三个阶段。数据挖掘过程中第一个重要处理步骤：数据预处理。数据预处理包括数据清洗、数据集成、数据转换和数据消减等主要处理方法。

3、数据清洗，主要用于填补数据记录中各属性的遗漏数据，识别异常数据，以及纠正数据中的不一致问题。数据集成，主要用于将来自多个数据源的数据合并到一起并形成完整的数据集合。元数据、相关分析、数据冲突检测，以及不同语义整合，以便最终完成平滑数据的集成。数据转换，主要用于将数据转换成适合数据挖掘的形式。如：规格化数据处理。数据消减，主要方法包括：数据立方合计、维度消减、数据压缩、数据块消减和离散化。这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减，并提出一个简洁的数据模型。生成概念层次树：对于数值属性，可以利用划分规则、直方图分析和聚类分析方法对数据进行分段并构造相应的概念层次

4、树；而对于类别属性，则可以利用概念层次树所涉及属性的不同值个数，构造相应的概念层次树。SSIS 是 BI 解决方案的主要 ETL 工具，它提供一系列支持业务应用程序开发的内置任务、容器、转换和数据适配器。你无需编写一行代码，就可以创建 SSIS 解决方案来使用 ETL 和商业智能解决复杂的业务问题，管理 SQL Server 数据库以及在 SQL Server 实例之间复制 SQL Server 对1K2MG-E专业技术人员绩效管理与业务能力提升练习与答案象。它具有极易操作的图形化设计界面，能够自编文档的可视化输出，完善的错误处理以及灵活的编程。本章主要介绍了数据挖掘过程中第一个重要处理步骤：

5、数据预处理。数据预处理包括数据清洗、数据集成、数据转换和数据消减等主要处理方法。数据清洗，主要用于填补数据记录中各属性的遗漏数据，识别异常数据，以及纠正数据中的不一致问题。数据集成，主要用于将来自多个数据源的数据合并到一起并形成完整的数据集合。元数据、相关分析、数据冲突检测，以及不同语义整合，以便最终完成平滑数据的集成。数据转换，主要用于将数据转换成适合数据挖掘的形式。如：规格化数据处理。数据消减，主要方法包括：数据立方合计、维度消减、数据压缩、数据块消减和离散化。这些方法主要用于在保证原来数据信息内涵减少最小化的同时对原来数据规模进行消减，并提出一个简洁的数据模型。自动生成概念层次树：对于数

6、值属性，可以利用划分规则、直方图分析和聚类分析方法对数据进行分段并构造相应的概念层次树；而对于类别属性，则可以利用概念层次树所涉及属性的不同值个数，构造相应的概念层次树。SSIS 是 BI 解决方案的主要 ETL 工具，它提供一系列支持业务应用程序开发的内置任务、容器、转换和数据适配器。你无需编写一行代码，就可以创建 SSIS 解决方案来使用 ETL和商业智能解决复杂的业务问题，管理 SQL Server 数据库以及在 SQL Server 实例之间复制 SQLServer 对象。它具有极易操作的图形化设计界面，能够自编文档的可视化输出，完善的错误处理以及灵数据挖掘依据其任务特点将挖掘模型分为

7、两类：描述型和预测型。预测型挖掘模型是基于所使用的历史数据，对数据进行预测。预测型模型能够完成的数据挖掘任务包括分类、回归、时间序列分析和预测。描述型挖掘模型通过对数据中的模式或关系进行辨识，提供了一种探索被分析数据的一般性质的方法。聚类、关联规则、序列发现和偏差检测都通常被视为是描述型的。数据挖掘的对象可以应用于任何类型的数据储存库以及瞬态数据（如数据流），如关系数据库、数据仓库、文本和多媒体数据库、数据流和互联网。对于不同的挖掘对象，所采用的技术和面临的问题都会有所不同。数据挖掘是一个交叉学科的领域，受多个学科影响，因此数据挖掘研究期望产生大量的各种类型的数据挖掘系统。不同的应用通常需要集

8、成对于该应用特别有效的方法，而泛化的全能的数据挖掘系统可能并不适合特定领域的挖掘任务。CISPDM 描述的数据挖掘项目的生命周期包括业务理解、数据准备、模型构建、模型评估和应用集成与实施。虽然数据挖掘在最近几年谈论得比较多，但是它在市场中所占的份额还相对比较小，另外由于数据挖2K2MG-E专业技术人员绩效管理与业务能力提升练习与答案掘技术还存在很多的问题，比如数据挖掘技术和用户的交互性、数据挖掘算法的有效性、可伸缩性和并行处理以及数据对象的多多样性等等。针对这些问题，技术人员和相关开发商也在积极地开发适应于各种应用场合的数据挖掘系统和开发工具，因此，数据挖掘的发展前景还是大有可为的。从大量的数

9、据中发现其关联关系在市场定位、决策分析和商业管理等领域是极为有用的。一个较受欢迎的应用领域就是购物篮分析，它通过搜索常一起购买的商品集来了解顾客的购物习惯。关联规则挖掘主要包括发现满足最小支持阈值的频繁项集，然后再从这些频繁项集中产生满足最小信任阈值的强关联规则，规则的形式为 A B。Apriori 算法是一个有效的关联规则挖掘算法。它是利用“一个频繁项集的任何一子集均应是频繁的”这一性质，按层次循环进行挖掘的。最常用的关联规则挖掘是单维布尔量关联规则挖掘。但事实上，我们感兴趣的规则往往还包含数值型的，多属性的数据，多维、多层次的关联规则挖掘也是非常有意义的。需要注意的是，并不是所有的强关联规

10、则都是有意义的。对统计上相关的项可以挖掘相关规则，从而对关联规则的重要性做出一个客观的评价。分类与预测是两种数据分析形式，分类方法用于预测数据对象的离散类别，预测则用于预测数据对象的连续取值。分类与预测是两种数据分析形式，分类方法用于预测数据对象的离散类别，预测则用于预测数据对象的连续取值。数据分类过程主要包含两个步骤：第一步，建立一个描述已知数据集类别或概念的模型，该模型是通过对数据库中各数据行内容的分析而获得的。第二步，就是利用所获得的模型进行分类操作，首先对模型分类准确率进行估计，如果一个学习所获模型的准确率经测试被认为是可以接受的，那么就可以使用这一模型对未来数据行或对象（其类别未知）

11、进行分类。在进行分类或预测挖掘之前，必须首先准备好挖掘数据。一般需要对数据进行预处理，以帮助提高分类或预测的准确性、效率和可扩展性。预测准确率、计算速度、鲁棒性、可扩展性和可理解性是对分类与预测方法进行评估的五个重要方面。ID 算法是基于决策树归纳的贪心算法，算法利用信息论原理来帮助选择构造决策树时非叶结点所对应的测试属性。树枝修剪则是通过修剪决策树中由于噪声产生的分支从而改进决策树的预测准确率。贝叶斯分类是基于有关事后概率的定理而提出的，它就像是一个白匣子，各个结点之间的影响程度和条件概率关系都可以明显地看到，并且意义明确。因此，贝叶斯网络更适合那些影响因素少而且关系明确的情况。神经网络也是

12、一种分类学习方法，它利用后传算法来搜索神经3K2MG-E专业技术人员绩效管理与业务能力提升练习与答案网络中的一组权重，以使相应网络的输出与实际数据类别之间的均方差最小。聚类是一个将数据集划分为若干组或类的过程，并使得同一个组内的数据对象具有较高的相似度；而不同组中的数据对象是不相似的。一个聚类就是一组数据对象的集合，集合内各对象彼此相似，各集合间的对象彼此相差较大。将一组对象中类似的对象组织成若干组的过程就称为聚类过程。聚类质量可以根据对象差异性技术结果进行评估，可以对不同数据类型进行计算，其中包括：间隔数值属性、二值属性、符号属性、顺序属性和比例数值属性，或是这些类型的组合。聚类算法包括划分

13、方法、层次方法、基于密度方法等。基于划分方法，首先创建 k 个划分，k为要创建的划分个数，然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。Kmeans 是一个典型的划分方法。层次方法创建一个层次以分解给定的数据集，该方法可以分为自上而下（分解）或自顶而下（聚合）两种。时序数据，是指随时间变化而产生的数值或事件序列。时间序列预测的常用方法包括回归预测模型、指数平滑模型和 ARIMA 模型等。ARMA 模型是时序方法中最基本的、实际应用最广的时序模型。但该模型适合平稳、正态、零均值的时序，因此对于实际生活中产生的非平稳数据首先需要进行差分处理，从而产生了 ARIMA

14、模型。Microsoft 时序算法是一个新的预测算法，它结合了自动回归技术和决策树技术，所以也把该算法称为自动回归树（AutoRegression Tree，ART）。它通过事例转换将一个时间序列（事例）转换成由 n 个时间槽上的值组成的多行事例，这样就可以采用回归决策树来进行预测某个时间点的值。因此，由 Microsoft 时序算法创建得到的模型将是一棵回归树。序列挖掘（也称序列模式挖掘），是指从序列数据库中发现相对时间或者其他顺序所出现的高频率子序列。Microsoft 序列聚类算法是序列和聚类技术相结合的产物。设计它的目的是用于分析包含序列数据的大量事例，然后基于这些序列的相似性来将这些

15、事例分类到类似的分组中。笔试题：重点：重点：SQLSQL 语句语句4K2MG-E专业技术人员绩效管理与业务能力提升练习与答案数据挖掘算法：数据挖掘算法：概念描述编辑算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后，这些参数应用于整个数据集，以便提取可行模式和详细统计信息。算法根据您的数据创建的挖掘模型可以采用多种形式，这包括：说明数据集中的事例如何相关的一组分类。预测结果并描述不同条件是如何影响该结果的决策树。预测销量的数学模型。说明在事务中如何将产品分组到一起的一组规则，以及一起购买产品的概率。算法分类编辑1：C4.5C4.5C4.5 就是一个就是一个决策树算法决策树算法，它是决策

16、树（决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树）核心算法 ID3 的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5 比 ID3改进的地方时：ID3 选择属性用的是子树的信息增益（这里可以用很多方法来定义信息，ID3 使用的是熵（entropy）（熵是一种不纯度度量准则），也就是熵的变化值，而C4.5 用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的，就像方差起的作用差不多，比如有两个跑步的人，一个起点是 100m/s 的人、其 1s 后为 110m/s；另一个人起速是

17、 1m/s、其 1s 后为 11m/s。如果仅算差值那么两个差距就很大了，如果使用速度增加率（加速度）来衡量，2 个人就是一样的了。在这里，其克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝，我在构造决策树的时候好讨厌那些挂着几个元素的节点。对于这种节点，干脆不考虑最好，不然很容易导致 overfitting。对非离散数据都能处理，这个其实就是一个个式，看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理，这个重要也重要，其实也没那么重要，缺失数据采用一些方法补上去就是了。2：CARTCART 也是一种决策树算法！相对于

18、上着有条件实现一个节点下面有多个子树的多元分类，CART只是分类两个子树，这样实现起来稍稍简便些。所以说 CART 算法生成的决策树是结构简洁的二叉树。3：KNN(K Nearest Neighbours)这个很简单，就是看你周围的K 个人（样本）中哪个类别的人占的多，哪个多，那我就是多的那个。实现起来就是对每个训练样本都计算与其相似度，是 Top-K 个训练样本出来，看这 K 个样本中哪个类别的多些，谁多跟谁。5K2MG-E专业技术人员绩效管理与业务能力提升练习与答案4：Naïve Bayes(朴素贝叶斯 NB)NB 认为各个特征是独立的，谁也不关谁的事。所以一个样本（特征值的集合

19、，比如“数据结构”出现 2 词，“文件”出现 1 词），可以通过对其所有出现特征在给定类别的概率相乘。比如“数据结构”出现在类 1 的概率为 0.5，“文件”出现在类 1 的概率为 0.3，则可认为其属于类 1 的概率为 0.5*0.5*0.3。5：Support Vector Machine(支持向量机 SVM)SVM 就是想找一个分类得最”好”的分类线/分类面（最近的一些两类样本到这个”线”的距离最远）。这个没具体实现过，上次听课，那位老师自称自己实现了SVM，敬佩其钻研精神。常用的工具包是 LibSVM、SVMLight、MySVM。6：EM(期望最大化)这个我认为就是假设数据时由几个高

20、斯分布组成的，所以最后就是要求几个高斯分布的参数。通过先假设几个值，然后通过反复迭代，以期望得到最好的拟合。7：Apriori这个是做关联规则用的。不知道为什么，一提高关联规则我就想到购物篮数据。这个没实现过，不过也还要理解，它就是通过支持度和置信度两个量来工作，不过对于Apriori，它通过频繁项集的一些规律（频繁项集的子集必定是频繁项集等等啦）来减少计算复杂度。8：FP-Tree(Mining frequent patterns without candidate generation)这个也不太清楚。FP-growth 算法(Frequent Pattern-growth)使用了一种紧缩

21、的数据结构来存储查找频繁项集所需要的全部信息。采用算法：将提供频繁项集的数据库压缩到一棵 FP-tree来保留项集关联信息，然后将压缩后的数据库分成一组条件数据库（一种特殊类型的投影数据库），每个条件数据库关联一个频繁项集。9：PageRank大名鼎鼎的 PageRank 大家应该都知道（Google 靠此专利发家，其实也不能说发家啦!）。对于这个算法我的理解就是：如果我指向你（网页间的连接）则表示我承认你，则在计算你的重要性的时候可以加上我的一部分重要性（到底多少，要看我自己有多少和我共承认多少个人）。通过反复这样来，可以求的一个稳定的衡量各个人（网页）重要性的值。不过这里必须要做些限制（一

22、个人的开始默认重要性都是 1），不然那些值会越来越大越来越大。10：HITS6K2MG-E专业技术人员绩效管理与业务能力提升练习与答案HITS 也是一个连接分析算法，它是由 IBM 首先提出的。在 HITS，每个节点（网页）都有一个重要度和权威度（Hubs and authorities,我也忘了具体的翻译是什么了）。通过反复通过权威度来求重要度，通过重要度来求权威度得到最后的权威度和重要度。11：K-MeansK-Means 是一种最经典也是使用最广泛的聚类方法，时至今日任然有很多基于其的改进模型提出。K-Means 的思想很简单，对于一个聚类任务（你需要指明聚成几个类，当然按照自然想法来说

23、不应该需要指明类数，这个问题也是当前聚类任务的一个值得研究的课题），首先随机选择 K 个簇中心，然后反复计算下面的过程直到所有簇中心不改变（簇集合不改变）为止：步骤1：对于每个对象，计算其与每个簇中心的相似度，把其归入与其最相似的那个簇中。步骤 2：更新簇中心，新的簇中心通过计算所有属于该簇的对象的平均值得到。k-means 算法的工作过程说明如下：首先从 n 个数据对象任意选择任意选择 k k 个对象作为初始聚类中个对象作为初始聚类中心；心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心

24、（该聚类中所有然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。12：BIRCHBIRCH 也是一种聚类算法，其全称是 Balanced Iterative Reducing and Clustering usingHierarchies。BIRCH 也是只是看了理论没具体实现过。是一个综合的层次聚类特征(ClusteringFeature,CF)和聚类特征树(CF Tree)两个概念，用于概括聚类描述。聚类特征树概括

25、了聚类的有用信息，并且占用空间较元数据集合小得多，可以存放在内存中，从而可以提高算法在大型数据集合上的聚类速度及可伸缩性。BIRCH 算法包括以下两个阶段：1）扫描数据库，建立动态的一棵存放在内存的 CF Tree。如果内存不够，则增大阈值，在原树基础上构造一棵较小的树。2）对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。由于 CF Tree 的叶节点代表的聚类可能不是自然的聚类结果，原因是给定的阈值限制了簇的大小，并且数据的输入顺序也会影响到聚类结果。因此需要对叶节点进一步利用一个全局性的聚类算法，改进聚类质量。13：AdaBoostAdaBoost 做分类的一般知道，它是一种boos

26、ting 方法。这个不能说是一种算法，应该是一种方法，因为它可以建立在任何一种分类算法上，可以是决策树，NB，SVM 等。Adaboost 是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到7K2MG-E专业技术人员绩效管理与业务能力提升练习与答案的分类器最后融合起来，作为最后的决策分类器。使用 adaboost

27、分类器可以排除一些不必要的训练数据，并将关键放在关键的训练数据上面。14：GSPGSP，全称为 Generalized Sequential Pattern(广义序贯模式)，是一种序列挖掘算法。对于序列挖掘没有仔细看过，应该是基于关联规则的吧！网上是这样说的：GSP 类似于 Apriori 算法，采用冗余候选模式的剪除策略和特殊的数据结构-哈希树来实现候选模式的快速访存。GSP 算法描述:1）扫描序列数据库，得到长度为 1 的序列模式 L1，作为初始的种子集。2）根据长度为 i 的种子集 Li，通过连接操作和修剪操作生成长度为 i+1 的候选序列模式 Ci+1；然后扫描序列数据库，计算每个候

28、选序列模式的支持度，产生长度为 i+1 的序列模式 Li+1，并将Li+1 作为新的种子集。3）重复第二步，直到没有新的序列模式或新的候选序列模式产生为止。产生候选序列模式主要分两步：连接阶段：如果去掉序列模式 s1 的第一个项目与去掉序列模式 s2 的最后一个项目所得到的序列相同，则可以将 s1 与 s2 进行连接，即将 s2 的最后一个项目添加到 s1 中。修切阶段：若某候选序列模式的某个子序列不是序列模式，则此候选序列模式不可能是序列模式，将它从候选序列模式中删除。候选序列模式的支持度计算：对于给定的候选序列模式集合C，扫描序列数据库，对于其中的每一条序列 s,找出集合 C 中被 s 所

29、包含的所有候选序列模式，并增加其支持度计数。15：PrefixSpan又是一个类似 Apriori 的序列挖掘。其中经典十大算法为：C4.5，K-Means，SVM，Apriori，EM，PageRank，AdaBoost，KNN，NB和 CART。数值预测：选择线性回归，使用预定的权值将属性进行线性组合。线性回归本质上是选择 k+1 个系数使得在所有的训练实例上的预测值和真实值之间差的平方和达到最小值。涉及到了最优化理论。主要应用与数值属性的分类。线性分类：Logistic 回归如果因变量是属于二项分布，则为 Logistic 回归如果将不同实例分成自然的组合时就需要用到聚类技术，8K2MG

30、-E专业技术人员绩效管理与业务能力提升练习与答案基于距离的迭代算法 kmeans训练和测试对于分类器，误差率是衡量一个分类器的性能，就是指预测错误的实例在整个实例中的比重。用于训练的数据集是有限的，其误差率并不能代表新数据集的误差率，所以需要一个未参与训练的测试集来测试分类器的误差率。测试数据绝对不能参与分类器的建立过程。误差率的预测方法：统计学原理，伯努利程式，预测的概率叫做置信度。DispersionDispersion 离散的，分散的离散的，分散的TremendousTremendous 巨大的，巨大的，庞大的庞大的 TransientTransient 短暂的短暂的Database

31、technologyDatabase technology 数据库技术数据库技术Machine learningMachine learningStatisticsStatisticsPatter recognitionPatter recognitioninformation retrievalinformation retrieval 信息检索信息检索neural networkneural network 神经网络神经网络artificial intelligenceartificial intelligence人工智能人工智能Data warehouseData warehouseDa

32、ta cleaningData cleaningData integration and transformationData integration and transformationGeneralizationGeneralizationMarket basket analysisMarket basket analysis 购物篮分析购物篮分析Apriori algorithmApriori algorithm 先验算法先验算法Frequent patternFrequent patternData classification and predictionData classific

33、ation and prediction数据分类与预测数据分类与预测Decision tree inductionDecision tree induction 决策树决策树Bayesian classificationBayesian classification 贝叶斯分类贝叶斯分类9K2MG-E专业技术人员绩效管理与业务能力提升练习与答案rule-based classificationrule-based classification 基于规则的分类基于规则的分类support vector machinesupport vector machine 支持向量机支持向量机associa

34、tion classificationassociation classification 关联规则关联规则cluster analysiscluster analysis 聚类分析聚类分析partitioning methodpartitioning method 分区法分区法hierarchical methodhierarchical method 分层方法分层方法density-based methoddensity-based methodgrid-based methodgrid-based method 基于网格的方法基于网格的方法model-based methodmodel-

35、based methodhigh dimensionalhigh dimensionalconstraint based clusterconstraint based clusterfraud detectionfraud detection 欺诈检测欺诈检测customer retentioncustomer retention 客户维护客户维护production controlproduction controlscience explorationscience explorationKDDKDD 知识发现知识发现SEMMASEMMA 是抽样是抽样 samplesample、探索、探

36、索 exploreexplore、修改、修改 modifymodify、建模、建模 modelmodel、评价、评价 assessassessSEMMASEMMA 是是 sassas 协会定义的一个可以用来组织数据挖掘工程各个阶段的一般参考框架，协会定义的一个可以用来组织数据挖掘工程各个阶段的一般参考框架，图形化展示了图形化展示了sassas 中完成一件工程的一系列步骤。中完成一件工程的一系列步骤。Knowledge discovery is depicted by following steps:Knowledge discovery is depicted by following ste

37、ps:1.1.Data cleaning,to remove noise and inconsistent dataData cleaning,to remove noise and inconsistent data2.2.Data integration,multiple data sources be combinedData integration,multiple data sources be combined3.3.Data selection,data relevant to the analysis task are retrieved from the databaseDa

38、ta selection,data relevant to the analysis task are retrieved from the database4.4.Data transformation,dataData transformation,data areare transformed ortransformed or consolidatedconsolidated into formsinto forms appropriateappropriate forformining by performing summary or aggregation operationmini

39、ng by performing summary or aggregation operation5.5.Data mining,an essential process where interesting patterns representing knowledgeData mining,an essential process where interesting patterns representing knowledgebased on some interestingness measuresbased on some interestingness measuresKnowledge presentation,visualization and knowledge representation techniques are usedKnowledge presentation,visualization and knowledge representation techniques are usedto present the mined knowledge to the user.to present the mined knowledge to the user.6.世上没有一件工作不辛苦，没有一处人事不复杂。不要随意发脾气，谁都不欠你的7.7.10

展开阅读全文