数据挖掘系统研究报告.ppt

上传人:豆**** 文档编号:57181849 上传时间:2022-11-04 格式:PPT 页数:15 大小:686KB
返回 下载 相关 举报
数据挖掘系统研究报告.ppt_第1页
第1页 / 共15页
数据挖掘系统研究报告.ppt_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《数据挖掘系统研究报告.ppt》由会员分享,可在线阅读,更多相关《数据挖掘系统研究报告.ppt(15页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、数据挖掘系统研究报数据挖掘系统研究报告告提纲提纲vv数据挖掘概述数据挖掘概述vv数据挖掘文化数据挖掘文化vv数据挖掘过程数据挖掘过程vv数据挖掘系统数据挖掘系统vv数据挖掘系统的发展趋势数据挖掘系统的发展趋势vv实验室研究方向实验室研究方向数据挖掘概述数据挖掘概述vv本文观点来自本文观点来自Robert Grossman n n关于作者:关于作者:the President of Magnify,Inc.(Chicago,Ill.)the President of Magnify,Inc.(Chicago,Ill.)and the Director of the National Center

2、 for Data Mining at and the Director of the National Center for Data Mining at the University of Illinois at Chicago.He has been a leader the University of Illinois at Chicago.He has been a leader in the development of high-performance and wide area data in the development of high-performance and wi

3、de area data mining systems for over 10 years.mining systems for over 10 years.n n数据挖掘是从数据中自动地抽取模式、关联、变化、数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构异常和有意义的结构 n n数据挖掘大部分的价值在于利用数据挖掘技术改善预数据挖掘大部分的价值在于利用数据挖掘技术改善预言模型言模型 数据挖掘文化数据挖掘文化vv知识发现文化(知识发现文化(KD)n n输出的是规则输出的是规则输出的是规则输出的是规则 vv预言模型文化(预言模型文化(PM)n n输出的是预言模型输出的是预言模型

4、输出的是预言模型输出的是预言模型 vv共同点共同点n n两种文化输入的都是学习集(两种文化输入的都是学习集(两种文化输入的都是学习集(两种文化输入的都是学习集(learning setslearning sets)n n目的都是尽可能多的自动化数据挖掘过程目的都是尽可能多的自动化数据挖掘过程目的都是尽可能多的自动化数据挖掘过程目的都是尽可能多的自动化数据挖掘过程 n n数据挖掘过程并不能完全自动化,只能半自动化数据挖掘过程并不能完全自动化,只能半自动化数据挖掘过程并不能完全自动化,只能半自动化数据挖掘过程并不能完全自动化,只能半自动化 数据挖掘文化数据挖掘文化vv举例说明举例说明n n假设移动

5、电话用户根据其转换到其他通信公司的风险,假设移动电话用户根据其转换到其他通信公司的风险,假设移动电话用户根据其转换到其他通信公司的风险,假设移动电话用户根据其转换到其他通信公司的风险,被分成低、中、高三组被分成低、中、高三组被分成低、中、高三组被分成低、中、高三组n n一个数据挖掘系统可能抽取出一条规则,比如:一个数据挖掘系统可能抽取出一条规则,比如:一个数据挖掘系统可能抽取出一条规则,比如:一个数据挖掘系统可能抽取出一条规则,比如:“一一一一天至少接到两个电话的用户有低的更换率天至少接到两个电话的用户有低的更换率天至少接到两个电话的用户有低的更换率天至少接到两个电话的用户有低的更换率”。n

6、n继续这个例子,一个预言模型可能给每个用户分配两继续这个例子,一个预言模型可能给每个用户分配两继续这个例子,一个预言模型可能给每个用户分配两继续这个例子,一个预言模型可能给每个用户分配两个分数:一个分数在个分数:一个分数在个分数:一个分数在个分数:一个分数在0 0和和和和1 1之间,表示用户可能更换通之间,表示用户可能更换通之间,表示用户可能更换通之间,表示用户可能更换通信公司的概率,另一个暗示该用户在下一年可能会给信公司的概率,另一个暗示该用户在下一年可能会给信公司的概率,另一个暗示该用户在下一年可能会给信公司的概率,另一个暗示该用户在下一年可能会给公司带来的利润。公司带来的利润。公司带来的

7、利润。公司带来的利润。数据挖掘过程数据挖掘过程步骤步骤步骤步骤步骤名称步骤名称步骤名称步骤名称 描述描述描述描述 1 1数据仓库数据仓库数据仓库数据仓库Data Data Data Data WarehouseWarehouseWarehouseWarehouse数据仓库管理用于决策支持的数据。在该步骤内,数数据仓库管理用于决策支持的数据。在该步骤内,数数据仓库管理用于决策支持的数据。在该步骤内,数数据仓库管理用于决策支持的数据。在该步骤内,数据从操作型系统以及第三方的数据源聚集、清洗、以据从操作型系统以及第三方的数据源聚集、清洗、以据从操作型系统以及第三方的数据源聚集、清洗、以据从操作型系统

8、以及第三方的数据源聚集、清洗、以及转换到数据仓库中,供决策分析使用。及转换到数据仓库中,供决策分析使用。及转换到数据仓库中,供决策分析使用。及转换到数据仓库中,供决策分析使用。2 2数据挖掘数据挖掘数据挖掘数据挖掘Data MiningData MiningData MiningData Mining在这个步骤中,数据从数据仓库抽取出来,用来产生在这个步骤中,数据从数据仓库抽取出来,用来产生在这个步骤中,数据从数据仓库抽取出来,用来产生在这个步骤中,数据从数据仓库抽取出来,用来产生预言模型或者规则集。该步骤可以自动化。预言模型或者规则集。该步骤可以自动化。预言模型或者规则集。该步骤可以自动化。

9、预言模型或者规则集。该步骤可以自动化。3 3预言模型预言模型预言模型预言模型Predictive Predictive Predictive Predictive ModelingModelingModelingModeling在该步骤内,为了产生一个优化的模型,一个或多个在该步骤内,为了产生一个优化的模型,一个或多个在该步骤内,为了产生一个优化的模型,一个或多个在该步骤内,为了产生一个优化的模型,一个或多个预言模型被选择或者联合。这些预言模型可能从数据预言模型被选择或者联合。这些预言模型可能从数据预言模型被选择或者联合。这些预言模型可能从数据预言模型被选择或者联合。这些预言模型可能从数据挖掘

10、系统产生,也可能从统计模型中产生,或者通过挖掘系统产生,也可能从统计模型中产生,或者通过挖掘系统产生,也可能从统计模型中产生,或者通过挖掘系统产生,也可能从统计模型中产生,或者通过第三方购买第三方购买第三方购买第三方购买 。4 4预言记分预言记分预言记分预言记分Predictive Predictive Predictive Predictive ScoringScoringScoringScoring在这个步骤中,选择的预言模型对操作型数据或者交在这个步骤中,选择的预言模型对操作型数据或者交在这个步骤中,选择的预言模型对操作型数据或者交在这个步骤中,选择的预言模型对操作型数据或者交易数据进行

11、记分(易数据进行记分(易数据进行记分(易数据进行记分(scorescore)。数据挖掘系统数据挖掘系统代代特征特征数据挖掘算数据挖掘算法法集成集成分布计分布计算模型算模型数据模数据模型型第一代第一代数据挖掘作数据挖掘作为一个独立为一个独立的应用的应用支持一个或者支持一个或者多个算法多个算法 独立的独立的系统系统单个机单个机器器向量数向量数据据第二代第二代和数据库和数据库以及数据以及数据仓库集成仓库集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/局局部区域的部区域的计算机群计算机群集

12、集有些系统支有些系统支持对象、文持对象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/intranet/extranetextranet网络计算网络计算支持半结构支持半结构化数据和化数据和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的普遍存在的计算模型计算模型数据挖掘系统数据挖掘系统vv第一代数据挖掘系统第一代数据

13、挖掘系统 n n支支支支持持持持一一一一个个个个或或或或少少少少数数数数几几几几个个个个数数数数据据据据挖挖挖挖掘掘掘掘算算算算法法法法,这这这这些些些些算算算算法法法法设设设设计计计计用用用用来来来来挖挖挖挖掘掘掘掘向向向向量量量量数数数数据据据据(vector-valued vector-valued vector-valued vector-valued datadatadatadata),这这这这些些些些数数数数据据据据模模模模型型型型在在在在挖挖挖挖掘掘掘掘时时时时候候候候,一一一一般般般般一一一一次次次次性性性性调调调调进进进进内内内内存存存存进进进进行行行行处处处处理理理理。许许

14、许许多这样的系统已经商业化。多这样的系统已经商业化。多这样的系统已经商业化。多这样的系统已经商业化。vv第二代数据挖掘系统第二代数据挖掘系统 n n目前的研究,是改善第一代数据挖掘系统,开发第二目前的研究,是改善第一代数据挖掘系统,开发第二目前的研究,是改善第一代数据挖掘系统,开发第二目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和代数据挖掘系统。第二代数据挖掘系统支持数据库和代数据挖掘系统。第二代数据挖掘系统支持数据库和代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩数据仓库,和它们具有高性能的接口,具有

15、高的可扩数据仓库,和它们具有高性能的接口,具有高的可扩数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂展性。例如,第二代系统能够挖掘大数据集、更复杂展性。例如,第二代系统能够挖掘大数据集、更复杂展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据的数据集、以及高维数据。这一代系统通过支持数据的数据集、以及高维数据。这一代系统通过支持数据的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(挖掘模式(挖掘模式(挖掘模式(data mining schemadata mining schema)和数据挖掘查询语言

16、和数据挖掘查询语言和数据挖掘查询语言和数据挖掘查询语言(DMQLDMQL)增加系统的灵活性。增加系统的灵活性。增加系统的灵活性。增加系统的灵活性。数据挖掘系统数据挖掘系统vv第三代数据挖掘系统第三代数据挖掘系统 n n第三代的特征是能够挖掘第三代的特征是能够挖掘第三代的特征是能够挖掘第三代的特征是能够挖掘Internet/ExtranetInternet/Extranet的分布式和的分布式和的分布式和的分布式和高度异质的数据,并且能够有效地和操作型系统集成。高度异质的数据,并且能够有效地和操作型系统集成。高度异质的数据,并且能够有效地和操作型系统集成。高度异质的数据,并且能够有效地和操作型系统

17、集成。这一代数据挖掘系统关键的技术之一是提供对建立在这一代数据挖掘系统关键的技术之一是提供对建立在这一代数据挖掘系统关键的技术之一是提供对建立在这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的异质系统上的多个预言模型以及管理这些预言模型的异质系统上的多个预言模型以及管理这些预言模型的异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(元数据提供第一级别(元数据提供第一级别(元数据提供第一级别(first classfirst class)的支持。的支持。的支持。的支持。vv第四代数据挖掘系统第四代数据挖掘系统 n n第四代数据挖掘系统能

18、够挖掘嵌入式系统、移动系统、第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(和普遍存在(和普遍存在(和普遍存在(ubiquitousubiquitous)计算设备产生的各种类型的计算设备产生的各种类型的计算设备产生的各种类型的计算设备产生的各种类型的数据数据数据数据 。数据挖掘系统数据挖掘系统vv接口接口n n第二代数据挖掘系统提供数据仓库和数据挖掘系统之第二代数据挖掘系统提供数据仓库和数据挖掘系统之第二代数据挖掘系统提供数据仓库和数据挖掘系统之第二代数据挖掘系统提供数据仓库和数据挖掘系

19、统之间的有效的接口间的有效的接口间的有效的接口间的有效的接口 n n第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口之间的有效的接口之间的有效的接口之间的有效的接口 n n数据管理系统和数据挖掘之间的接口,可以作为如何数据管理系统和数据挖掘之间的接口,可以作为如何数据管理系统和数据挖掘之间的接口,可以作为如何数据管理系统和数据挖掘之间的接口,可以作为如何标记合适的数据挖掘原语的一个研究问题。数据挖掘标记合适的数据挖掘原语的一个研究问题。数据挖掘

20、标记合适的数据挖掘原语的一个研究问题。数据挖掘标记合适的数据挖掘原语的一个研究问题。数据挖掘原语能够在数据仓库或者数据库内部执行以改善数据原语能够在数据仓库或者数据库内部执行以改善数据原语能够在数据仓库或者数据库内部执行以改善数据原语能够在数据仓库或者数据库内部执行以改善数据挖掘系统的性能。挖掘系统的性能。挖掘系统的性能。挖掘系统的性能。n nPMMLPMML是数据挖掘系统与预言模型系统之间的一个标是数据挖掘系统与预言模型系统之间的一个标是数据挖掘系统与预言模型系统之间的一个标是数据挖掘系统与预言模型系统之间的一个标准接口。准接口。准接口。准接口。数据挖掘系统数据挖掘系统vv实施策略实施策略n

21、 n第一代数据挖掘系统,直接将需要挖掘的数据一次性第一代数据挖掘系统,直接将需要挖掘的数据一次性第一代数据挖掘系统,直接将需要挖掘的数据一次性第一代数据挖掘系统,直接将需要挖掘的数据一次性调入内存,这些系统的成功依赖于团队和数据的质量调入内存,这些系统的成功依赖于团队和数据的质量调入内存,这些系统的成功依赖于团队和数据的质量调入内存,这些系统的成功依赖于团队和数据的质量n n如果数据足够大,并且频繁的变化,这就需要利用数如果数据足够大,并且频繁的变化,这就需要利用数如果数据足够大,并且频繁的变化,这就需要利用数如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,因此第二

22、代数据挖据库或者数据仓库技术进行管理,因此第二代数据挖据库或者数据仓库技术进行管理,因此第二代数据挖据库或者数据仓库技术进行管理,因此第二代数据挖掘系统是必须的。不幸的是,目前的数据仓库设计是掘系统是必须的。不幸的是,目前的数据仓库设计是掘系统是必须的。不幸的是,目前的数据仓库设计是掘系统是必须的。不幸的是,目前的数据仓库设计是方便方便方便方便OLAPOLAPOLAPOLAP操作的,而不是数据挖掘应用。这意味着真操作的,而不是数据挖掘应用。这意味着真操作的,而不是数据挖掘应用。这意味着真操作的,而不是数据挖掘应用。这意味着真正的第二代数据挖掘系统必须使用自己专门的数据管正的第二代数据挖掘系统必

23、须使用自己专门的数据管正的第二代数据挖掘系统必须使用自己专门的数据管正的第二代数据挖掘系统必须使用自己专门的数据管理系统,作为弥补目前数据库及数据仓库管理系统的理系统,作为弥补目前数据库及数据仓库管理系统的理系统,作为弥补目前数据库及数据仓库管理系统的理系统,作为弥补目前数据库及数据仓库管理系统的缺陷,直到数据库和数据仓库厂商对合适的数据挖掘缺陷,直到数据库和数据仓库厂商对合适的数据挖掘缺陷,直到数据库和数据仓库厂商对合适的数据挖掘缺陷,直到数据库和数据仓库厂商对合适的数据挖掘原语提供充分的支持。第二代数据挖掘系统应该能够原语提供充分的支持。第二代数据挖掘系统应该能够原语提供充分的支持。第二代

24、数据挖掘系统应该能够原语提供充分的支持。第二代数据挖掘系统应该能够产生产生产生产生PMMLPMMLPMMLPMML或者类似或者类似或者类似或者类似PMMLPMMLPMMLPMML的开放格式,使得挖掘结果能的开放格式,使得挖掘结果能的开放格式,使得挖掘结果能的开放格式,使得挖掘结果能够与操作型系统集成。够与操作型系统集成。够与操作型系统集成。够与操作型系统集成。数据挖掘系统数据挖掘系统vv实施策略实施策略n n如果使用多个预言模型,或者预言模型需要经常修改,如果使用多个预言模型,或者预言模型需要经常修改,如果使用多个预言模型,或者预言模型需要经常修改,如果使用多个预言模型,或者预言模型需要经常修

25、改,那么应该选择正在出现的第三代数据挖掘系统,以支那么应该选择正在出现的第三代数据挖掘系统,以支那么应该选择正在出现的第三代数据挖掘系统,以支那么应该选择正在出现的第三代数据挖掘系统,以支持这些功能,当然第三代系统也能与数据库或者数据持这些功能,当然第三代系统也能与数据库或者数据持这些功能,当然第三代系统也能与数据库或者数据持这些功能,当然第三代系统也能与数据库或者数据仓库集成。第三代数据挖掘系统和预言模型系统的一仓库集成。第三代数据挖掘系统和预言模型系统的一仓库集成。第三代数据挖掘系统和预言模型系统的一仓库集成。第三代数据挖掘系统和预言模型系统的一个重要的优点是由数据挖掘系统产生的预言模型能

26、够个重要的优点是由数据挖掘系统产生的预言模型能够个重要的优点是由数据挖掘系统产生的预言模型能够个重要的优点是由数据挖掘系统产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预自动地被操作型系统吸收,从而与操作型系统中的预自动地被操作型系统吸收,从而与操作型系统中的预自动地被操作型系统吸收,从而与操作型系统中的预言模块相联合提供决策支持的功能。言模块相联合提供决策支持的功能。言模块相联合提供决策支持的功能。言模块相联合提供决策支持的功能。n n目前在公司的日常营运中,移动计算越发显得重要,目前在公司的日常营运中,移动计算越发显得重要,目前在公司的日常营运中,移动计算越发显得重要,目前

27、在公司的日常营运中,移动计算越发显得重要,第四代数据挖掘系统能够在这儿起关键的作用。将数第四代数据挖掘系统能够在这儿起关键的作用。将数第四代数据挖掘系统能够在这儿起关键的作用。将数第四代数据挖掘系统能够在这儿起关键的作用。将数据挖掘和移动计算相结合是当前的一个研究领域。据挖掘和移动计算相结合是当前的一个研究领域。据挖掘和移动计算相结合是当前的一个研究领域。据挖掘和移动计算相结合是当前的一个研究领域。n n第一代数据挖掘系统仍然未发展完全,第二代、第三第一代数据挖掘系统仍然未发展完全,第二代、第三第一代数据挖掘系统仍然未发展完全,第二代、第三第一代数据挖掘系统仍然未发展完全,第二代、第三代数据挖

28、掘系统已经出现。目前未见到任何第四代数代数据挖掘系统已经出现。目前未见到任何第四代数代数据挖掘系统已经出现。目前未见到任何第四代数代数据挖掘系统已经出现。目前未见到任何第四代数据挖掘系统的报导。据挖掘系统的报导。据挖掘系统的报导。据挖掘系统的报导。数据挖掘系统发展趋势数据挖掘系统发展趋势vv集成集成n n第二代、第三代、以及第四代数据挖掘和预言模型系第二代、第三代、以及第四代数据挖掘和预言模型系第二代、第三代、以及第四代数据挖掘和预言模型系第二代、第三代、以及第四代数据挖掘和预言模型系统将与数据仓库合并,以提供一个集成的系统来管理统将与数据仓库合并,以提供一个集成的系统来管理统将与数据仓库合并

29、,以提供一个集成的系统来管理统将与数据仓库合并,以提供一个集成的系统来管理日常的商业过程。日常的商业过程。日常的商业过程。日常的商业过程。vv嵌入嵌入n n另一方面,二、三、四代数据挖掘技术将不断发展和另一方面,二、三、四代数据挖掘技术将不断发展和另一方面,二、三、四代数据挖掘技术将不断发展和另一方面,二、三、四代数据挖掘技术将不断发展和成熟,能够和各种应用集成,成为一种嵌入式的技术成熟,能够和各种应用集成,成为一种嵌入式的技术成熟,能够和各种应用集成,成为一种嵌入式的技术成熟,能够和各种应用集成,成为一种嵌入式的技术(embedded technologyembedded technology)。)。)。)。实验室研究方向实验室研究方向vv数据挖掘算法数据挖掘算法n n高维数据高维数据高维数据高维数据聚集聚集聚集聚集n n可视化可视化可视化可视化vv数据挖掘与数据挖掘与XML的结合的结合n nPMMLPMMLvv数据挖掘与具体应用的结合数据挖掘与具体应用的结合n nCRMCRMn nWEBWEBn n基因基因基因基因Any Questions?Z

展开阅读全文
相关资源
相关搜索

当前位置:首页 > pptx模板 > 企业培训

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com