数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx

上传人:不*** 文档编号:243402 上传时间:2018-06-26 格式:DOCX 页数:58 大小:227.32KB
返回 下载 相关 举报
数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx_第1页
第1页 / 共58页
亲,该文档总共58页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx(58页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、重庆大学 硕士学位论文 数据挖掘技术在参考天空分类中的应用研究 姓名:陈帅帅 申请学位级别:硕士 专业:计算机应用技术 指导教师:郭平 20120520 摘 要 近几十年来,计算机数据库的迅速膨胀导致人们被数据的海洋所淹没,人们 都知道自己对数据的掌握程度远远赶不上数据升级的速度。在数据量日益突增的 同时,伴随的是数据库中大量的数据被忽视,没有得到有效合理的开发和利用, 进一步导致隐藏在这些数据后的信息的流失。因此,数据挖掘的产生顺应了当下 社会的需求,正是这种需求促进了数据挖掘技术的蓬勃发展。 在能源问题和环境问题日益凸显的今天,人们都在寻求清洁高效的可再生新 能源来代替地球上储存有限的能源

2、。太阳能是一种可再生的绿色环保能源,它不 仅为人类带来了热能,也带来了光能,而人们对光能的利用在一定程度上取决于 天然采光的可行程度。天然光的充分利用,对节约人工照明用电所耗费的能源和 保护环境有着十分重大的意义。天然采光的主要研究对象是天空亮度分布。 为准确研究天空亮度分布,需要大量的光气候实测数据来作数据支撑,如果 用传统的数据分析方法对这些数据进行处 理,必然满足不了人们的需求。因此, 将数据挖掘技术引入到研究天空亮度分布工作中是非常有必要的,对推动建筑采 光技术的发展具有十分重大的意义。本文中的光气候数据来自于重庆地区光气候 观测站,由于在数据采集过程中,客观因素和人为因素可能会造成原

3、始数据存在 数据缺失、格式不规范、数据重复等问题,这样的数据很难用于数据挖掘。为提 高后续数据挖掘的质量,本文首先采用数据清理、数据变换等常用的数据预处理 技术对光气候数据进行预处理。本文数据挖掘的任务是从大量光气候数据中挖掘 出天空分类规律,通过对光气候的实时采样,以 CIE 般天空亮度分布标准为依 据,能快速准确地识别出当前天空类型,然后运用 CIE标准中的亮度分布公式, 计算出天空亮度分布值,从而为天然光的合理开发利用提供一定的理论依据。本 文结合光气候数据特征和各分类算法的特性,选择神经网络分类算法对光气候数 据进行分类。在以上过程中,本文强调专家意见和实际应用的有效结合,从而对 数据

4、进行更准确更有针对性的处理。 通过实验表明,本文提出的数据预处理方法能够合理有效地提高光气候数据 的质量,从而提高后续数据挖掘结果的可信性;本文提出的基于神经网络的光气 候数据分类模型, 实验结果表明由 BP网络构建的分类模型给出了参考天空分类的 一个定量分析的依据,为天空亮度分布规律研究提供了一定的理论支持。 关键词:数据挖掘,天空亮度分布,数据预处理,数据分类,神经网络 ABSTRACT Due to the rapid expansion of the computer database in recent decades, people are drowned in data of m

5、arine.They know their grasp of the data is far behind the speed of data growth. The amounts of data is increasing everyday and at the same time lots of data in the database are neglected and have not obtained effective utilization, which lead to the loss of hidden information in these data. Therefor

6、e, the emergence of data mining ccimplies with the current requirements of society.These requirements promote the rapid development of the data mining technology. Today, the energy and environmental issues are becoming more and more serious. People are looking for a clean and efficient renewable ene

7、rgy to replace the limited energy on the earth. Solar energy, a kind of the inexhaustible renewable green energy, not only brings heat energy but also light energy for humans.While the people utilize the light energy depending on the effectiveness of natural lighting. Fully utilizing the natural lig

8、ht is of the great significance for saving the energy consumption of artificial lighting and environment protection.Sky luminance distribution is the main study object of natural lighting. It requires a large amount of light climate data for studying the rule of sky luminance: distribution accuratel

9、y. If we use the traditional data analysis methods to deal with those data, it can not meet our demands inevitably.Therefore, its very necessary to introduce the data mining technology into the study of sky luminance distribution, which is very significant to promote the technology development on co

10、nstruction lighting. Light climate data in this paper comes from a light climate observing station in Chongqing. Objective or human factors in datstandard and the calculation formula of luminance distribution, which provide a theoretical basis for rational utilization of natural light.Taking the lig

11、ht climate data features and the characteristics of various classification algorithms into consideration, this paper puts forward the sky classification model for light climate data based on the neural network. In the whole process, this paper emphasizes the combination of expert opinion and practic

12、al application for handling data more accurate and more targeted. The experimental results show that the data preprocessing approaches proposed in this paper can improve the light climate data quality effectively, and then improve the credibility of the next data mining results. The sky classificati

13、on model based on the neural neitwork reflects a high accuracy in test samples, which gives a theoretical support of studying sky luminance distribution. Keywords: Data Mining, Sky Luminance Distribution, Data Preprocessing, Data Classification, Neural Network 1 绪论 1.1论文选题背景及意义 近几十年来,计算机硬件技术的飞速发展促进了

14、数据库信息技术的成熟,与 此同时人类在各个领域收集的数据量正以指数形式急剧增长。在这个称之为信息 爆炸的时代,面对如此庞大的数据量和以不同形式存储的数据,仅借助传统数据 处理技术很难满足人们的需求,人类面临着新的技术挑战,如何从这些海量的数 据中快速准确地提取出有用的信息和知识?数据挖掘就是在这样的背景下产生 的。简单的说,数据挖掘就是将隐含在大量数据中的有用信息或知识挖掘出来的 过程。通过数据挖掘技术,人们可从数据库中提取各种感兴趣的信息,规律以及 知识,并能从不同的角度去研究或观察它们。数据挖掘可以看成是数据库信息技 术自然演化的结果,它把人们对数据的应用从简单的查询统计提升到从大量数据

15、中发现知识 并为其提供相应的决策支持。因此,数据挖掘涉及到多门学科技术, 包括数据库技术、统计学技术、数据仓库技术、机器学习技术、信息检索技术、 高性能计算技术、模式识别技术等,它在数据库系统和信息领域是最重要的前沿 之一,是信息技术最有发展前途的交叉学科之一 1。 随着现代科学技术的进步以及人民生活水平的提高,当今社会对能源的需求 也越来越大,然而地球上石油、煤炭等能源的储藏量是有限的,二十世纪七八十 年代爆发的能源危机以及能源价格的持续上涨,对人类自身生存和社会经济发展 造成了严重的威胁。因此,寻找和利用清洁高效 的可再生新能源是解决能源危机 的主要出路。当前,我国已把开发利用新能源提到了

16、战略的高度并采取了一系列 措施来促进新能源产业的发展。在众多的新能源中,太阳能是一种最洁净、最安 全、分布最广、最可靠的能源宝库。根据全球权威能源机构预测,到二十世纪末, 太阳能将成为人类能源组成中的 主力军 。太阳能不仅能为人类提供热能,还提 供光能,而人们对光能的利用在很大程度上取决于天然采光的可行程度。在建筑 中充分利用天然光,制定合理的人工照明补偿方案,可以大大减少电光源的使用 量,从而能进一步减少人工照明的能源消耗及相关污 染,以达到既节能又环保的 目的。因此,利用天然光,追求生态的可持续发展,节约人工照明用电,具有十 分重要的意义 2。建筑物利用天然光最重要的依据是天空亮度分布,只

17、要知道了天 空亮度分布,就能求得室内各点的照度值,从而使得采光更准确。同时,人眼视 觉功效研究表明人眼在天然光的环境下要比在人工照明环境下有更好的舒适感, 更有益于身心健康。因此,天空亮度分布规律成为天然采光的重要研究对象,反 映天空亮度分布规律的重要依据是光气候。 在以往的建筑设计中,由于采光技术的落后和 光气候易受多种气候及环境因 素的影响,大多数国家都缺少全面的光气候资料,所以采用的是全阴天这种最不 利的天空亮度分布模型作为采光设计的标准,这方法虽然能保障室内照明的需要 , 但却造成采光口面积偏大,从而导致一系列能源浪费问题。为改善这一状况,人 们开始对光气候进行长期的全面的研究,从而累

18、积了大量的、准确的观测数据, 面对如此海量的数据,仅依靠传统的数据库查询检索和统计学方法是无法快速获 得准确的天空亮度分布规律信息。此时借助专门用于处理大规模数据信息的数据 挖掘技术来研究天空亮度分布规律是非常有必要的,对推 动建筑采光技术的发展 具有十分重要的意义。相关资料显示,目前已有众多的研究者对数据挖掘技术进 行了不少的深入研究,因此数据挖掘技术已相对成熟,其应用领域也在不断的扩 大。在大量可靠的实测数据基础上,将数据挖掘技术运用到天空亮度分布领域, 目前尚未得到充分的应用,因此具有较大的研究空间。 1.2国内外现状 1.2.1数据挖掘研究国内外现状 自二十世纪九十年代以来,数据挖掘的

19、发展非常迅速,其定义一直在变化, 目前被大家广泛认同的是由 Usamam.Fayyad3等人所定义的:数据挖掘,即是将隐 含在其中的、人 们事先不知道的同时又具有潜在价值的知识和规则从大量的、不 完整的、有噪声的数据中挖掘出来的过程。其挖掘对象可以是结构化的数据,如 关系数据库中的数据,也可以是半结构化的数据,如图形文本数据,甚至还可以 是分布在网络上面的异构数据 4。 1989年 8月在美国底特律市举行的第 11届国际 人工智能学术会议标志着世界上对数据挖掘正式研究的开始,在该会议上,数据 库中的知识发现 KDD(Knowledge Discovery in Database) 词被提出 4

20、。1993 年以 后,美国计算机协会每年都召开专门探讨数据挖掘技术的 KDD会议,其全称为 ACMM S1GKDD International Conference on Knowledge Discovery and Data Mining。 同年, IEEE旗下的 Knowledge and Data Engineering会刊率先出版了关于数据挖掘 技术的专题期刊。此后,在 Internet上不断涌现出各种与数据挖掘相关的电子出版 物,其中 Knowledge Discovery Nuggets的权威性最高。 1995年,首届知识 发现和 数据挖掘 (KDD & Data Mining)

21、国际学术会议在加拿大蒙特利尔市召开,会议上因 把数据库系统中的 数据 比喻成 矿石 ,把知识发现过程称为从数据矿石中挖掘知 识金块,从此 数据挖掘 一词便流传开来。会议还提出将数据挖掘技术划分为工程 领域的数据挖掘和科研领域的知识发现。此后每一年都召开了这样的会议,会议 的研究重点逐步从方法发现转向系统实际应用,并强调多学科技术间的相互渗透。 1997年,亚太地区的第一次大规模的 PAKDD学术研讨会在新加坡举行。到今天 为止,数据挖掘技术的研究己取得非凡的成果 6。目前,在学术方面,国外数据挖 掘的最新研究成果主要是针对知识发现这一方面进行研究,譬如近年来对贝叶斯 方法的深入研究和改进; K

22、DD与数据库的结合;把应用统计学回归方法引入到 KDD中等。在应用方面,体现在运用 KDD商业软件工具建立一个解决问题的整 体系统,主要针对的用户有保险公司、销售产业和大型银行等,如司研发 的针对 NBA篮球比赛数据的 AS(Advanced Scout)系统,此系统能够协助教练制定 更完美的攻球战略。 IBM和微软公司相继成立了对应的研发机构。美国处于数据 挖掘研究的核心地位,也是全球数据挖掘研究最先进的国家。目前,国外已开发 出一系列技术较成熟,应用价值较髙的数据挖掘商业软件,如 Angoss软件公司开 发的 Knowledge Studio, IBM 公司开发的 Intelligent

23、Miner, SPSS Clementine, HNC 公司开发的信用卡诈骗分析软件 Database Mining Workstation等。 SPSS是全球最 早的统计分析软件之一, Clementine是 SPSS的数据挖掘应用工具,是第一个提出 数据挖掘流概念的软件 7。 我国对数据挖掘的研究,与国外相比起步稍微晚点,目前正处于发展阶段, 还没有形成一股整体力量。 1993年,国家自然科学基金首次提出支持国内数据挖 掘研究。近十几年来,国内的许多科研单位和高等院校也竞相开展知识发现的基 础理论及其应用研究,其研究方向主要偏重于数据挖掘的学习算法,其中北京系 统工程研究所对模糊方法在知识

24、发现中的应用进行了较深入的研究;华中理工大 学、复旦大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川 联合大学等 单位研讨、研究了非结构化数据的知识发现以及 Web数据挖掘。目前 最新的发展有:在分类算法研究中,试图建立集合理论体系以方便处理海量数据; 在知识发现中,将模糊集和粗糙集理论结合使用;构建智能专家系统等。在应用 方面,国内也开始新兴起不少比较成熟的数据挖掘软件,如由中科院计算技术研 究所开发的多策略通用平台 MSMiner、 由上海复旦德门软件公司所开发的 DMiner、 由东北大学开发的面向制造业的 Scope Miner、 由海尔青大公司研发的 iDMiner等。

25、 iDMiner采用的是国际通用业界标准,为国内同类软 件的开发提供了新的思路 8。 1.2.2天空亮度分布研究国内外现状 在采光历史上,人类最早研究天空亮度分布的目的是为了给大范围的采光设计 提供理论支持。最古老、最简单的天空亮度分布标准规定在整个天空穹顶具有固 定不变的统一亮度 9。在国外,对天空亮度的分布研究最早开始于 1760年 Lambert 辑出了光度学理论,此后几乎所有光度学计算的基本方法都是源自于该理论。 1942 年,Spencer和 Moon提出了一种全阴天天空模型 11,该模型没有考虑太阳高度 角与天空亮度之间的关系,虽然该天空亮度分布模型与 实际天空不完全一致,但 是该

26、模型形式简单,运用方便,并且具有一定的精度,模拟了在厚云层下的天空 亮度从天顶到水平渐变减少到 1/3的天空亮度分布情况。因此,在 1955年被国际 照明委员会 (CIE)推荐为全阴天标准模型,被许多国家广泛釆用。但是该模型毕竟 不能代表各个地区,各个季节的真实天空,而且用于采光设计,会使得采光口的 面积偏大,导致能源严重浪费。所以在上世纪 7年代, Kittler等人对全晴天天空 亮度分布进行了研究 12,提出了通用性好,物理意义明确的全晴天天空亮度分布 模型,并在1973年被 CIE采纳。但是很明显的,不管是全晴天还是全阴天标准都 是极端的天空条件,这两种天空类型在实际天空中占的比例非常小

27、,所以为了研 究真实的天空亮度分布,从 1963年开始, CIE成立了专门的委员会来研究天空亮 度分布,并且在 1983年提出了在不同的气候区收集采光数据的国际采光测试计划 (IDMP), 该计划于 1991年正式启动。在 1987年, CIE专门成立了一个 TC-3-15 委员会来研究全阴天空与全晴天空之间的中间天空旧 。二十世纪九十年 代 , RichMd Kittle和 Stanislav Darula分别提出了一套全新的模型。该模型以世界多个地方的扫 描观测数据为研究基础,公式模型也是以 CIE的晴天空模型为基础,并且认为天 空亮度分布是有大气吸收和大气散射所影响,分析了具有代表性的大

28、气吸收函数 和散射函数,提出了十五种天空类型:五种晴天,五种中间天空,五种阴天。该 模型在 2004年被 CIE定为新天空标准标准。 在国内,对天空亮度分布的研究起步,与国外相比要稍微晚点,主要是一直缺 乏较为全面的光气候实测数据,虽然在六十年代初期就有杨光镟等学者 对 CIE的标 准全阴天空亮度分布进行了研究 14,但是直到 1979年才正式用来进行采光设计問。 二十世纪八十年代,国家气象局和中国建筑科学研究院联合对我国的十四个城市 光气候资料进行了系统的观测,并在此基础上对我国的光气候进行了分区。与此 同时,肖辉乾、陈仲林以及奚于成等相关的科学工作者提出了分类平均天空模型 的构想 16和中

29、间天空是由似阴天空和似晴天空组合而成的构想,并将模糊数学应 用其中最终得到了中间天空亮度分布模型卿,潤。此外,奚于成等人在似阴天 空的研究中,提出了似阴天空、似晴天空以及 CIE全晴 天空统一的天空亮度分布模 型,为更深入的研究天空亮度分布奠定了坚实的基础。但是从九十年代后期以来, 国内对天空亮度分布的研究一直处于停滞的状态,并没有对适合我国光气候条件 的天空亮度分布标准进行深入研究。 1.3论文主要内容及框架结构 本文为国家自然科学基金青年科学基金项目用蚁群理论研究我国光气候区 天空亮度分布 ( 批准号 : 1010200220090070)的一部分。本文中的光气候数据来自 于重庆地区的光气

30、候观测站,该观测站采用全套自动化设备,对太阳辐射、照度、 天顶亮度等十九个量进行了历时两年半的连续观测,积累了大量的光气候实测数 据。因数据采集过程中可能会存在譬如设备故障、人为操作错误等情况,导致采 集到的原始数据存在数据缺失、格式不规范等数据质量问题。因此,在这样的数 据里进行挖掘得不到有效的知识。为得到高质量的数据挖掘结果,本文首先对光 气候数据进行详细的数据质量分析,进而制定解决这些数据质量问题的数据预处 理方法,为后续的数据挖掘过程打下良好的数据基础。不同的天空类型对应不同 的天空亮度分布。本文数据挖掘的任务是从大 量光气候数据中挖掘出天空分类规 律,通过对光气候的实时采样,以 CI

31、E 般天空亮度分布标准为依据,能快速准 确地识别出当前天空类型,然后运用 CIE标准中的亮度分布公式,计算出天空亮 度分布值,从而为天然光的合理开发利用提供一定的理论依据。本文结合光气候 数据特征和各分类算法的特性,提出基于神经网络分类算法的光气候数据天空分 类模型。在以上过程中,强调专家意见和实际应用的有效结合,从而对数据进行 更准确更有针对性的处理。 本文共分为六章,其具体结构如下所示: 第一章绪论。简要阐述了本课题的背景以及现实意义。分 别介绍了数据挖掘 和天空亮度分布国内外的研究现状,最后讲述论文研究的主要内容以及本文的框 架结构。 第二章数据挖掘的相关概念。简单介绍了数据挖掘的基本概

32、念,详细介绍了 数据预处理和各分类算法,并对其分类算法进行了优缺点比较分析。 第三章天空亮度分布相关概念。介绍了反映天空亮度分布规律的光气候数 据 、CIE 般天空亮度分布标准以及天空亮度分布的计算公式。 第四章光气候数据预处理。详细介绍了光气候数据预处理方法的设计思想以 及步骤,并进行了实验。 第五章光气候数据分类。详细介绍了基于神经网络分类算法的光气候数 据分 类模型的设计思想,并进行了实验。 第六章总结与展望。对本文所做的工作进行比较全面的总结,阐述本文所取 得的成果,指出当前工作中可能存在的问题,展望下一步的研究工作。最后是参 考文献和附录。 1.4本章小结 介绍了本文的选题背景及本课

33、题的现实意义。 讨论了本课题国内外的研究现状。 介绍了本文的研究内容及其框架结构。 2数据挖掘相关概念 2.1引言 近年来,随着数据库技术的飞速发展和数据库管理信息系统的广泛应用,人 们在各个领域累积的数据量势必日益突增,而突增的数据后可能隐含着许多有价 值的信息。为了更好地利用这些数据,人们希望能对它们进行更高层次的分析, 而不再满足于简单的录入、查询、统计等功能。在人们需求大潮的推动下,数据 挖掘技术迅速崛起,并一直处于良好的发展势头。数据挖掘,起源于数据库学科 , 最初被定义为数据库中的知识发现 (KDD)。 后来,数据挖掘受到许多学科的关注, 如机器学习、统计学、数据库技术等,逐渐演变

34、成一个多学科交叉的领域 (见图 2.1)。 数据挖掘,即通过对数据库中大量的、模糊的、不完全的、随机的、含 有噪声的 实际应用数据进行分析,以期从这些数据中发现人们事先不知道的但又是潜在有 用的信息和知识。数据挖掘与传统的数据处理方式 (如检索查询、统计报表等 )的本 质区别是前者是在假设模糊的前提下去发现数据中存在的潜在关联和知识,甚至 是利用已有的数据对未来的活动进行预测。数据挖掘得出的知识必须具有以下三 个特征 21: 事先未知的:指挖掘出的知识是人们事先不清楚的,即不能靠目前方法发 现的知识。 有效的:用于挖掘的数据必须是有效的,才能保证挖掘出来的知识具有有 效性。 实用的:要求挖掘出

35、的知识对于它所在领域是 具有实用价值的。 图 2.2描述了数据挖掘的基本过程和主要步骤。 数据挖掘首先是确定业务问题和业务对象。明确挖掘的目的是数据挖掘的第 一步也是重要的一步,虽然说知识是未知的,但是要探讨的问题是可预见的。然 后是数据准备阶段,此阶段由数据采集和数据预处理构成。数据采集的任务是收 集所有与业务问题相关的数据,但并不是所有的数据都适合进行数据挖掘,我们 只需从中选择适合的数据即可。高质量的决策取决于髙质量的数据,考虑到现实 世界中的数据一般是脏的、不完整的和不一致的,所以在进行数据挖掘前,有必 要对数据进行预处理, 从而有效地提高数据的质量。接下来是进入数据挖掘阶段, 选择适合这些数据的挖掘算法进行数据挖掘。最后是结果分析阶段,对挖掘出的 结果进行解释和评估,使用可视化和知识表示技术,把知识呈现给用户使用。 在数据挖掘过程中,各步骤是按照一定的顺序完成的。值得一提的是数据挖 掘过程并不完全是自动的,其中有些工作是需要人工配合完成。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com