数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx-得力文库

资源描述

《数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx》由会员分享，可在线阅读，更多相关《数据挖掘技术在参考天空分类中的应用研究-陈帅帅.docx（58页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、重庆大学硕士学位论文数据挖掘技术在参考天空分类中的应用研究姓名：陈帅帅申请学位级别：硕士专业：计算机应用技术指导教师：郭平 20120520 摘要近几十年来，计算机数据库的迅速膨胀导致人们被数据的海洋所淹没，人们都知道自己对数据的掌握程度远远赶不上数据升级的速度。在数据量日益突增的同时，伴随的是数据库中大量的数据被忽视，没有得到有效合理的开发和利用，进一步导致隐藏在这些数据后的信息的流失。因此，数据挖掘的产生顺应了当下社会的需求，正是这种需求促进了数据挖掘技术的蓬勃发展。在能源问题和环境问题日益凸显的今天，人们都在寻求清洁高效的可再生新能源来代替地球上储存有限的能源

2、。太阳能是一种可再生的绿色环保能源，它不仅为人类带来了热能，也带来了光能，而人们对光能的利用在一定程度上取决于天然采光的可行程度。天然光的充分利用，对节约人工照明用电所耗费的能源和保护环境有着十分重大的意义。天然采光的主要研究对象是天空亮度分布。为准确研究天空亮度分布，需要大量的光气候实测数据来作数据支撑，如果用传统的数据分析方法对这些数据进行处理，必然满足不了人们的需求。因此，将数据挖掘技术引入到研究天空亮度分布工作中是非常有必要的，对推动建筑采光技术的发展具有十分重大的意义。本文中的光气候数据来自于重庆地区光气候观测站，由于在数据采集过程中，客观因素和人为因素可能会造成原

3、始数据存在数据缺失、格式不规范、数据重复等问题，这样的数据很难用于数据挖掘。为提高后续数据挖掘的质量，本文首先采用数据清理、数据变换等常用的数据预处理技术对光气候数据进行预处理。本文数据挖掘的任务是从大量光气候数据中挖掘出天空分类规律，通过对光气候的实时采样，以 CIE 般天空亮度分布标准为依据，能快速准确地识别出当前天空类型，然后运用 CIE标准中的亮度分布公式，计算出天空亮度分布值，从而为天然光的合理开发利用提供一定的理论依据。本文结合光气候数据特征和各分类算法的特性，选择神经网络分类算法对光气候数据进行分类。在以上过程中，本文强调专家意见和实际应用的有效结合，从而对数据

4、进行更准确更有针对性的处理。通过实验表明，本文提出的数据预处理方法能够合理有效地提高光气候数据的质量，从而提高后续数据挖掘结果的可信性；本文提出的基于神经网络的光气候数据分类模型，实验结果表明由 BP网络构建的分类模型给出了参考天空分类的一个定量分析的依据，为天空亮度分布规律研究提供了一定的理论支持。关键词：数据挖掘，天空亮度分布，数据预处理，数据分类，神经网络 ABSTRACT Due to the rapid expansion of the computer database in recent decades, people are drowned in data of m

5、arine.They know their grasp of the data is far behind the speed of data growth. The amounts of data is increasing everyday and at the same time lots of data in the database are neglected and have not obtained effective utilization, which lead to the loss of hidden information in these data. Therefor

6、e, the emergence of data mining ccimplies with the current requirements of society.These requirements promote the rapid development of the data mining technology. Today, the energy and environmental issues are becoming more and more serious. People are looking for a clean and efficient renewable ene

7、rgy to replace the limited energy on the earth. Solar energy, a kind of the inexhaustible renewable green energy， not only brings heat energy but also light energy for humans.While the people utilize the light energy depending on the effectiveness of natural lighting. Fully utilizing the natural lig

8、ht is of the great significance for saving the energy consumption of artificial lighting and environment protection.Sky luminance distribution is the main study object of natural lighting. It requires a large amount of light climate data for studying the rule of sky luminance： distribution accuratel

9、y. If we use the traditional data analysis methods to deal with those data, it can not meet our demands inevitably.Therefore, its very necessary to introduce the data mining technology into the study of sky luminance distribution, which is very significant to promote the technology development on co

10、nstruction lighting. Light climate data in this paper comes from a light climate observing station in Chongqing. Objective or human factors in datstandard and the calculation formula of luminance distribution, which provide a theoretical basis for rational utilization of natural light.Taking the lig

11、ht climate data features and the characteristics of various classification algorithms into consideration, this paper puts forward the sky classification model for light climate data based on the neural network. In the whole process, this paper emphasizes the combination of expert opinion and practic

12、al application for handling data more accurate and more targeted. The experimental results show that the data preprocessing approaches proposed in this paper can improve the light climate data quality effectively, and then improve the credibility of the next data mining results. The sky classificati

13、on model based on the neural neitwork reflects a high accuracy in test samples, which gives a theoretical support of studying sky luminance distribution. Keywords: Data Mining, Sky Luminance Distribution, Data Preprocessing, Data Classification, Neural Network 1 绪论 1.1论文选题背景及意义近几十年来，计算机硬件技术的飞速发展促进了

14、数据库信息技术的成熟，与此同时人类在各个领域收集的数据量正以指数形式急剧增长。在这个称之为信息爆炸的时代，面对如此庞大的数据量和以不同形式存储的数据，仅借助传统数据处理技术很难满足人们的需求，人类面临着新的技术挑战，如何从这些海量的数据中快速准确地提取出有用的信息和知识？数据挖掘就是在这样的背景下产生的。简单的说，数据挖掘就是将隐含在大量数据中的有用信息或知识挖掘出来的过程。通过数据挖掘技术，人们可从数据库中提取各种感兴趣的信息，规律以及知识，并能从不同的角度去研究或观察它们。数据挖掘可以看成是数据库信息技术自然演化的结果，它把人们对数据的应用从简单的查询统计提升到从大量数据

15、中发现知识并为其提供相应的决策支持。因此，数据挖掘涉及到多门学科技术，包括数据库技术、统计学技术、数据仓库技术、机器学习技术、信息检索技术、高性能计算技术、模式识别技术等，它在数据库系统和信息领域是最重要的前沿之一，是信息技术最有发展前途的交叉学科之一 1。随着现代科学技术的进步以及人民生活水平的提高，当今社会对能源的需求也越来越大，然而地球上石油、煤炭等能源的储藏量是有限的，二十世纪七八十年代爆发的能源危机以及能源价格的持续上涨，对人类自身生存和社会经济发展造成了严重的威胁。因此，寻找和利用清洁高效的可再生新能源是解决能源危机的主要出路。当前，我国已把开发利用新能源提到了

16、战略的高度并采取了一系列措施来促进新能源产业的发展。在众多的新能源中，太阳能是一种最洁净、最安全、分布最广、最可靠的能源宝库。根据全球权威能源机构预测，到二十世纪末，太阳能将成为人类能源组成中的主力军。太阳能不仅能为人类提供热能，还提供光能，而人们对光能的利用在很大程度上取决于天然采光的可行程度。在建筑中充分利用天然光，制定合理的人工照明补偿方案，可以大大减少电光源的使用量，从而能进一步减少人工照明的能源消耗及相关污染，以达到既节能又环保的目的。因此，利用天然光，追求生态的可持续发展，节约人工照明用电，具有十分重要的意义 2。建筑物利用天然光最重要的依据是天空亮度分布，只

17、要知道了天空亮度分布，就能求得室内各点的照度值，从而使得采光更准确。同时，人眼视觉功效研究表明人眼在天然光的环境下要比在人工照明环境下有更好的舒适感，更有益于身心健康。因此，天空亮度分布规律成为天然采光的重要研究对象，反映天空亮度分布规律的重要依据是光气候。在以往的建筑设计中，由于采光技术的落后和光气候易受多种气候及环境因素的影响，大多数国家都缺少全面的光气候资料，所以采用的是全阴天这种最不利的天空亮度分布模型作为采光设计的标准，这方法虽然能保障室内照明的需要 , 但却造成采光口面积偏大，从而导致一系列能源浪费问题。为改善这一状况，人们开始对光气候进行长期的全面的研究，从而累

18、积了大量的、准确的观测数据，面对如此海量的数据，仅依靠传统的数据库查询检索和统计学方法是无法快速获得准确的天空亮度分布规律信息。此时借助专门用于处理大规模数据信息的数据挖掘技术来研究天空亮度分布规律是非常有必要的，对推动建筑采光技术的发展具有十分重要的意义。相关资料显示，目前已有众多的研究者对数据挖掘技术进行了不少的深入研究，因此数据挖掘技术已相对成熟，其应用领域也在不断的扩大。在大量可靠的实测数据基础上，将数据挖掘技术运用到天空亮度分布领域，目前尚未得到充分的应用，因此具有较大的研究空间。 1.2国内外现状 1.2.1数据挖掘研究国内外现状自二十世纪九十年代以来，数据挖掘的

19、发展非常迅速，其定义一直在变化，目前被大家广泛认同的是由 Usamam.Fayyad3等人所定义的：数据挖掘，即是将隐含在其中的、人们事先不知道的同时又具有潜在价值的知识和规则从大量的、不完整的、有噪声的数据中挖掘出来的过程。其挖掘对象可以是结构化的数据，如关系数据库中的数据，也可以是半结构化的数据，如图形文本数据，甚至还可以是分布在网络上面的异构数据 4。 1989年 8月在美国底特律市举行的第 11届国际人工智能学术会议标志着世界上对数据挖掘正式研究的开始，在该会议上，数据库中的知识发现 KDD(Knowledge Discovery in Database) 词被提出 4

20、。1993 年以后，美国计算机协会每年都召开专门探讨数据挖掘技术的 KDD会议，其全称为 ACMM S1GKDD International Conference on Knowledge Discovery and Data Mining。同年， IEEE旗下的 Knowledge and Data Engineering会刊率先出版了关于数据挖掘技术的专题期刊。此后，在 Internet上不断涌现出各种与数据挖掘相关的电子出版物，其中 Knowledge Discovery Nuggets的权威性最高。 1995年，首届知识发现和数据挖掘 (KDD & Data Mining)

21、国际学术会议在加拿大蒙特利尔市召开，会议上因把数据库系统中的数据比喻成矿石，把知识发现过程称为从数据矿石中挖掘知识金块，从此数据挖掘一词便流传开来。会议还提出将数据挖掘技术划分为工程领域的数据挖掘和科研领域的知识发现。此后每一年都召开了这样的会议，会议的研究重点逐步从方法发现转向系统实际应用，并强调多学科技术间的相互渗透。 1997年，亚太地区的第一次大规模的 PAKDD学术研讨会在新加坡举行。到今天为止，数据挖掘技术的研究己取得非凡的成果 6。目前，在学术方面，国外数据挖掘的最新研究成果主要是针对知识发现这一方面进行研究，譬如近年来对贝叶斯方法的深入研究和改进； K

22、DD与数据库的结合；把应用统计学回归方法引入到 KDD中等。在应用方面，体现在运用 KDD商业软件工具建立一个解决问题的整体系统，主要针对的用户有保险公司、销售产业和大型银行等，如司研发的针对 NBA篮球比赛数据的 AS(Advanced Scout)系统，此系统能够协助教练制定更完美的攻球战略。 IBM和微软公司相继成立了对应的研发机构。美国处于数据挖掘研究的核心地位，也是全球数据挖掘研究最先进的国家。目前，国外已开发出一系列技术较成熟，应用价值较髙的数据挖掘商业软件，如 Angoss软件公司开发的 Knowledge Studio, IBM 公司开发的 Intelligent

23、Miner， SPSS Clementine， HNC 公司开发的信用卡诈骗分析软件 Database Mining Workstation等。 SPSS是全球最早的统计分析软件之一， Clementine是 SPSS的数据挖掘应用工具，是第一个提出数据挖掘流概念的软件 7。我国对数据挖掘的研究，与国外相比起步稍微晚点，目前正处于发展阶段，还没有形成一股整体力量。 1993年，国家自然科学基金首次提出支持国内数据挖掘研究。近十几年来，国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究，其研究方向主要偏重于数据挖掘的学习算法，其中北京系统工程研究所对模糊方法在知识

24、发现中的应用进行了较深入的研究；华中理工大学、复旦大学等单位开展了对关联规则开采算法的优化和改造；南京大学、四川联合大学等单位研讨、研究了非结构化数据的知识发现以及 Web数据挖掘。目前最新的发展有：在分类算法研究中，试图建立集合理论体系以方便处理海量数据；在知识发现中，将模糊集和粗糙集理论结合使用；构建智能专家系统等。在应用方面，国内也开始新兴起不少比较成熟的数据挖掘软件，如由中科院计算技术研究所开发的多策略通用平台 MSMiner、由上海复旦德门软件公司所开发的 DMiner、由东北大学开发的面向制造业的 Scope Miner、由海尔青大公司研发的 iDMiner等。

25、 iDMiner采用的是国际通用业界标准，为国内同类软件的开发提供了新的思路 8。 1.2.2天空亮度分布研究国内外现状在采光历史上，人类最早研究天空亮度分布的目的是为了给大范围的采光设计提供理论支持。最古老、最简单的天空亮度分布标准规定在整个天空穹顶具有固定不变的统一亮度 9。在国外，对天空亮度的分布研究最早开始于 1760年 Lambert 辑出了光度学理论，此后几乎所有光度学计算的基本方法都是源自于该理论。 1942 年，Spencer和 Moon提出了一种全阴天天空模型 11，该模型没有考虑太阳高度角与天空亮度之间的关系，虽然该天空亮度分布模型与实际天空不完全一致，但是该

26、模型形式简单，运用方便，并且具有一定的精度，模拟了在厚云层下的天空亮度从天顶到水平渐变减少到 1/3的天空亮度分布情况。因此，在 1955年被国际照明委员会 (CIE)推荐为全阴天标准模型，被许多国家广泛釆用。但是该模型毕竟不能代表各个地区，各个季节的真实天空，而且用于采光设计，会使得采光口的面积偏大，导致能源严重浪费。所以在上世纪 7年代， Kittler等人对全晴天天空亮度分布进行了研究 12，提出了通用性好，物理意义明确的全晴天天空亮度分布模型，并在1973年被 CIE采纳。但是很明显的，不管是全晴天还是全阴天标准都是极端的天空条件，这两种天空类型在实际天空中占的比例非常小

27、，所以为了研究真实的天空亮度分布，从 1963年开始， CIE成立了专门的委员会来研究天空亮度分布，并且在 1983年提出了在不同的气候区收集采光数据的国际采光测试计划 (IDMP)，该计划于 1991年正式启动。在 1987年， CIE专门成立了一个 TC-3-15 委员会来研究全阴天空与全晴天空之间的中间天空旧。二十世纪九十年代， RichMd Kittle和 Stanislav Darula分别提出了一套全新的模型。该模型以世界多个地方的扫描观测数据为研究基础，公式模型也是以 CIE的晴天空模型为基础，并且认为天空亮度分布是有大气吸收和大气散射所影响，分析了具有代表性的大

28、气吸收函数和散射函数，提出了十五种天空类型：五种晴天，五种中间天空，五种阴天。该模型在 2004年被 CIE定为新天空标准标准。在国内，对天空亮度分布的研究起步，与国外相比要稍微晚点，主要是一直缺乏较为全面的光气候实测数据，虽然在六十年代初期就有杨光镟等学者对 CIE的标准全阴天空亮度分布进行了研究 14，但是直到 1979年才正式用来进行采光设计問。二十世纪八十年代，国家气象局和中国建筑科学研究院联合对我国的十四个城市光气候资料进行了系统的观测，并在此基础上对我国的光气候进行了分区。与此同时，肖辉乾、陈仲林以及奚于成等相关的科学工作者提出了分类平均天空模型的构想 16和中

29、间天空是由似阴天空和似晴天空组合而成的构想，并将模糊数学应用其中最终得到了中间天空亮度分布模型卿，潤。此外，奚于成等人在似阴天空的研究中，提出了似阴天空、似晴天空以及 CIE全晴天空统一的天空亮度分布模型，为更深入的研究天空亮度分布奠定了坚实的基础。但是从九十年代后期以来，国内对天空亮度分布的研究一直处于停滞的状态，并没有对适合我国光气候条件的天空亮度分布标准进行深入研究。 1.3论文主要内容及框架结构本文为国家自然科学基金青年科学基金项目用蚁群理论研究我国光气候区天空亮度分布（批准号： 1010200220090070)的一部分。本文中的光气候数据来自于重庆地区的光气

30、候观测站，该观测站采用全套自动化设备，对太阳辐射、照度、天顶亮度等十九个量进行了历时两年半的连续观测，积累了大量的光气候实测数据。因数据采集过程中可能会存在譬如设备故障、人为操作错误等情况，导致采集到的原始数据存在数据缺失、格式不规范等数据质量问题。因此，在这样的数据里进行挖掘得不到有效的知识。为得到高质量的数据挖掘结果，本文首先对光气候数据进行详细的数据质量分析，进而制定解决这些数据质量问题的数据预处理方法，为后续的数据挖掘过程打下良好的数据基础。不同的天空类型对应不同的天空亮度分布。本文数据挖掘的任务是从大量光气候数据中挖掘出天空分类规律，通过对光气候的实时采样，以 CI

31、E 般天空亮度分布标准为依据，能快速准确地识别出当前天空类型，然后运用 CIE标准中的亮度分布公式，计算出天空亮度分布值，从而为天然光的合理开发利用提供一定的理论依据。本文结合光气候数据特征和各分类算法的特性，提出基于神经网络分类算法的光气候数据天空分类模型。在以上过程中，强调专家意见和实际应用的有效结合，从而对数据进行更准确更有针对性的处理。本文共分为六章，其具体结构如下所示：第一章绪论。简要阐述了本课题的背景以及现实意义。分别介绍了数据挖掘和天空亮度分布国内外的研究现状，最后讲述论文研究的主要内容以及本文的框架结构。第二章数据挖掘的相关概念。简单介绍了数据挖掘的基本概

32、念，详细介绍了数据预处理和各分类算法，并对其分类算法进行了优缺点比较分析。第三章天空亮度分布相关概念。介绍了反映天空亮度分布规律的光气候数据、CIE 般天空亮度分布标准以及天空亮度分布的计算公式。第四章光气候数据预处理。详细介绍了光气候数据预处理方法的设计思想以及步骤，并进行了实验。第五章光气候数据分类。详细介绍了基于神经网络分类算法的光气候数据分类模型的设计思想，并进行了实验。第六章总结与展望。对本文所做的工作进行比较全面的总结，阐述本文所取得的成果，指出当前工作中可能存在的问题，展望下一步的研究工作。最后是参考文献和附录。 1.4本章小结介绍了本文的选题背景及本课

33、题的现实意义。讨论了本课题国内外的研究现状。介绍了本文的研究内容及其框架结构。 2数据挖掘相关概念 2.1引言近年来，随着数据库技术的飞速发展和数据库管理信息系统的广泛应用，人们在各个领域累积的数据量势必日益突增，而突增的数据后可能隐含着许多有价值的信息。为了更好地利用这些数据，人们希望能对它们进行更高层次的分析，而不再满足于简单的录入、查询、统计等功能。在人们需求大潮的推动下，数据挖掘技术迅速崛起，并一直处于良好的发展势头。数据挖掘，起源于数据库学科 , 最初被定义为数据库中的知识发现 (KDD)。后来，数据挖掘受到许多学科的关注，如机器学习、统计学、数据库技术等，逐渐演变

34、成一个多学科交叉的领域 (见图 2.1)。数据挖掘，即通过对数据库中大量的、模糊的、不完全的、随机的、含有噪声的实际应用数据进行分析，以期从这些数据中发现人们事先不知道的但又是潜在有用的信息和知识。数据挖掘与传统的数据处理方式 (如检索查询、统计报表等 )的本质区别是前者是在假设模糊的前提下去发现数据中存在的潜在关联和知识，甚至是利用已有的数据对未来的活动进行预测。数据挖掘得出的知识必须具有以下三个特征 21: 事先未知的：指挖掘出的知识是人们事先不清楚的，即不能靠目前方法发现的知识。有效的：用于挖掘的数据必须是有效的，才能保证挖掘出来的知识具有有效性。实用的：要求挖掘出

35、的知识对于它所在领域是具有实用价值的。图 2.2描述了数据挖掘的基本过程和主要步骤。数据挖掘首先是确定业务问题和业务对象。明确挖掘的目的是数据挖掘的第一步也是重要的一步，虽然说知识是未知的，但是要探讨的问题是可预见的。然后是数据准备阶段，此阶段由数据采集和数据预处理构成。数据采集的任务是收集所有与业务问题相关的数据，但并不是所有的数据都适合进行数据挖掘，我们只需从中选择适合的数据即可。高质量的决策取决于髙质量的数据，考虑到现实世界中的数据一般是脏的、不完整的和不一致的，所以在进行数据挖掘前，有必要对数据进行预处理，从而有效地提高数据的质量。接下来是进入数据挖掘阶段，选择适合这些数据的挖掘算法进行数据挖掘。最后是结果分析阶段，对挖掘出的结果进行解释和评估，使用可视化和知识表示技术，把知识呈现给用户使用。在数据挖掘过程中，各步骤是按照一定的顺序完成的。值得一提的是数据挖掘过程并不完全是自动的，其中有些工作是需要人工配合完成。

展开阅读全文