基于粗糙集的攻击意图特征提取研究-张红新.pdf

上传人:1890****070 文档编号:107063 上传时间:2018-05-13 格式:PDF 页数:59 大小:2.88MB
返回 下载 相关 举报
基于粗糙集的攻击意图特征提取研究-张红新.pdf_第1页
第1页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于粗糙集的攻击意图特征提取研究-张红新.pdf》由会员分享,可在线阅读,更多相关《基于粗糙集的攻击意图特征提取研究-张红新.pdf(59页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、中图分类号:TP309UDC: 620密级: 公开学校代码: 10094诃4芒湃菡尤学硕士学位论文(学历硕士)基于粗糙集的攻击意图特征提取研究Resea rch on The Attack I ntention Feature ExtractionBased on Rough Set作者姓名:张红新指导教师:赵冬梅教授学科专业名称:应用软件技术研究方向:信息安全论文开题日期:2016年5月5日万方数据学位论文原创性声明JIIlll 11111 I Jlll I 111 III II IIlY3208447本人所提交的学位论文基于粗糙集的攻击意图特征提取研究,是在导师的指导下,独立进行研究工作所

2、取得的原创性成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在文中标明。本声明的法律后果由本人承担。论文作者(签名):欢乡僦加一年七月3日指导教师确认(签名):砷年七月3日学位论文版权使用授权书本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构送交学位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在年解密后适用本授权书)论文作者(签名):献红融7oh年月5日指

3、导教师(签名)纠7年上月11万方数据摘要在当今大数据时代的背景下,随着数据种类增多、规模扩大,大数据在各个领域中的重要性也与日俱增,安全事件的层出不穷使大数据安全问题面临严峻的考验。网络安全技术一直在不断变革,从传统的入侵阻止、入侵检测发展到入侵容忍、可生存性研究,从关注信息的保密性发展到关注信息的可用性和服务的可持续性,从关注单个安全问题的解决发展到研究网络的整体安全状况及变化趋势,网络安全态势评估已成为网络安全技术的焦点。而态势要素的提取是网络安全态势评估的基础,包括网络结构、资产、威胁等方面。前两方面信息是基本固定的,威胁是未知的不确定的,而攻击意图又是威胁中的关键所在。因此攻击意图的提

4、取也变得尤为重要。然而现有的攻击意图提取方法由于数据来源存在海量、冗余及错误等缺陷,对攻击意图的深层次分析不足,多源异构数据背景的攻击意图提取技术不成熟等原因已无法满足当前网络安全的需求。基于以上原因,本文提出了运用粗糙集对攻击意图特征进行提取的方法。基于粗糙集的攻击意图特征提取方法:首先对数据集进行预处理。删除特殊属性与攻击,以达到降维的目的,然后对数据库根据适当的属性进行分块,以简化数据集,更好地优化属性得到更理想的结果。进而在简化的数据集基础上对其进行离散化,根据数据集特征选用合适的离散算法,并与原始数据集离散效果进行对比。基于离散化结果,对数据集属性特征进行约简,运用提出的基于改进的回

5、溯搜索优化算法的决策粗糙集约简方法提取其重要特征,以达到相对较好的结果,为攻击意图的预测提供有效的数据基础。关键字:粗糙集属性约简攻击意图特征提取III万方数据AbstractIn the context of todayS big data age,嘶m the increase in the type and size of the data,big data is becoming more and more important in various areasHowever,all kinds of thenetwork security incidents emerging in e

6、ndlessly make big data security problems are facinga severe testAlong、舫tll the continuous development of network security technology,fromthe traditional intrusion prevention and intrusion detection to intrusion tolerance andresearch of the network survivability,from the concem of information confide

7、ntiality to theconcern of the information availability and service sustainability,from the research of asingle network security problem to the research of the overall security situation and trends ofthe network,network security situation assessment has become the focus of network securitytechnologyT

8、he extraction of situation elements is the basis of network security situationassessmentSituation elements include network structure,assets and threats,etcNetworkstructure and assets are basically fixed while threats are ullknown and uncertain,as the attackintention is the key to threats,therefore,t

9、he extraction of attack intention is very important码e current attack intention extraction methods have been unable to meet the needs ofnetwork security,which is mainly due to the following reasons;data sources are flawed,such as massive,redundant and error,etc;lack of deep analysis of attack intenti

10、on;the attackintention extraction technology of the multi-source and heterogeneous data is immatureBased on the above-mention reasons,this paper put forward an effective method of theattack intention feature extraction based on rough setThe specific method of the attack intention feature extraction

11、based on rough set is asfollows:firstly,data preprocessingRemove the special attributes and attacks to reduce thedimension of the data setThen,the database is partitioned according to an appropriateattribute to simplify the data set and optimize the other attributes to get the better resultsSecondly

12、,select the appropriate algorithm to discretize the liale data sets based on the aboveresults,and compare with the discrete effects of the original data setThirdly,attributereduction based on the results of data discretizationIn this paper,the IBSA-DTRS reductionIV万方数据metllod is used to extract the

13、important characteristics of the attack intention SO as to achievea relatively good result,which provides all effective data foundation for the prediction of theattack intentionVKey Words:rough set,attribute reduction,attack intention,feature extraction万方数据目 录中文摘要III英文摘要1绪论111研究背景l12 国内外研究现状2121国内外攻

14、击意图提取方面研究现状2122粗糙集国内外研究现状213研究内容414研究意义4141理论意义4142实践意义415论文创新点516论文结构52粗糙集简介721粗糙集概念与基础7211知识和知识库7212不可分辨关系8213知识表达系统8214上近似和下近似921。5知识约简与核11216决策规则1222粗糙集理论的主要应用领域1323粗糙集模型14231 Pawlak粗糙集模型14232概率粗糙集模型16233决策粗糙集模型1724本章小结20VI万方数据3基于IBSA的决策粗糙集属性约简算法2131回溯搜索优化算法基本原理2132回溯搜索优化算法的改进223。2。l变异尺度系数22322自

15、适应交叉概率22323改进的回溯搜索优化算法求解过程2333基于IBSA的决策粗糙集属性约简算法23331适应度函数23332算法的执行过程2434本章小结254基于粗糙集的攻击意图特征提取过程2741数据预处理2742数据离散化27421离散化定义27422离散化作用28423离散化方法比较28424本文选用的离散化方法3043属性约简315实验仿真与分析3351实验数据源分析33511 KDDCUP99数据集简介33512实验选取的数据介绍3352实验数据预处理34521去除特殊属性及攻击34522数据库分块处理3653实验数据离散化3954攻击意图特征提取4055本章小结41结论43VI

16、I万方数据参考文献45致谢49攻读学位期间取得的科研成果清单5lVIII万方数据1 绪 论11 研究背景随着计算机普及,网络技术也在快速发展,人们对其的运用不再局限于单机的文字处理和数学运算,从单一的局域网运用发展到多维复杂的互联网计算机处理系统。基于计算机处理系统的便捷性,越来越多的公司将其核心业务向互联网转移,与此同时,互联网中的系统安全问题也日益严峻。就目前中国互联网现状来看,随着互联网的应用深入各行各业,网络用户和网络资源在持续增长,整个虚拟产业链已初见规模。人群的多样性决定了互联网的开放性和应用系统的复杂性,因此各种漏洞层出不穷,其种类、数量,不断攀升。相对的,网络攻击行为逐渐变得复

17、杂,多种攻击融合造成网络安全的防御更加困难。据2015年国家互联网应急中心年报分析,我国民众大部分现在应用网络广泛,使用互联网的人数达到将近69亿,使用手机上网的人数也达到了6亿多,域名的总计数量达到了3102万。长久以来,虽然我国的网络安全保护措施一直在不断完善以使得网络安全的防御和保护能力得到了显著的提升。但是,网络安全问题依然难以避免。我国的基础的网络设备、域名系统和工业互联网等基础网络以及关键的基础设施方面,网络安全事件时有发生,仍然面临着较大的安全风险。互联网恶意程序、木马和僵尸网络、网页篡改、网页仿冒、安全漏洞等网络安全问题层出不穷:利用木马、网页篡改等截取虚拟物品和实际金钱;通过

18、截取私人信息进行精准的网络诈骗和勒索:智能终端漏洞的风险逐渐增大;恶意程序的传播途径逐渐增多。为了应对网络攻击行为的肆虐,网络安全技术的发展也是日新月异,其变革历程为:由单纯的检测入侵信息从而进行阻止发展为通过利用入侵容忍技术解决信息系统的生存问题,由信息保密性研究发展为对信息可用性及服务可持续性的研究,由注重于解决单一网络安全问题发展为研究网络的整体安全状况及变化趋势,网络安全态势评估已成为网络安全技术的焦点。态势要素的提取是网络安全态势评估的基础。目前,关于网络安全态势要素的提取主要是从网络资产、威胁、结构等方面提取态势评估的要素【卜13】,以实现对网络安全态势的评估。在这些要素中,网络结

19、构、资产这些信息是基本固定的,也是已知的。对于威胁而言,是不确定的,其爆发时机、类型、数量以及其攻击意图都是未知的。尤其是攻击意图代表着攻击者的最终攻击目标和预期攻击效果,往往被虚假的攻击行为所掩盖。因此如何确定网络攻击者的攻击意图在网络安全领域中也变得尤为万方数据重要。12 国内外研究现状121 国内外攻击意图提取方面研究现状目前关于网络安全态势评估类文献对威胁的考虑主要是从威胁的类型、数量、攻击位置等来自于入侵检测设备的直观报警信息,而缺乏对深层次攻击意图信息的提取,因而,无法对复杂攻击条件下的安全态势进行有效的评估。而现有攻击意图方面的研究主要是用于入侵检测。其研究方法和成果主要是:一,

20、从网络自身的结构特点判断攻击意图,例如,由网络结构的脆弱性判断攻击意图;二,从入侵检测信息判断攻击的意图,例如,根据攻击路径、攻击事件数量等信息运用概率统计判断攻击意图;三,基于马尔科夫链的思想、博弈判断攻击意图。文献14】中提出了通过渗透挖掘攻击的路径方法,根据网络中的漏洞,预测攻击的路径,从而达到识别攻击意图的效果。这种方法通过对网络漏洞和脆弱性的分析,来推算攻击可能发生的位置,进而推算网络攻击意图,其依托了网络的实际结构,因而,具有很强的客观性。但该方法只能给出攻击的可能目标点,无法给出攻击目的、预期效果等意图类信息。文献1516】通过提取入侵检测设备所给出的网络中各节点的攻击事件的频率

21、,以概率推断的方法给出攻击者的意图。文献17】中通过利用DS证据理论与入侵检测系统中的报警信息进行融合以获取攻击者的行为和可信度,并且通过节点的状态和各节点间的依赖关系来计算出攻击者的真实攻击意图的概率。这种方法其出发点是网络攻击事件,可对当前发生的网络攻击事件所对应的攻击目标点进行推断,但无法预测攻击者的多步行为。文献1820中提出了基于博弈思想的攻击意图识别方法,其主要做法是,根据博弈双方的单步策略以及收益来推断出攻击者的攻击意图。这种方法单纯从收益的角度出发来确定攻击意图,对于确定意图单纯的攻击者的意图具有一定的效果,但对于多攻击源复合、多步实施、意图不确定的攻击者的意图则难以识别。并且

22、,对于博弈而言,当参加博弈者增加时,实时性降低。综合现有研究成果可见,现有成果在攻击意图信息提取和预测上存在着信息来源有限、意图分析深层次不够等问题,难以对攻击意图做出客观、全面的判断。因此,本文拟运用粗糙集方法对攻击意图特征的提取进行研究,以期为攻击意图的提取和预测提供准确全面的数据支持,进而为网络安全态势的评估打下技术及理论基础。122粗糙集国内外研究现状人们总希望根据一些已经获得的信息对某些问题做出更加准确的判断及抉择,然而2万方数据正常情况下我们所获得信息大部分都具有不确定性,并且获取信息样本的过程经常伴随着其他方面的干扰,鉴于这种情况,不确定性问题的探索之门开始被打开。粗糙集(Rou

23、gh Set)理论在1982年被波兰的学者ZPawlak第一次提出,他根据对不确定性问题的研究积累,提出了这一个对数据进行分析的数学理论【2l】,它主要应用于对不完整性和不确定性的问题的研究过程中,以求将隐藏在这些不完备信息里的知识和规律挖掘出来。在ZPawlak提出粗糙集理论之后,最初10年内与其相关的研究并没有在国际上得到广泛的关注,并且当时粗糙集研究的地域范围也比较有限,主要集中在波兰地区。此后在20世纪末期,粗糙集成功应用于模式识别和知识发现等许多领域,因此与其相关的研究也受到了一些著名的学者大力关注。著名学者ZPawlak在1991年发表了一篇关于数据推理的粗糙集方面的论文【冽,它是

24、粗糙集严密的理论基础,而另外一名学者Slowinski R在后一年又发表了一些与粗糙集及其实践应用有关的论文【23】,并取得了不小的收获,那是国际上的学者开始对粗糙集探索的活跃时期。自1992年以后,国际上成立了粗糙集学术研究会,而且以后的每一年,许多学者都会来国际研讨会参与讨论,会议的主要内容就是关于粗糙集研究。讨论该研究方面的进展以及其实践应用的成果等。第一届粗糙集学术研究会开展的国际研讨会于1992年在波兰召开,会议主要集中于对集合近似的研究内容进行探讨,并且讨论了与其相关的机器学习方面的研究;第二届国际研讨会在1993年于加拿大举行,会议内容主要围绕粗糙集、模糊集等方面的研究进行探讨;

25、1995年粗糙集学术研究会开展的第四届国际研讨会上,提出了一个新的研究课题一ACM通讯,并讨论了与粗糙集相关的一些研究内容;在1996年,粗糙集学术研究会开展的国际研讨会第一次选择亚洲日本为召开地点;在1998年,一个名为InformationSciences的机构做了一次专题报导,主要内容为粗糙集的探索。近年来粗糙集的探索工作发展迅速,随着越来越多的人去研究粗糙集理论,世界上许多国家对此都开始了研究,而且关于此类的书籍著作也越来越多。与此同时,粗糙集理论在以下几个方面的发展是快速的。例如:数据模式的识别、数据的挖掘。虽然我国在研究粗糙集的方面起步较晚,但是发展迅速,相关方面的著名研究学者代表

26、有王国胤和张文修等。我国现在每年也会举办粗糙集理论研究的相关会议,追溯最早的时间,主要是从2001年开始。国内外许多学者也逐渐的参与其中。目前,我国的粗糙集研究领域,队伍规模和质量正在逐步提升,奠定了科研领域的重要地位,得到了越来越广泛的万方数据关注。随着学者们过去几十年对粗糙集的探索和研究,其理论体系也愈益完善,粗糙集有以下特点:(1)粗糙集是一种能力强大的数据分析工具,能处理包括不完备数据以及完备数据等各种类型的数据:(2)粗糙集处理的数据可以是不确定性的或者精确的,并不需要提供所获得的必需数据集之外的任何其它数据;(3)粗糙集可以准确地得到规则,并且可以得到最小的知识表达。13 研究内容

27、本文选用KDDCUP99的10的训练数据集作为实验数据,由于该数据集数据量很大导致数据难以处理,因此应用按service属性对数据集进行分块的方法1241预先对实验数据集进行一定的处理。该方法优点是(1)数据不失真,并且减少了进行数据挖掘时需要处理的数据量:(2)分块后每个数据子集的相对应的决策属性类型与原数据集相比有所减少,即减少了数据挖掘过程中需要区分的决策类型,从而精简了属性约简所获得的特征属性集合。(3)相对于原数据集,分块后数据子集中某个确定属性的取值范围减少,使得数据离散化及属性约简过程得到简化。基于对实验数据集分块等预处理的基础上,利用Naive Scaler算法251对实验数据

28、进行离散化操作。进而依托于离散化后的数据,应用基于改进的回溯搜索优化算法126】结合决策粗糙集模型对数据集特征属性进行约简,从而得到所需要的攻击意图特征。14研究意义141理论意义在攻击意图特征信息的提取上,本论文应用了基于改进的回溯搜索优化算法的一种新的属性约简方法,将该算法与决策粗糙集模型相结合,形成基于IBSA-DTRS的属性约简算法,利用IBSA的全局寻优能力与决策粗糙集的较高容错能力等特点对实验数据集进行属性约简,通过仿真实验我们发现使用该方法我们能够很好的获得所需要的典型特征属性信息。142实践意义如今,现有研究成果在攻击意图信息提取上存在着信息来源有限、动机描述缺乏、4万方数据意

29、图分析深层次不够等问题,难以对攻击意图做出客观、全面的判断。论文的成果之一:本文提出的攻击意图特征的提取方法,主要实现基于IBSADTRS的网络安全数据属性约简从而获取网络攻击者的典型攻击意图特征,进而获取并预测网络攻击者的攻击意图,为网络安全态势评估提供准确而全面的理论及数据支持,并应用于实践中。15论文创新点论文的创新点如下:(1)将改进的回溯搜索优化算法应用于攻击意图特征的提取,为网络安全领域提供新的方法。(2)将决策粗糙集理论运用于网络安全领域,为攻击意图提取奠定了数据基础。16论文结构论文共分为六章,安排如下。第一章为绪论部分。介绍了攻击意图特征提取方法及粗糙集的研究背景、现状、意义

30、以及论文的创新点等。第二章介绍了粗糙集理论及其主要应用领域,并介绍了经典的粗糙集模型,进而引出了对本文使用的决策粗糙集模型的介绍。第三章介绍了回溯搜索优化算法(BSA),并提出了基于改进的BSA的决策粗糙集(DTRS)属性约简算法:IBSADTRS。第四章简单介绍了利用粗糙集对攻击意图的特征进行提取的过程,为下文的实验打下铺垫。第五章实验仿真与分析。对数据集进行预处理。首先删除特殊属性与攻击,以达到降维的目的,然后对数据库根据适当的属性进行分块,以简化数据集,更好地优化属性得到更理想的结果。然后对实验数据进行离散化操作,进而对数据集属性特征进行约简,运用提出的决策粗糙集约简方法提取其重要特征,

31、以达到相对较好的结果,为攻击意图的预测提供有效的数据基础。第六章为论文的结论部分。对论文的主要内容做出了提炼总结,并根据不足之处阐述了后续需要进行的研究工作。万方数据6万方数据2粗糙集简介21 粗糙集概念与基础粗糙集理论主要用于不确定知识及不完全数据的学习、表达、归纳,粗糙集理论的特点是从给定问题直接分析,通过类似概率分布、隶属度函数或权值等不确定类进行分析归纳,从而确定给定问题的近似域,进而找出该问题的内在规律。经过很长一段时间的发展,粗糙集理论由于多方面的因素逐渐变得完善起来,其为数据挖掘提供了一种新的理论基础。目前已经在决策分析以及数据挖掘等领域进行了广泛的应用。粗糙集将现有的知识根据事

32、物的不同特征进行分类,该理论是针对不确定问题的不可辨关系。将完全相同或相差不大的事物归于同类的过程即为等价关系划分。对于知识,我们利用等价关系将其进行划分,这就形成了一种表达系统;我们通过上近似以及下近似逼近需要表示的对象;求解问题过程中,我们可以利用属性约简方法得到问题的决策或分类规则。现对有关概念进行介绍:211知识和知识库(1)知识粗糙集理论认为知识就是对事物进行分类的能力,所有客观的事物都可以利用其特征进行分类表达【27】。即将依据事物特征的不同进行分类的能力定义为某种“知识”,定义211给定一个非空的有限集合U U中的元素是我们感兴趣的研究对象,我们将这个集合U称为一个论域。论域中的

33、任一子集就是一个概念(范畴),任意的子集簇就是与其相关的知识。特别的,我们称空集为空概念。知识划分是粗糙集理论中的重要部分,这种划分也可认为是一种等价关系。通常为了使求解问题更加简单,我们利用等价关系来表示知识或分类。(2)知识库由于通常情况下,我们处理的往往不是单一的知识划分,而是一簇划分,我们将这种划分用知识库来进行表示。定义212设论域为U,S为论域U上的一簇划分(等价关系),则U的知识库K(近似空间)可以表示为佟(配回。知识库即为等价关系簇中所有可能的关系对论域的划分,其中包含着论域中的各种万方数据知识,知识库代表着对论域进行分类的能力。212不可分辨关系定义213设论域为玑R为论域U

34、上的一簇划分(等价关系),若尸为U的一个子集尸U,并且P为天的个子集且P不是空集,NNP对于论域U来说仍旧是其上的一簇划分,n尸代表着子集P里全部存在的等价关系所对应集合的交集,也可称n尸为子集P上的不可分辨关系,可以用刃VD(P)进行表示,平常为了方便记忆也直接叫做P。而且,对任何一个的XU,都存在M删一=【x】,=N【xk (21)懈E尸不可分辨关系也是一个等价关系,它的等价类构成了知识库里面的最小的知识粒度,在这个最小的知识粒度中,我们所研究的对象为不可分辨的。给定一个知识库胙(以R),它的所有等价关系可以表示如下:ND(K)=饿D(尸)I尸非空,且P是天的子集)213知识表达系统在粗糙

35、集理论中我们可以用一个关系数据表来描述知识表达系统,其中包括所需要进行处理的对象及其相应的属性以及属性值。用一个四元组KRS=(U,A,K力来表示一个知识表达系统,简记为(刚)或者KRS,其中U=五,而,Xn)是一个有限且不为空的对象集合即论域;若C称之为条件属性集,那么,D就是所谓的决策属性集,A=CUD(CAD=o)表示的是一个有限的非空属性集合。假如D是一个空集,则我们称该知识表达系统为一个信息系统,假如D不是空集的话,我们可以把这个知识表达系统称之为决策系统,其中,对于任意珥A则为彳的一个简单的属性;将V=U圪口E一定义成所有的属性值域,其中属性aA对应的值域为vo;我们用厂来表示一个

36、从UxA到矿的映射,称厂为信息函数。所有对象的属性都会被信息函数赋予一个相应的值,用以表达某个对象的信息。信息函数是必不可少的,假如没有它,那么我们所研究的对象集合U与属性集合4之间就失去了联系。信息函数为知识表示、约简以及发现的最基万方数据本内容。就像是:厶(_)=v(i=1,2,一)表达了属性口f条件下对象的数值为,其中信息函数是五。一般来说知识表达系统就只是通过用一个关系数据表来表示。每一列代表的含义就是对象的属性,而每一行代表的含义是关系数据表中每一个对象,体现着每一个属性描述每一个对象包含的所有信息内容28】。可以用知识表达系统来表示知识库,知识表达系统中的某个属性及其值表示的联系构

37、成的等价类可以用来描述知识库中的等价关系。对于知识表达系统中的决策表来说,它包含着决策属性,我们可以通过决策表去解决很多决策问题。假如只有一个决策属性出现在决策表上,那么其为单一决策表;如果决策表中含有多个决策属性,那么其为多决策表。我们通常情况下会把多决策表转化成单一决策表,转化方法为:可以得到一个综合决策,简单的来说就是把所有的属性在属性表中联系起来。删除多决策例表里面对应的其他决策属性列。214上近似和下近似定义214设弘(配固为一个知识库或一个近似空间,U表示一个论域,S表示论域U上的一个等价关系簇,则对于U的任一子集X和删D的一个等价关系足,可以得到如下表示:墨(x)=u(V】,uR

38、)(】,x) (22),qx)=uzl(wu天)(】,nx)g (23)式(22)表示的是X的又下近似集,式(23)表示的是X的R上近似集。我们也可以通过下面的公式对其进行表示:墨(x)=xI(魄u)(【xkx) (24)豆(x)=觚魄u)人(nx)o) (25)基于以上定义,我们可以得到下面的一些概念:posR(X)=墨(x)表示x的R正域:negR(x)=u一页(x)表示X的R负域;9万方数据bnR(X)=豆(x)一星(x)表示x为R的边界域。从中我们可以得到豆(x)=posR(x)U 6(X),而且墨(x)x豆(x),我们定义的上、下近似关系可以用图21表示:1J 霉 _l 7 L一 ,

39、_apr(jIf)X坐(x)图21集合的上近似与下近似的关系图如果通过知识R我们能够确定一些元素必定是X中的论域U中的元素,那么这些元素所构成的集合我们称之为下近似星(x)或是正域pD(x);如果根据知识R可以判断某些元素可能属于或者肯定属于X中的论域U,我们把这些相关元素构成的集合称为上近似豆(x);如果我们不能通过知识R直接判断出来这一些元素是否一定是x中的论域玑则称由这些元素构成的集合为边界域bnR(X);假如我们可以通过知识R直接得到一些元素肯定不在x的论域u中,这类元素组成的集合统称为负域negR(X)。假如R(X)-夏(x),则称x为R精确集;假如星(x)页(x),则定义x为R粗糙

40、集。而且他们的关系为充分必要关系。我们可以根据粗糙集的数字特征和它的拓扑特征对这个理论进行定性或者定量的分析理解。由于边界域的划分,影响着集合精确度的大小,所以其划分表明了集合的不确定性。据此我们用集合的近似精度进行量化的描述。定义215给定一个论域U与U上的一个等价关系R,对于U的任意的非空子集五称等价关系R定义的集合X的近似精度为:10万方数据啦)=矧 (26)精度(x)可以表示基于知识R对彳所表达的概念的理解程度。其中每一个等价关系天和U的任意的非空子集z(x)的取值均在在0与1范围内。当(x)值为1时,则有星(x)=豆(J)=x,此时x的R一边界域为空集,称J为R一可定义也可称为月一精

41、确集:当(x)值不为1时,则有星(x)豆(x),此时集合x存在边界域,称z为尺一不可定义的也可称为R一粗糙集。对于R一精确集,k(x)=0,对于肛粗糙集,k(x)o。其粗糙程度为:k(x)=1一aR(x) (27)与近似精度不一样的是,粗糙度表示基于知识R我们对于x所表达的概念的不完全理解程度。综合上文我们可以得到如下表达:(1)假如垦(x)=囝与夏(x)-u同时成立时,则x为R一全不可定义的;(2)假如墨(x)g与夏(x)=U同时成立时,则x为R一外不可定义的;(3)假如星(x)=囝与豆(x)U同时成立时,则x为尺一内不可定义的;(4)假如堡(x)f2j与豆(x)U同时成立时,则x为R一粗糙

42、可定义的;215知识约简与核在数据的处理和一些智能信息的处理中,知识约简施展了很大一部分作用,而且它也是粗糙集理论中最主要的一部分。总的来说,知识库中的知识并不全都是那么重要,它们可能是多余的。知识约简就是删除一些没有用的知识。定义216假如对于一个任意子集Q来说,我们只要定义一个P,它主要代表的是知识库上面的一族定义的等价关系,只要满足Q是单独存在的条件,而且在IND(Q)=IND(P)存在下,Q即是尸中一个约简,记为red(P)。总的来说,所谓的知识的约简并不是单一的,因为它可以有很多种约简。定义217假如我们定义一个尸,它主要是知识库上面的一族定义的等价关系,此万方数据时核即是尸的一个知

43、识组成,这时我们可以简记为core(P)。我们可以用公式(28)表示知识约简与核:core(P)=Nred(P) (28)可以直接看出来,核是一些知识的关键所在,而且它具有单独性和唯一性。它在知识中是必不可少的,核在一切约简中都不可删除,因为其对知识的分类能力有着很大的影响。对于划分UP,如果可以将论域中所有相应的信息精确地划分至一个集合,而且这个集合由关系Q的等价类里面的对象构成,我们称其为知识Q相对于知识P的正域或Q的户正域。其公式计算形式如下:post(Q)=U(x) (29)xeUQ若等式po蛔P)(刀vo(Q)-pD岫P一肋(Q) (21 0)成立,那么R称之为P中Q不必要的,相反,就是必要的。一般情况下,我们为了节约时间,用posp(Q)代替即岫户)(饿D(Q)。假如R是P中的任一元素,R全部为P中Q必要的,这里知道P和Q是单一的,也可以说尸相对于Q是单一的,相反,尸就是依

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 论证报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com