(9.2.1)--9.2离群点检测.pdf-得力文库

资源描述

《(9.2.1)--9.2离群点检测.pdf》由会员分享，可在线阅读，更多相关《(9.2.1)--9.2离群点检测.pdf（33页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第9章离群点分析目录CONTENTS1.529.19.2离群点的定义与类型离群点检测Chapter 9.2离群点检测离群点的检测方法有很多，每种方法在检测时，都会对正常数据对象或离群点做出假设。从这个假设的角度考虑，离群点检测方法可以分为:基于统计学的离群点检测；基于近邻的离群点检测；基于聚类的离群点检测;基于分类的局部离群点检测。49.2离群点检测1.统计学方法59.2离群点检测基于统计分布的检测方法是为数据集构建一个概率统计模型（例如正态、泊松、二项式分布等，其中的参数由数据求得），然后根据模型采用不和谐检验识别离群点。图9.1给出了基于统计分布的检测流程。设定数据集的分布模型不和谐检

2、验发现离群点图9.1 基于统计的离群点检测流程不和谐检验需要检查两个假设：工作假设和备择假设。工作假设指的是如果某样本点的某个统计量相对于数据分布的是显著性概率充分小，则认为该样本点是不和谐的，工作假设被拒绝，此时备择假设被采用，它声明该样本点来自于另一个分布模型。如果某个样本点不符合工作假设，那么认为它是离群点。如果它符合备择假设，认为它是符合某一备择假设分布的离群点。工作假设H为，假设n个对象的整个数据集来自一个初始的分布模型F，即：H:oiF，其中i=1，2，n不和谐检验就是检查对象oi关于分布F是否显著地大（或小）。69.2离群点检测不和谐检验:79.2离群点检测基于正态分布的一元离群

3、点检测正态分布曲线特点：N（，2）变量值落在（-，+）区间的概率是68.27%变量值落在（-2，+2）区间的概率是95.44%变量值落在（-3，+3）区间的概率是99.73%89.2离群点检测基于正态分布的一元离群点基于正态分布的一元离群点检测检测一般的，设属性X取自具有期望值，方差2的正态分布N（，2），如果属性X满足：P(|X|C)=,其中C是一个选定的常量，则X以概率1-为离群点。例9.1 基于统计方法检测年龄离群点设儿童上学的具体年龄总体服从正态分布，所给的数据集是某地区随机选取的开始上学的20名儿童的年龄。具体的年龄特征如下：年龄=6，7，6，8，9，10，8，11，7，9，12，

4、7，11，8，13，7，8，14，9，12相应的统计参数是：均值m=9.1；标准差s=2.3。如果选择数据分布的阈值q按如下公式计算：q=m2s，则阈值下限与上限分别为4.5和13.7。如果将工作假设描述为：儿童上学的年龄分布在阈值设定区间内，则依据不和谐检验，不符合工作假设，即在4.5，13.7区间以外的年龄数据都是潜在的离群点，将最大值取整为13，所以年龄为14的孩子可能是个例外。99.2离群点检测统计方法的离群点检测的优缺点:优点建立在非常标准的统计学原理之上，当数据和检验的类型十分充分时，检验十分有效。109.2离群点检测统计方法的离群点检测的优缺点:缺点多数情况下，数据的分布是未知

5、的或数据几乎不可能用标准的分布来拟合，虽然可以使用混合分布对数据建模，基于这种模型开发功能更强的离群挖掘方案，但这种模型更复杂，难以理解和使用。当观察到的分布不能恰当地用任何标准的分布建模时，基于统计方法的挖掘不能确保所有的离群点被发现，而且要确定哪种分布最好的拟合数据集的代价也非常大。即使这类方法在低维（一维或二维）时的数据分布己知，但在高维情况下，估计数据对象的分布是极其困难的，对每个点进行分布测试，需要花费更大的代价。119.2离群点检测2.基于近邻的离群点检测假定：离群点对象与它最近邻的邻近性显著偏离数据集中其它对象与它们邻近之间的邻近性。两种方法：基于距离的离群点检测。基于密度的离

6、群点检测。129.2离群点检测基于距离的离群点检测:如果数据对象集D中大多数对象都远离d，即都不在d的r-邻域内，d可视为一个离群点。r 是距离阈值，是分数阈值，如果有则d是一个DB(r,)离群点。139.2离群点检测|(,)ddist d drD基于距离的离群点检测:如何计算DB(r,)-离群点：嵌套循环对每个对象(),计算与其它对象之间的距离，统计r-邻域中其它对象的个数，一旦找到 n*个，内循环可以中止。ni 1idid149.2离群点检测基于密度的离群点检测:159.2离群点检测基于密度的离群点检测能够检测出基于距离的异常算法所不能识别的一类异常数据局部离群点局部离群点:是指一个对

7、象相对于它的局部邻域，特别是关于邻域密度，它是远离的。基于密度的离群点检测:图9.2 基于密度的局部离群点检测的必要性聚类簇C1属于低密度区域，聚类簇C2属于高密度区域。依据传统的基于密度的离群点检测算法，C1中任何一个数据点q与其近邻的距离大于数据点p2与其在C2中的近邻的距离，数据点p2会被看作是正常点，当然能检测出数据点p1是离群点。169.2离群点检测C2C1p1p2图9.2中，p1相当于C2的密度来说是一个局部离群点，这就形成了基于密度的局部离群点检测的基础。此时，评估的是一个对象是离群点的程度，这种“离群”程度就是作为对象的局部离群点因子（LOF），然后计算。179.2离群点检测数

8、据集中的数据点和，到的可达距离reach_distk(，)定义为_(,)max(),(,)kikiireachdistx xdistxdist x x=其中，distk()指数据点到其第k个近邻的距离，dist(，)指数据点和的距离。通常，距离度量选用欧式距离，而且到的可达距离reach_distk(，)与到的可达距离reach_distk(，)一般并不相同。基于密度的离群点检测:局部可达密度对象p的局部可达密度定义为p的k最近邻点的平均可达密度的倒数局部离群点因子表征了称p是离群点的程度，定义如下：189.2离群点检测()()_(,)ikkixKNN xklrdxreachdistx x=

9、()()()()ikixKNN xkklrdxlrdxLOF xk=基于密度的离群点检测:结论 LOF算法计算的离群度不在一个通常便于理解的范围0,1，而是一个大于1的数，并且没有固定的范围。而且数据集通常数量比较大，内部结构复杂，LOF极有可能因为取到的近邻点属于不同数据密度的聚类簇，使得计算数据点的近邻平均数据密度产生偏差，而得出与实际差别较大甚至相反的结果。优点通过基于密度的局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现离群点。199.2离群点检测基于密度的离群点检测:3.基于聚类的方法209.2离群点检测该对象属于某个簇吗？如果不，则它被识别为离群点。该对象与最近

10、的簇之间的距离很远吗？如果是，则它是离群点。该对象是小簇或稀疏簇的一部分吗？如果是，则该簇中的所有对象都是离群点。基于聚类的离群点检测挖掘方法有两种：基于对象离群因子法假设数据集D被聚类算法划分为k个簇C=C1，C2，Ck，对象p的离群因子（Outlier Factor）OF1(p)定义为p与所有簇间距离的加权平均值：1 =1|(，)(9-6)其中，(，)表示对象p与第j个簇Cj之间的距离。219.2离群点检测基于对象离群因子法：两阶段离群点挖掘方法如下：对数据集D采用一趟聚类算法进行聚类，得到聚类结果C=C1，C2，Ck 计算数据集D中所有对象p的离群因子OF1(p)，及其平均值Ave_O

11、F和标准差Dev_OF，满足条件：的对象判定为离群点。通常取=1或1.285。229.2离群点检测OF1(p)Ave_OF+Dev_OF(12)例9.2基于对象的离群因子法对于图9-5所示的二维数据集，比较点p1(6，8)，p2(5，2)，哪个更有可能成为离群点。假设数据集经过聚类后得到聚类结果为C=C1，C2，C3，图中红色圆圈标注，三个簇的质心分别为：C1(5.5，7.5)、C2(5，2)、C3(1.75，2.25)，试计算所有对象的离群因子。239.2离群点检测图9-5 基于聚类的离群点检测二维数据集基于对象离群因子法：解：根据对象p的离群因子（Outlier Factor）OF1(p)

12、的定义，对于1点有：1 1=1 1，=8116 1.752+8 2.252+111(6 5)2+(8 2)2+211(6 5.5)2+(8 7.5)2=5.9对于2有：1 2=1 2，=8115 1.752+2 2.252+111(5 5)2+(2 2)2+211(5 5.5)2+(2 7.5)2=3.4可见，点1较2更可能成为离群点。249.2离群点检测基于对象离群因子法：同理可求得所有对象的离群因子，结果如表9-1所示。进一步求得所有点的离群因子平均值：Ave_OF=2.95，标准差：Dev_OF=1.3，假设=1，则阈值：=_+_=2.95+1.3=4.25，离群因子大于4.25的对象可

13、视为离群点，1可视为离群点。259.2离群点检测XYOF1122.2132.3112.9212.6221.7231.9685.9242.5322.2574.8523.4表9-1 离群因子表基于对象离群因子法：假设数据集D被聚类算法划分为k个簇C=C1，C2，Ck，簇Ci离群因子（Outlier Factor）OF2(Ci)定义为簇Ci与其他所有簇间距离的加权平均值：2=1|(，)(9-7)如果一个簇离几个大簇的距离都比较远，则表明该簇偏离整体比较远，其离群因子也较大。OF2(Ci)度量了Ci偏离整个数据集的程度，其值越大，说明Ci偏离整体越远。269.2离群点检测基于簇的离群因子法：基于簇的离

14、群因子离群点检测算法描述如下：聚类：对数据集D进行聚类，得到聚类结果C=C1，C2，Ck;确定离群簇：计算每个簇Ci(1 )的离群因子OF2(Ci)，按OF2(Ci)递减的顺序重新排列Ci(1 )，求满足=1|（0 1）(9-8)的最小下标b，将簇C1，C2，Cb标识为“outlier”类（即每个对象均看成离群），而将Cb+1，Cb+2，Ck标识为“normal”类（即其中每个对象均看成正常）。279.2离群点检测基于簇的离群因子法：例例9.39.3基于簇的离群因子法基于簇的离群因子法对于图9-5所示的二维数据集，聚类后得到三个簇C=C1，C2，C3，簇心分别为：C1(5.5，7.5)、C2(

15、5，2)、C3(1.75，2.25)。按照欧氏距离计算簇之间的距离，分别为：d(C1，C2)=(5.5 5)2+(7.5 2)2=5.52d(C1，C3)=(5.5 1.75)2+(7.5 2.25)2=6.45d(C2，C3)=(5 1.75)2+(2 2.25)2=3.26289.2离群点检测图9-5 基于聚类的离群点检测二维数据集基于簇的离群因子法：例例9.39.3基于簇的离群因子法基于簇的离群因子法进一步计算三个簇的离群因子，具体如下：OF2(C1)=111(1，2)+811 1，3=111 5.52+811 6.45=5.19OF2(C2)=211(2，1)+811 2，3=211

16、5.52+811 3.26=3.37OF2(C3)=211(3，1)+111 3，2=211 6.45+111 3.26=1.47可见簇C1的离群因子最大，其中包含的对象判定为离群点，与例9.2得到的结论相同。299.2离群点检测基于簇的离群因子法：3.基于聚类的方法309.2离群点检测基于聚类的离群点检测方法具如下优点。首先，它们可以检测离群点，而不要求数据是有标号的，即它们以无监督方式检测。它们对许多类型的数据都有效。簇可以看做数据的概括。一旦得到簇，基于聚类的方法只需要把对象与簇进行比较，以确定该对象是否是离群点。这一过程通常很快，因为与对象总数相比，簇的个数通常很小。基于聚类的方法的

17、缺点是，它的有效性高度依赖于所使用的聚类方法。这些方法对于离群点检测而言可能不是最优的。对于大型数据集，聚类方法通常开销很大，这可能成为一个瓶颈。4.基于分类的方法319.2离群点检测使用基于分类检测离群点的时候，分类器可以使用前面介绍的常用的分类器，如SVM、KNN、决策树等。为解决正常数据和离群点数据分布的不均衡，可以使用一类模型进行分类。简单来说就是构建一个描述正常数据的分离器，不属于正常的数据就是离群点。例9.2 使用SVM检测离群点。在图9.3中，三个圆圈内的样本是正常数据，圆圈外的数据是离群点。可以使用圆圈内的正常数据训练一个决策边界，通过这个边界就可以区分数据是正常数据还是非正常数据离群点。即，如果给定的新对象在正常类的决策边界内，则被视为正常的；如果新对象在边界外，则被视为离群点。这样就不需要训练离群点数据模型，避免了由于数据分布不均衡造成的分类器准确率低的现象。329.2离群点检测图9.3 使用SVM检测离群点数据样本THANKS FOR YOUR ATTENTION感谢指导！

展开阅读全文