数据统计与分析方法.ppt-得力文库

资源描述

《数据统计与分析方法.ppt》由会员分享，可在线阅读，更多相关《数据统计与分析方法.ppt（122页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、数据统计与分析方法数据统计与分析方法1 1 1 1、数据统计的一般方法；、数据统计的一般方法；、数据统计的一般方法；、数据统计的一般方法；2 2 2 2、数据分析的一般方法；、数据分析的一般方法；、数据分析的一般方法；、数据分析的一般方法；3 3 3 3、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；、了解数据统计和分析在实际案例中的应用；4 4 4 4、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；、了解时间序列分析及相关软件应用；培训主要内容：培训主要内容：瞎子王国

2、里,有一只眼精的人就是国王!心电图的由来17801780年有一天，年有一天，4343岁的意大利解剖学岁的意大利解剖学家伽伐尼家伽伐尼Galvani LuigiGalvani Luigi，1737-17981737-1798），），在实验室解剖青蛙，在用银质手术刀在实验室解剖青蛙，在用银质手术刀触碰放在铁盘上的青蛙的时候，无意触碰放在铁盘上的青蛙的时候，无意间发现青蛙腿部肌肉抽搐了一下，仿间发现青蛙腿部肌肉抽搐了一下，仿佛受到电流的刺激如果换用一种金佛受到电流的刺激如果换用一种金属器械去触动青蛙，就无此种反应。属器械去触动青蛙，就无此种反应。18321832年，一个晴朗的日子，还是意年，一个晴朗

3、的日子，还是意大利，还是青蛙，只是做实验的人大利，还是青蛙，只是做实验的人换成了马泰乌奇。换成了马泰乌奇。这一次，马泰乌奇探测到损伤和未这一次，马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流，他损伤的肌肉之间存在一种电流，他称之为称之为“肌肉电流肌肉电流”。他发现，包。他发现，包括心脏在内，一切正在收缩的肌肉括心脏在内，一切正在收缩的肌肉都会产生肌肉电流。都会产生肌肉电流。医学研究者通医学研究者通过大量的临床过大量的临床数据发现正常数据发现正常和非正常的心和非正常的心电图电图1、什么是数据？数据是指对客观事件进行记录并可以鉴别的数据是指对客观事件进行记录并可以鉴别的符号，是对客观事物的性质、

4、状态以及相互关符号，是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。合。它是可识别的、抽象的符号。数据表现形式数据表现形式表现形式一表现形式一数据列表数据表现形式二数据表现形式二描述性分析：数据分时段走势、差距变化情况以及描述性分析：数据分时段走势、差距变化情况以及相应的时间背景相应的时间背景销售码洋趋势图销售码洋趋势图数据表现形式三数据表现形式三销售码洋结构比销售码洋结构比数据类型的分类数据类型的分类1、计量资料(measurement data)用仪器、工具等测量方法获得的数据，又称数值变量。

5、特点：有计量单位，如患者的身高(cm),体重(kg),血压(kPa)等.2、计数资料(count data)按某种属性分类计数后得到的数据，又称无序分类变量，有二分类和多分类两种情形.特点：无计量单位，如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男，女)等.3、等级资料(ordinal data)半定性或半定量的观察结果，有大小顺序，又称有序分类变量.如癌症分期：早、中、晚。药物疗效：治愈、好转、无效、死亡。尿蛋白：,+,+及以上住院号住院号年龄年龄身高身高体重体重住院住院天数天数职业职业文化文化程度程度分娩分娩方式方式妊娠妊娠结局结局20256552716571.55无无中学中学

6、顺产顺产足月足月20256532216074.05无无小学小学助产助产足月足月20258302515868.06管理员管理员大学大学顺产顺产足月足月20225432316169.05无无中学中学剖宫产剖宫产足月足月20224662515962.011商业商业中学中学剖宫产剖宫产足月足月20245352715768.02无无小学小学顺产顺产早产早产20258342015866.04无无中学中学助产助产早产早产20194642415870.53无无中学中学助产助产足月足月20257832915457.07干部干部中学中学剖宫产剖宫产足月足月实例数据计量资料计数资料三类资料间关系三类资料间关系三类资

7、料间关系三类资料间关系例：一组2040岁成年人的血压以12kPa为界分为正常与异常两组，统计每组例数 8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压计量资料等级资料计数资料第一部第一部数据统计概述数据统计概述什么是统计方法什么是统计方法统计方法统计方法是指有关收集、整理、是指有关收集、整理、分析和解释统计分析和解释统计数据数据，并对其所，并对其所反映的问题作出一定结论的方法。反映的问题作出一定结论的方法。统计方法统计方法是一种从微观结构上来是一种从微观结构上来研究物质的宏观性质及其规律的研究物质的宏观性质及其规律的独特的方法。独特的方法。一般统计方法根据数据

8、的类型可以分为以下三种统计方法根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法、计量资料的统计方法*2、计数资料的统计方法、计数资料的统计方法3、等级资料的统计方法、等级资料的统计方法运用统计方法应遵循的原则&坚持用数据说话的基本观点。&有目的地收集数据。&掌握数据的来源。&认真整理数据。统计分析流程统计分析流程确定问题确定分析目标采用科学方法收集数据考察数据时效性整理数据统计分析出具分析报告，提出解决意或建议计量资料的统计描述计量资料的统计描述1 1、频数分布、频数分布 (frequency distribution)(frequency distribution)为了了解数据的

9、分布情况,可以编制频数表(frequency table).（1）求极差(range)：即最大值与最小值之差，又称为全距。（2）数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。（3）列出组段：第一组段的下限略小于最小值，最后一个组段上限必须包含最大值，其它组段上限值忽略。（4）划记计数：用划记法将所有数据归纳到各组段，得到各组段的频数。l 频数表的编制步骤编号编号血清甘油三脂血清甘油三脂编号编号血清甘油三脂血清甘油三脂1 10.510.512 20.520.521531531.651.653 30.590.591541541.661.664 40.61

10、0.611551551.671.675 50.610.611561561.671.676 60.620.621571571.691.697 70.630.631581581.71.78 80.640.641591591.711.711601601.771.77 表2-1:160名正常成年女子的血清甘油三酯（mmol/L）组段组段（1）划划记记（2）频数，频数，f（3）组中值，组中值，X（4）fX(5)=(3)(4)0.5 30.551.650.6正正90.655.850.7正正正正120.759.000.8正正正正130.8511.050.9正正正正正正170.9516.151.0正正正正

11、正正181.0518.901.1正正正正正正正正201.1523.001.2正正正正正正181.2522.501.3正正正正正正171.3522.951.4正正正正131.4518.851.5正正91.5512.401.6正正 81.6514.851.71.8 合计合计 31.755.25160182.30编制频数表,绘制频数分布图对称分布：以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布:频数最多组段左侧组段数多.(skewed to the right distribution

12、)2、集中趋势的描述统计上使用平均数(average)来反映计量资料的集中趋势(central tendency).常用平均数有：1.算术均数(arithmetic mean)，简称均数(mean)2.几何均数(geometric mean)3.中位数(median)4.百分位数(percentile)3、离散趋势的描述反映数据的离散度(Dispersion),即个体观察值的变异(variation)程度,常用的统计指标有：1.极差(Range)(全距)2.四分位数间距(Quartile range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数

13、(Coefficient of Variation)四分位间距：QRP75 P25三、SPSS实现计量资料的统计描述下面是下面是SPSSSPSS软件中绘制频数图的步骤软件中绘制频数图的步骤四、计数资料的统计描述住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足

14、月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月1 1、计数资料数据的整理、计数资料数据的整理按年龄（按年龄（2 2岁一组）与职业整理岁一组）与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 1818 0 0 454522222828 7 710102424 7070111115015024245050

15、343428285252153153444436136126265050434325254545133133707036636628283434353510103434 7878575724824830301111141411112222 3939171711411432321414 2 2 3 31414 2424 3 3 60603434 4 4 2 2 5 5 3 3 1212 2 2 28283636 2 2 1 1 1 1 4 4 5 5 1 1 14143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合

16、计合计 207207 141141102102208208537537206206140114012、常用相对数指标计数资料常用的数据形式是绝对数,如某病的出院人数,治愈人数等.但绝对数不具可比性,需要计算相对数.l率（rate）：说明某现象或某事物发生的频率或强度。率=（实际发生数/可能发生总数）比例基数比例基数：100%、1000、10000/万、100000（1/10万）等如：发病率、死亡率、发生率、阳性率、患病率等l构成比（proportion）：说明某一事物内部，各组成部分所占的比重,也叫百分比。构成比=（某部分观察单位数/各组成部分观察单位总数）100%如：教研室20人中高级

17、职称有5人，占25。l相对比（relative ratio）：是A、B两个有关指标之比，说明A是B的若干倍或百分之几，通常用倍数或分数表示。如：男：女、医生：护士、教师：学生年龄组年龄组受检人数受检人数白内障白内障例数例数患者年龄患者年龄构成比（构成比（%）患病率（患病率（%）=(3)/(2)4050607080合计合计560441296149 2268129135 97 1915.1828.7930.1321.65 4.2412.1429.2545.6165.1086.36 1468448100.0030.52例例:率与构成比率与构成比(1)不能以构成比代替率。(2)计算相对数的分母不

18、宜过小,小则直接叙述。(3)进行率的对比分析时，应注意资料可比性。如比较疗效时，比较组间应病情轻重相同，性别影响，应按性别分组后再作比较。(4)正确求平均率。例：若P1=x1/n1 P2=x2/n2 P3=x3/n3 P（x1+x2+x3）/n1+n2+n3）(正确)P（P1+P2+P3）/3 (错误)3、相对数应用注意事项计数资料和等级资料的SPSS表示五、统计表与统计图统计表(statistical table)数据代替文字描述，便于统计结果的精确、简洁的表达和对比分析.统计图(statistical chart)用图形代替数据，获得直观、形象的效果.定义:将统计分析的事物及指标用表格列

19、出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.统计表由以下几个部分组成：标题、标目、线条、数字、备注表2-9 某省某工厂 1994、1998年四项检测指标异常检出率检测检测指标指标1994年年1998年年受检人数受检人数异常人数异常人数检出率检出率(%)受检人数受检人数异常人数异常人数检出率检出率(%)血压血压心率心率 TTT GPT 5195195195195544362010.16 0.48 6.94 3.85582582582582383923166.526.70

20、3.952.75 ：TTTTTT（麝香草酚浊度试验），（麝香草酚浊度试验），：GPTGPT（谷丙转氨酶）。（谷丙转氨酶）。(丁建生等丁建生等.中国卫生统计中国卫生统计 1999;16(3):166)1999;16(3):166)1、统计表的结构.纵标目总标目（单位）.合计 .横标目纵标目纵标目纵标目总标目横标目的总标目备注：表号标题（包括何时、何地、何事）2、三线表根据分组标目的复杂程度，统计表可大致分为简单表根据分组标目的复杂程度，统计表可大致分为简单表和复合表。和复合表。简单表简单表(simple table)(simple table)：只按一个特征

21、或标志分组。：只按一个特征或标志分组。如表如表2-8 2-8。复合表复合表(combinative table)(combinative table)：按两个或两个以上特：按两个或两个以上特征或标志结合起来分组。如表征或标志结合起来分组。如表2-92-9。3、统计表的分类3、不良统计表的修改统计图(statistical chart 或statistical graph)是用点、线、面等几何图形，直观形象地表达、描述数据或结果。3、统计图 SPSS绘制基本图形SPSS绘制基本图形条形图(Bar Chart)用途：用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图.分单式和复式两

22、种.单式条形图复式条形图圆图(Pie Chart)用途：以圆的半径将圆面分割成多个大小不等的扇形，以扇形面积来表达构成比的图形。线图(Line Chart)用途：适用于连续变量资料，说明某事物因时间、条件推移而变迁的趋势。直方图(Histogram)用途：直方图是以面积表示数量，适用于表达连续性资料的频数或频率分布。第二部第二部数据分析概述数据分析概述什么是数据分析请牢记：所有的分析要从“结果结果”出发，没有结论的数字罗列并不是分析；“结果结果”：发现问题和解决问题。数据分析不是一门复杂的科学数据分析不是一门复杂的科学；而是一些简单的“common sense”；复杂的运算通常只是令分析结果

23、更差而不是更好；绝大多数是简单的想法和简单的沟通数据分析有时候是一门艺术数据分析有时候是一门艺术同样的数据会有不同的解读优秀和平庸的差异，有时候差在一种灵感数据分析目的让数据说话；行动的向导；杜绝浪费；提供决策的依据。数据分析误区数据分析误区误区一误区一:展示元素不宜大于展示元素不宜大于3 3个个数据分析误区数据分析误区误区二误区二:时间序列数据最好使用折线图，而不宜使时间序列数据最好使用折线图，而不宜使用柱状图等用柱状图等误区三:研究用数据最好不使用三维立体图研究用数据最好不使用三维立体图数据分析误区数据分析误区误区四：为避免图表的欺骗性，图线最好占据误区四：为避免图表的欺骗性，图线最好占据

24、2/3 2/3 至至3/43/4的高度（调整的高度（调整Y Y轴刻度）轴刻度）数据分析误区数据分析误区常用的数据分析方法常用的数据分析方法1 1、抽样法、抽样法*2 2、聚类分析（、聚类分析（Cluster AnalysisCluster Analysis）*3 3、因子分析（、因子分析（Factor AnalysisFactor Analysis）4 4、相关分析、相关分析(Correlation Analysis)(Correlation Analysis)5 5、对应分析对应分析（Correspondence Correspondence AnalysisAnalysis）6 6、回归

25、分析（、回归分析（regression analysis)regression analysis)7 7、方差分析、方差分析(ANOVA/Analysis of(ANOVA/Analysis of Variance)Variance)8 8、时间序列分析、时间序列分析*总体总体总体总体:总体、个体总体、个体个体个体个体个体:总体又叫母体，是研究对象的全体。总体又叫母体，是研究对象的全体。出版商一个批次到货出版商一个批次到货的全部都可以称为总体。的全部都可以称为总体。构成总体的基本单位，称为个体。构成总体的基本单位，称为个体。每册书都是一个个体。每册书都是一个个体。来货检验常用抽样方法进行，即从

26、来货总件数中抽出一部分件数，并来货检验常用抽样方法进行，即从来货总件数中抽出一部分件数，并测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体测试每件的有关册数是否够数的特性数据，进行统计分析后，对总体作出估计和判断。作出估计和判断。一般地，设一个总体含有一般地，设一个总体含有N N个个个体个体，从，从中逐个不放回地中逐个不放回地抽取抽取n n个个体作为个个体作为样本样本（nNnN），如果每次抽取使），如果每次抽取使总体总体内的各内的各个个体被抽到的个个体被抽到的机会机会都相等，就把这种都相等，就把这种抽样方法叫做简单随机抽样。抽样方法抽样方法叫做简单随机抽样。抽样方法主要包括：随机抽

27、样、分层抽样、整体主要包括：随机抽样、分层抽样、整体抽样、系统抽样。抽样、系统抽样。样本样本样本样本:样本样本样本样本又叫又叫子样子样，是从总体中抽出来一部分个体的集合。，是从总体中抽出来一部分个体的集合。样本中每个个体叫样本中每个个体叫样品样品，样本中所包含样品数目称为样本大小，样本中所包含样品数目称为样本大小，又叫又叫样本量样本量，常用，常用n n表示。表示。对样本的特性进行测定，所得的数据称为对样本的特性进行测定，所得的数据称为样本值样本值。当样本个数越多时，分析结果越接近总体的值，样本对总体的代当样本个数越多时，分析结果越接近总体的值，样本对总体的代表性就越好。表性就越好。抽样方法抽样

28、方法用的统计抽样方法主要有以下三种用的统计抽样方法主要有以下三种随机抽样法随机抽样法分层抽样法分层抽样法系统抽样法系统抽样法书书业业公公司司抽样方法抽样方法随机抽样随机抽样指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品，完全用偶然方法抽样，常用抽签或利用随机数表来抽取样品以保证样品代表性。抽样当图书品种不多时，随机抽样是一种有效的抽样方法；抽样方法抽样方法分层抽样分层抽样分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层，然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异，增加样本的代表性。抽样样本当到货产品较多时，分层抽样是一种有效的抽样方

29、法；当到货产品较多时，分层抽样是一种有效的抽样方法；抽样方法抽样方法系统抽样系统抽样从总体中每隔K个个体抽取一个个体的抽样方法，比值K是总体容量N与样本容量n之比；当出版商批量发货及产品特别多时，并且易作某种次序的整理时，当出版商批量发货及产品特别多时，并且易作某种次序的整理时，系统抽样比分层抽样好；系统抽样比分层抽样好；1，2，.K K+1，K+2，.，2K 2K+1，2K+2，.，3K 直到 N为止例，从具有1000个个体的总体中抽取50个个体。总体、样本、数据间的关系总体、样本、数据间的关系总体总体样本样本结论结论数据数据抽样分析管理测试数理整理和统计数理整理和统计抽样的目的是通过样本来

30、反映总体。抽样的目的是通过样本来反映总体。在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找在书业公司经营管理中，常常将测试的样本数据，通过整理加工，找出它们的特性，从而推断总体的变化规律、趋势和性质。出它们的特性，从而推断总体的变化规律、趋势和性质。一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表一批数据的分布情况，可以用中心倾向及数据的分散程度来表示，表示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标示中心倾向的有平均值、中位值等，表示数据分散程度的有方差、标准偏差、极差等。准偏差、极差等。描述总体数据离散程度的参数为方差描述总体数据离散程度的参数为方差2

31、 2 ，描述总体数据中心倾向的，描述总体数据中心倾向的数为均值数为均值。若利用样本参数近似描述总体状况时，可以利用样本。若利用样本参数近似描述总体状况时，可以利用样本方差方差S S2 2近似代替总体方差近似代替总体方差2 2，利用样本均值，利用样本均值X X近似代替总体均值近似代替总体均值p p。数理整理和统计数理整理和统计样本平均值样本平均值样本中位值样本中位值X=X1+X2+X3.+Xnn中位值是按照数据大小顺序排列位于中间的数值，中位值记为X若n为偶数，则取位于中间两个数值的平均值为中位值；数理整理和统计数理整理和统计样本极差样本极差样本方差和样本标准偏差样本方差和样本标准偏差样本方差

32、和样本标准差就是用来度量数据波动幅度大小的一个重要特性值。样本方差是一组数据中每一个数值与平均值之差的平方和的平均值，通常记为S2；样本方差的平方根S称作样本标准偏差，它与样本方差一样，是反映一组数据分散程度的特性值:样本极差表示一组数据分布的范围，是指数据中最大值与最小值的差:R=Xmax-Xmin2、聚类分析聚类分析指将物理或抽象对象的集合分组成为由聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不过

33、程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进分类的标准，聚类分析能够从样本数据出发，自动进行分类。行分类。聚类分析所使用方法的不同，常常会得到不同的聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。所得到的聚类数未必一致。分类俗语说，物以类聚、人以群分。但什么是分类

34、的根据呢？比如，要想把中国的县分成若干类，就有很多种分类法；可以按照自然条件来分，比如考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。聚类分析对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。比如学生成绩数据就可以对学生按照理科或文科成绩（或者综合考虑各科成绩）分类，当然，并不一定事先假定有多少类，完全可以按照数据本身的规律来分类。下面要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为

35、R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。饮料数据（drink.sav）16种饮料的热量、咖啡因、钠及价格四种变量种饮料的热量、咖啡因、钠及价格四种变量如何度量远近？如如果果想想要要对对100个个学学生生进进行行分分类类，如如果果仅仅仅仅知知道道他他们们的的数数学学成成绩绩，则则只只好好按按照照数数学学成成绩绩来来分分类类；这这些些成成绩绩在在直直线线上上形形成成100个个点点。这这样样就就可可以以把把接近的点放到一类。接近的点放到一类。如如果果还还知知道道他他们们的的物物理理成成绩绩，这这样样数数学学和和物物理理成成绩绩就就形形成成二二维维平平面面上上

36、的的100个个点点，也也可可以以按按照照距距离远近来分类。离远近来分类。三三维维或或者者更更高高维维的的情情况况也也是是类类似似；只只不不过过三三维维以以上上的的图图形形无无法法直直观观地地画画出出来来而而已已。在在饮饮料料数数据据中中，每每种种饮饮料料都都有有四四个个变变量量值值。这这就就是是四四维维空空间间点点的的问题了。问题了。聚类分析聚类分析1 1、系统聚类法、系统聚类法-（分层聚类）系统聚类法是应（分层聚类）系统聚类法是应用最广泛的一种（用最广泛的一种（Hierarchical ClusterHierarchical Cluster过程）过程）1 1）、）、聚类原则：都是相近的聚为一

37、类，即距离聚类原则：都是相近的聚为一类，即距离最近或最相似的聚为最近或最相似的聚为一类。一类。2 2）、）、分层聚类的方法可以用于样本聚类（分层聚类的方法可以用于样本聚类（Q Q）型，也可以用于变量聚类（型，也可以用于变量聚类（RR型）。型）。2 2、非系统聚类法、非系统聚类法-（快速聚类法（快速聚类法-K-K-均值聚类均值聚类法）（法）（K-means Cluster)K-means Cluster)3 3、两步聚类法、两步聚类法-一种探索性的聚类方法（一种探索性的聚类方法（TwoStep TwoStep ClusterCluster）K-K-均值聚类分析均值聚类分析K-means Clu

38、ster 又称为快速样本聚类法，是非系统聚类中最常用的聚类法。又称为快速样本聚类法，是非系统聚类中最常用的聚类法。优点：优点：是占内存少、计算量小、处理速度快，特别适合大样本的聚是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。类分析。缺点：缺点：应用范围有限，要求用户制定分类数目应用范围有限，要求用户制定分类数目(要告知要告知)，只能对，只能对观观测量（样本）测量（样本）聚类，而不能对变量聚类，且所使用的聚类变量聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量必须都是连续性变量。所有会员位置图所有会员位置图代码和结果见代码和结果见Excel表表时间序列分析时间序列分析

39、(time series(time series analysis)analysis)方法方法,强调的是通过对一个强调的是通过对一个区域进行一定时间段内的连续遥感观区域进行一定时间段内的连续遥感观测，提取图像有关特征，并分析其变测，提取图像有关特征，并分析其变化过程与发展规模。当然，首先需要化过程与发展规模。当然，首先需要根据检测对象的时相变化特点来确定根据检测对象的时相变化特点来确定遥感监测的周期，从而选择合适的遥遥感监测的周期，从而选择合适的遥感数据。感数据。时间序列分析时间序列分析(time series analysis)(time series analysis)时间序列的基本概念时

40、间序列的基本概念一、时间序列1、含义：指被观察到的依时间为序排列的数据序列。2、特点：（1）现实的、真实的一组数据，而不是数理统计中做实验得到的。既然是真实的，它就是反映某一现象的统计指标，因而，时间序列背后是某一现象的变化规律。（2）动态数据。2010年11月17日-2011年4月8日上证综指二、时间序列分析时间序列分析：是一种根据动态数据揭示系统动态结构和规律的统计方法。其基本思想基本思想：根据系统的有限长度的运行记录（观察数据），建立能够比较精确地反映序列中所包含的动态依存关系的数学模型，并借以对系统的未来进行预报三、确定性时间序列分析与随机性时间序列分析:时间序列依据其特征，有以下几

41、种表现形式，并产生与之相适应的分析方法：（1）长期趋势变化受某种基本因素的影响，数据依时间变化时表现为一种确定倾向，它按某种规则稳步地增长或下降。使用的分析方法有：移动平均法、指数平滑法、模型拟和法等；（2）季节性周期变化受季节更替等因素影响，序列依一固定周期规则性的变化，又称商业循环。采用的方法：季节指数；（3）循环变化周期不固定的波动变化。(4)随机性变化由许多不确定因素引起的序列变化。它所使用的分析方法就是我们要讲的时间序列分析。趋势变化分析确定性变化分析周期变化分析循环变化分析时间序列分析随机性变化分析:AR、MA、ARMA模型 Wold分解定理（1938）对于任何一个离

42、散平稳过程它都可以分解为两个不相关的平稳序列之和，其中一个为确定性的，另一个为随机性的，不妨记作其中：为确定性序列，为随机序列，它们需要满足如下条件（1）（2）（3）确定性序列与随机序列的定义对任意序列而言，令关于q期之前的序列值作线性回归其中为回归残差序列，。确定性序列，若随机序列，若Cramer分解定理（1961）任何一个时间序列都可以分解为两部分的叠加：其中一部分是由多项式决定的确定性趋势成分，另一部分是平稳的零均值误差成分，即确定性影响随机性影响循环变动循环变动C（Cyclical）不规则变动不规则变动I（Irregular）季节变动季节变动S（Seasonal）长期趋势

43、长期趋势T（Trend）对两个分解定理的理解Wold分解定理说明任何平稳序列都可以分解为确定性序列和随机序列之和。它是现代时间序列分析理论的灵魂，是构造ARMA模型拟合平稳序列的理论基础。Cramer 分解定理是Wold分解定理的理论推广，它说明任何一个序列的波动都可以视为同时受到了确定性影响和随机性影响的综合作用。平稳序列要求这两方面的影响都是稳定的，而非平稳序列产生的机理就在于它所受到的这两方面的影响至少有一方面是不稳定的。确定性时序分析的目的克服其它因素的影响，单纯测度出某一个确定性因素对序列的影响推断出各种确定性因素彼此之间的相互作用关系及它们对序列的综合影响4-3-2 4-3-2 时

44、间序列时间序列趋势分析趋势分析目的有些时间序列具有非常显著的趋势，我们分析的目的就是要找到序列中的这种趋势，并利用这种趋势对序列的发展作出合理的预测常用方法趋势拟合法平滑法趋势拟合法趋势拟合法就是把时间作为自变量，相应的序列观察值作为因变量，建立序列值随时间变化的回归模型的方法分类线性拟合非线性拟合线性拟合使用场合长期趋势呈现出线形特征模型结构例:拟合澳大利亚政府19811990年每季度的消费支出序列线性拟合模型参数估计方法最小二乘估计参数估计值拟合效果图非线性拟合使用场合长期趋势呈现出非线形特征参数估计指导思想能转换成线性模型的都转换成线性模型，用线性最小二乘法进行参数估计实在不能转

45、换成线性的，就用迭代法进行参数估计常用非线性模型模型变换变换后模型参数估计方法线性最小二乘估计线性最小二乘估计迭代法迭代法迭代法例：对上海证券交易所每月末上证指数序列进行模型拟合非线性拟合模型变换参数估计方法线性最小二乘估计拟合模型:拟合效果图时间序列预测法时间序列预测法时间序列预测法可用于短期预测、中期预测和长期预测。根据对资料分析方法的不同，又可分为：简单序时平均数法、加权序时平均数法平滑法平滑法是进行趋势分析和预测时常用的一种方法。它是利用修匀技术，削弱短期随机波动对序列的影响，使序列平滑化，从而显示出长期趋势变化的规律简单平均数法:也称算术平均法。即把若干历史时期的统计数值作为

46、观察值，求出算术平均数作为下期预测值。这种方法基于下列假设：“过去这样，今后也将这样”，把近期和远期数据等同化和平均化，因此只能适用于事物变化不大的趋势预测。如果事物呈现某种上升或下降的趋势，就不宜采用此法。加权平均数法:就是把各个时期的历史数据按近期和远期影响程度进行加权，求出平均值，作为下期预测值。移动平均法基本思想假定在一个比较短的时间间隔里，序列值之间的差异主要是由随机波动造成的。根据这种假定，我们可以用一定时间间隔内的平均值作为某一期的估计值分类n期中心移动平均n期移动平均移动平均期数确定的原则事件的发展有无周期性以周期长度作为移动平均的间隔长度，以消除周期效应的影响对趋势平滑的要

47、求移动平均的期数越多，拟合趋势越平滑对趋势反映近期变化敏感程度的要求移动平均的期数越少，拟合趋势越敏感移动平均预测时间序列模型的基本概念及其适用性时间序列模型的基本概念及其适用性时间序列模型的基本概念时间序列模型的基本概念随随机机时时间间序序列列模模型型（nime series modeling）是指仅用它的过去值及随机扰动项所建立起来的模型，其一般形式为 Yn=F(Yn-1,Yn-2,n)建建立立具具体体的的时时间间序序列列模模型型，需需解解决决如如下下三三个个问题问题：(1)模型的具体形式模型的具体形式 (2)时序变量的滞后期时序变量的滞后期 (3)随机扰动项的结构随机扰

48、动项的结构例如，取线性方程、一期滞后以及白噪声随机扰动项（n=n），模型将是一个1阶阶自自回归过程回归过程AR(1)：Yn=aYn-1+n这里，n特指一白噪声一白噪声。一般的p阶自回归过程阶自回归过程AR(p)是 Yn=a1Yn-1+a2Yn-2+apYn-p+n (*)(1)如果随机扰动项是一个白噪声(n=n)，则称(1)式为一纯纯AR(p)过过程程（pure AR(p)process），记为 Yn=a1Yn-1+a2Yn-2+apYn-p+n (2)如果n不是一个白噪声，通常认为它是一个q阶的移动平均（移动平均（moving average）过程）过程MA(q)：n=n-c1n-1-c2

49、n-2-cqn-q 该式给出了一个纯纯MA(q)过过程程（pure MA(p)process）。一般的p阶自回归过程阶自回归过程AR(p)是 Yn=a1Yn-1+a2Yn-2+apYn-p+n (1)将纯AR(p)与纯MA(q)结合，得到一个一般的自回归移动平均自回归移动平均（aunoregressive moving average）过程）过程ARMA（p,q）：Yn=a1Yn-1+a2Yn-2+apYn-p+n-c1n-1-c2n-2-cqn-q 该式表明：该式表明：（1）一一个个随随机机时时间间序序列列可可以以通通过过一一个个自自回回归归移移动动平平均均过过程程生生成成，即该序列可以由其

50、自身的过去或滞后值以及随机扰动项来解释。（2）如如果果该该序序列列是是平平稳稳的的，即它的行为并不会随着时间的推移而变化，那那么么我我们们就就可可以以通通过过该该序序列列过过去去的的行行为为来预测未来。来预测未来。这也正是随机时间序列分析模型的优势所在。需要说明的是，需要说明的是，在上述模型的平稳性、识别与估计的讨在上述模型的平稳性、识别与估计的讨论中，论中，ARMA(p,q)模型中均未包含常数项。模型中均未包含常数项。如果包含常数项，该常数项并不影响模型的原有性质如果包含常数项，该常数项并不影响模型的原有性质，因为通过适当的变形，可将包含常数项的模型转换为不含常数项的模型。下面以一般的ARM

展开阅读全文