概率论与数理统计课件数理统计方法.ppt-得力文库

资源描述

《概率论与数理统计课件数理统计方法.ppt》由会员分享，可在线阅读，更多相关《概率论与数理统计课件数理统计方法.ppt（55页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2数理统计方法数理统计方法 2.1 2.1 数理统计的基本概念数理统计的基本概念 2.2 2.2 参数估计参数估计 2.3 2.3 假设检验假设检验 2.4 2.4 方差分析方差分析 2.5 2.5 回归分析回归分析 2.6 2.6 判别分析判别分析 2.7 2.7 建模实例建模实例数理统计的任务是以数理统计的任务是以概率论为基础概率论为基础,根据试验根据试验的数据的数据,对研究对象的客对研究对象的客观规律性作出合理的估计观规律性作出合理的估计与推断与推断.近几年来的全国大学近几年来的全国大学生数学建模竞赛中，几乎生数学建模竞赛中，几乎每次都有一道题要用到此每次都有一道题要用到此方法方法.2

2、.1 2.1 数理统计的基本概念数理统计的基本概念我们把研究对象的全体称为我们把研究对象的全体称为总体总体,而把而把组成总体的每个基本单元称为组成总体的每个基本单元称为个体个体.从总体从总体X中随机抽取中随机抽取n个个体个个体(X1,X2,Xn)称为称为总体总体X中一个中一个样本样本,n 称为称为样本容量样本容量.由于样本是随机抽样的由于样本是随机抽样的,可以认为来自可以认为来自总体总体X中一个样本中一个样本(X1,X2,Xn)是一组是一组相互独立且与总体相互独立且与总体X同分布的随机变量同分布的随机变量.样本的观测值记为样本的观测值记为(x1,x2,xn),样样本本(X1,X2,Xn)的不

3、含任何未知参数的的不含任何未知参数的函数函数 f(X1,X2,Xn)称为称为统计量统计量.常用统计量常用统计量样本均值样本均值样本方差样本方差样本标准差样本标准差根据样本的观测值根据样本的观测值(x1,x2,xn),可以绘出样本频率直方图和累积频率直可以绘出样本频率直方图和累积频率直方图方图(具体方法见具体方法见P10-11).P10-11).根据样本频率直方图和累积频率直方根据样本频率直方图和累积频率直方图可以近似描绘出总体的分布密度函数曲图可以近似描绘出总体的分布密度函数曲线和分布函数曲线线和分布函数曲线.记住：最终还是要找出总体的分布规律！记住：最终还是要找出总体的分布规律！2.2 2

4、.2 参数估计参数估计根据实际数据找出其规律根据实际数据找出其规律,它一般是含它一般是含有未知参数的数学关系式有未知参数的数学关系式.参数估计就是要根据实际数据给出数学参数估计就是要根据实际数据给出数学关系式中未知参数的估计值关系式中未知参数的估计值.参数估计的方法比较多参数估计的方法比较多.一般情况下一般情况下,参参数估计问题可归结为求一个函数的极值点问数估计问题可归结为求一个函数的极值点问题题.下面主要介绍最小二乘法和极大似然法下面主要介绍最小二乘法和极大似然法.最小二乘法最小二乘法设设 y=f(x;),其中其中x是自变量是自变量(或向量或向量),),是未知参数是未知参数(或未知向量或

5、未知向量),),y 是是 x的函数的函数.x 和和 y 都是可观测的都是可观测的.(x1,y1),(x2,y2),(xn,yn)是是n组组观测值观测值.最小二乘法的基本思想就是求最小二乘法的基本思想就是求的一个的一个估计值估计值,使函数取使函数取最小值最小值.例如，例如，2003年年全国大学生数学建模竞全国大学生数学建模竞赛赛A题：题：SARS的的传播传播(http:/)假如你已经得到已确诊假如你已经得到已确诊SARS病例累计病例累计数数x(t)与时间与时间t的关系符合的关系符合Logistic传播规律：传播规律：应用最小二乘法，可求出其中的未知应用最小二乘法，可求出其中的未知参数参数K、x

6、0 0、r(可利用可利用MATLAB软件中的软件中的fmins函数函数).).极大似然法极大似然法设总设总体体的概率分布的概率分布为为 p(x;)，其中其中是是未知参数未知参数.x1,x2,xn是总体的样本观测值是总体的样本观测值.称称L()为似然函数为似然函数.令令极大似然法的基本思想是：在极大似然法的基本思想是：在的取值的取值范围内范围内,挑选使似然函数挑选使似然函数L()取得最大值取得最大值的的估计值估计值.一般只需求一般只需求ln L()的最大值点即可：的最大值点即可：max ln L().例如，例如，1999年年全国大学生数学建模竞全国大学生数学建模竞赛赛A题：自动化车床

7、管理题：自动化车床管理(P49).100次刀具故障记录次刀具故障记录(完成的零件数完成的零件数)服服从正态分布从正态分布(在假设检验中，我们将会验证在假设检验中，我们将会验证这一点这一点)：似然函数为似然函数为可以验证未知参数可以验证未知参数、分别是样本均值与标准差分别是样本均值与标准差2.3 2.3 假设检验假设检验假设总体期望值为假设总体期望值为 0,假设总体方差假设总体方差不大于不大于 02，假设总体服从某种分布，假设总体服从某种分布,上述上述种种假设是否成立呢？种种假设是否成立呢？还有某种品种是否比其它品种更优？还有某种品种是否比其它品种更优？某种药品是否比其它药品更有效？等等这某种

8、药品是否比其它药品更有效？等等这些问题需通过概率计算些问题需通过概率计算,采用假设检验的采用假设检验的方法方法,才能做出正确的推断才能做出正确的推断.假设检验的主要内容有：一个正态总假设检验的主要内容有：一个正态总体的假设检验、两个正态总体的假设检验体的假设检验、两个正态总体的假设检验以及分布律的假设检验以及分布律的假设检验.假设检验的基本方法假设检验的基本方法提出待检验的假设提出待检验的假设H0 它可能有以下几个来源：它可能有以下几个来源：依据以往的经验依据以往的经验或某些实验的结果；或某些实验的结果；依据某种理论或某种模依据某种理论或某种模型；型；根据事先所做的某种规定根据事先所做的某种

9、规定.选择检验假设选择检验假设H0 的统计量，并确定其分的统计量，并确定其分布，再根据样本观测值计算出该统计量的值布，再根据样本观测值计算出该统计量的值.确定拒绝域并作出判断确定拒绝域并作出判断在给定的检验水平在给定的检验水平(或显著性水平或显著性水平)(0(0 1)1)下，查所选统计量服从的分布表，求出临界下，查所选统计量服从的分布表，求出临界值，然后根据小概率事件在一次观测中不可能发值，然后根据小概率事件在一次观测中不可能发生的原理确定检验假设生的原理确定检验假设H0的拒绝域并做出判断的拒绝域并做出判断.一个正态总体的假设检验有以下两种：一个正态总体的假设检验有以下两种：未知未知方差方差

10、 2,检验假设检验假设H0：=0(0为为已知，步骤已知，步骤见见P15-16)P15-16)提出待检假设提出待检假设H0：=0.选取样本选取样本(X1,X2,Xn)的统计量：的统计量：再根据样本观测值计算出统计量再根据样本观测值计算出统计量T 的值的值.查表得临界值：查表得临界值：t =t (n-1).然后根据然后根据P|T|t =下结论：若下结论：若|T|t ,则否定则否定H0；否则否则,一般情况下接受一般情况下接受H0.未知未知期望期望,检验假设检验假设H0：2 02(02已知，步骤已知，步骤见见P16)P16)提出待检假设提出待检假设H0：2 02.选取样本选取样本(X1,X2,Xn)的

11、统计量：的统计量：再根据样本观测值计算出统计量再根据样本观测值计算出统计量 2 的值的值.查表得临界值：查表得临界值：2=2(n-1).然后根据然后根据P|2|2 =下结论：下结论：若若|2|2,则否定则否定H0；否则否则,一般情况一般情况下接受下接受H0.例如，假设你要例如，假设你要检查食盐检查食盐包装机工作是包装机工作是否正常？否正常？(见见P16)P16)首先首先,你要建立你要建立假设检验假设检验H0：=0(0=500)，检验检验包装机有没有产生系统误差；包装机有没有产生系统误差；再建立再建立假设检验假设检验H1：2 02(02=102)，检验检验包装机工作是否稳定包装机工作是否稳定.两

12、个正态总体的假设检验有以下三种：两个正态总体的假设检验有以下三种：未知期望未知期望 1,2,检验假设检验假设H0：12=22.建立待检假设建立待检假设H0：12=22.(步骤见步骤见P17)P17)选取样本选取样本(X1,X2,Xm),(Y1,Y2,Yn)的统计量的统计量(不妨设不妨设S12S22)：再根据样本观测值计算出统计量再根据样本观测值计算出统计量F 的值的值.查表得临界值：查表得临界值：F/2=F/2(m-1,n-1).然后根据然后根据P FF/2 =/2 下结论：若下结论：若FF/2,则否定则否定H0；否则否则,一般情况下接受一般情况下接受H0.未知未知期望期望 1,2,检验假设检

13、验假设H0：12 22 建立待检假设建立待检假设H0：12 22.(步骤见步骤见P17)P17)选取样本选取样本(X1,X2,Xm),(Y1,Y2,Yn)的统计量：的统计量：再根据样本观测值计算出统计量再根据样本观测值计算出统计量F 的值的值.查表得临界值：查表得临界值：F =F(m-1,n-1).然后根据然后根据P FF =下结论：若下结论：若FF ,则否定则否定H0；否则否则,一般情况下接受一般情况下接受H0.未知未知方差方差 12,22,但但 12=22，检验假设，检验假设H0：1=2(步骤见步骤见P17)P17)建立建立待检假设待检假设H0：1=2.选取统计量：选取统计量：其中其中特

14、别地特别地,当当m=n时时,查表得临界值：查表得临界值：t =t (m+n 2).然后根据然后根据P|T|t =下结论：若下结论：若|T|t ,则否定则否定H0；否则否则,一般情况下接受一般情况下接受H0.例如，要例如，要检查某种新药检查某种新药是否有效？是否有效？首先首先,将病人分为两类将病人分为两类,一类用该药一类用该药,另一类另一类不用不用.然后建立然后建立假设检验假设检验H0：12=22,检验检验两类两类病人指标方差是否相等？病人指标方差是否相等？当方差相等时当方差相等时,再建立再建立假设检验假设检验H1：1=2,检验检验两类病人指标均值是否相等？两类病人指标均值是否相等？又如，你要又

15、如，你要检查两台食盐检查两台食盐包装机中哪一台包包装机中哪一台包装机更好？装机更好？首先首先,你要分别建立你要分别建立假设检验假设检验H1：1=0与与H2：1=0(0=500),),检验每台检验每台包装机有没有产包装机有没有产生系统误差？生系统误差？再建立再建立假设检验假设检验H3：12 22,检验检验哪一台包哪一台包装机更好？装机更好？分布律的假设检验按分布律的假设检验按皮尔逊皮尔逊(K.Pearson)平方和准则平方和准则(步骤见步骤见P18-19)P18-19)例如，例如，1999年年全国大学生数学建模竞全国大学生数学建模竞赛赛A题：自动化车床管理题：自动化车床管理(P49).检验检验1

16、00次刀具故障记录次刀具故障记录(完成的零件数完成的零件数)是否服从是否服从正态分布正态分布N(600,38663.02=196.632).100100-200200-300300-400400-500500-600频频数数mi12461522概率概率pi0.00440.01550.04260.09100.15090.1945 600-700700-800800-900900-10001000-11001100频频数数mi22148411概率概率pi0.19450.15100.09100.04260.01550.0044首先做首先做假设假设H0：F(x)=F0(x)，其中其中其次选取统计量：

17、其次选取统计量：查表得临界值查表得临界值(12-1-2)=3.33.因为因为3.333.75,故否定故否定H0,所以在显著所以在显著性水平性水平0.05下认为？下认为？因为因为 (12-1-2)=3.333.75,故故否定否定H0.所以在显著性水平所以在显著性水平0.05下认为下认为 100次刀次刀具故障记录具故障记录(完成的零件数完成的零件数)不服从正态分布不服从正态分布N(600,196.632).但是但是(12-1-2)=4.17.因为因为3.754.17,故接受故接受H0.所以在显著性所以在显著性水平水平0.1下认为下认为 100次刀具故障次刀具故障记录服从正态分布记录服从正态分布N(

18、600,196.632).即有即有90%90%的可能性认为的可能性认为 100次刀具故障记录服次刀具故障记录服从正态分布从正态分布N(600,196.632).2.4 2.4 方差分析方差分析用不同的生产方法生产同一种产品用不同的生产方法生产同一种产品,比较各种生产方法对产品的影响是人们经比较各种生产方法对产品的影响是人们经常遇到的问题常遇到的问题.为此为此,需要找出对产品有显著影响的需要找出对产品有显著影响的因素因素.方差分析就是鉴别各因素效应的一种方差分析就是鉴别各因素效应的一种有效的统计方法有效的统计方法.方差分析包括单因素方差分析和双因方差分析包括单因素方差分析和双因素方差分析素方差

19、分析.单因素方差分析单因素方差分析如果在试验中只有一个因素在变化如果在试验中只有一个因素在变化,其其它可控制的条件不变它可控制的条件不变,称它为称它为单因素试验单因素试验；若试验中变化的因素多于一个若试验中变化的因素多于一个,则称为则称为双因双因素以及多因素试验素以及多因素试验.单因素试验中单因素试验中,若只有两个水平若只有两个水平,就是就是以前讲过的两个总体的比较问题以前讲过的两个总体的比较问题.超过两个超过两个水平的时候水平的时候,也就是需要好多个总体进行比也就是需要好多个总体进行比较较,这时这时,方差分析是一种有效的方法方差分析是一种有效的方法.单因素方差分析的假设前提、解题方法单因素

20、方差分析的假设前提、解题方法与步骤见与步骤见P20-21 例例为了考察为了考察6种不同的农药的杀虫率有无显种不同的农药的杀虫率有无显著差异著差异,做了做了18次试验次试验,得数据如下：得数据如下：农药农药杀杀虫虫率率(%)(%)行平均值行平均值 1 87.4 85.0 80.2 84.201 87.4 85.0 80.2 84.20 2 90.5 88.5 87.3 94.7 90.26 2 90.5 88.5 87.3 94.7 90.26 3 56.2 62.4 59.30 3 56.2 62.4 59.30 4 55.0 48.2 51.60 4 55.0 48.2 51.60

21、5 92.0 99.2 95.3 91.5 94.50 5 92.0 99.2 95.3 91.5 94.50 6 76.2 72.3 81.3 76.27 6 76.2 72.3 81.3 76.27 要考察这要考察这6 6种不同的农药的杀虫率有无显著差异，需种不同的农药的杀虫率有无显著差异，需要建立假设检验：要建立假设检验：H0：1=2=6=.进一步进一步,自然希望找出最优的农药自然希望找出最优的农药,以便提高杀虫率以便提高杀虫率.因此要检验假设：因此要检验假设：H1：2=5.双因素方差分析双因素方差分析进行双因素方差分析的目的进行双因素方差分析的目的,是要检验是要检验两个因素对试验结果

22、有无影响两个因素对试验结果有无影响.在试验中在试验中,对每一因素的每一水平都可对每一因素的每一水平都可取一个容量为取一个容量为nij的样本的样本.按按nij=1(无重复试验无重复试验,不考虑两因素间不考虑两因素间的交互作用的交互作用)和和nij2(不等重复试验不等重复试验,考虑考虑两因素间的交互作用两因素间的交互作用)分为两种情形：无重分为两种情形：无重复试验的双因素方差分析和重复试验的双因复试验的双因素方差分析和重复试验的双因素方差分析素方差分析.在重复试验的双因素方差分析中，在重复试验的双因素方差分析中，就是要考察两个因素就是要考察两个因素 A,B之间是否存在之间是否存在交互作用的影响交互

23、作用的影响,需要对两个因素各种需要对两个因素各种水平的组合水平的组合(Ai,Bj)进行重复试验进行重复试验,假假设每一个组合都重复试验设每一个组合都重复试验 m(m1)次次(若是不等重复试验若是不等重复试验,残缺数据可按均值残缺数据可按均值补齐以便于计算补齐以便于计算).).无重复试验的双因素方差分析和重无重复试验的双因素方差分析和重复试验的双因素方差分析解题方法与步复试验的双因素方差分析解题方法与步骤见骤见P22-24 P22-24 例例设设4 4个工人操作个工人操作3 3台机器各一天台机器各一天,日产日产量数据如下：量数据如下：工人工人机器机器B1 B2B3B4行平均值行平均值 A150

24、47475349.25A25354575855.5A35242414845.75列平均值列平均值 51.6747.6748.335350.17问是否真正存在机器或工人之间的差别？问是否真正存在机器或工人之间的差别？2.5 2.5 回归分析回归分析回归分析是考察两个变量之间统计联系回归分析是考察两个变量之间统计联系的一种重要方法的一种重要方法,它在许多领域中都有极其它在许多领域中都有极其广泛的应用广泛的应用.变量之间的关系大致可分为两类变量之间的关系大致可分为两类,一类一类是确定性的关系是确定性的关系,如我们熟知的函数关系；如我们熟知的函数关系；另一类是非确定性的关系另一类是非确定性的关系.本

25、节主要考察非确定性的关系中一个随本节主要考察非确定性的关系中一个随机变量与另一个或多个非随机变量之间的关机变量与另一个或多个非随机变量之间的关系系.回归函数回归函数对于某些非确定性的关系对于某些非确定性的关系,如随机变量如随机变量Y与变量与变量x(它可能是多维向量它可能是多维向量)之间的关系之间的关系,当自变量当自变量x确定之后确定之后,因变量因变量Y 的值并不跟的值并不跟着确定着确定,而是按一定的统计规律而是按一定的统计规律(即随机变即随机变量量Y的分布的分布)取值取值.这时我们将它们之间的关系表示为这时我们将它们之间的关系表示为Y=f(x)+,其中其中f(x)是一个确定的函数是一个确定的

26、函数,称之为称之为回归函回归函数数.为随机项为随机项,且且 N(0,2).回归分析的任务之一是确定回归函数回归分析的任务之一是确定回归函数 f(x).当当 f(x)是一元线性函数时是一元线性函数时,称之为称之为一元线性一元线性回归回归；当当 f(x)是多元线性函数时是多元线性函数时,称之为称之为多元线性多元线性回归回归；当当 f(x)是非线性函数时是非线性函数时,称之为称之为非线性回归非线性回归.如何确定回归函数如何确定回归函数 f(x)呢？一是根据经验呢？一是根据经验公式公式,二是根据散点图二是根据散点图.不管是那种类型的回归不管是那种类型的回归,f(x)总含有未知参总含有未知参数数,需要用

27、到参数估计方法需要用到参数估计方法.一般情况下一般情况下,还需要检验回归函数还需要检验回归函数 f(x)是是否合理否合理.回归分析的目的是用回归分析的目的是用 f(x)来做预测和决策来做预测和决策.一元线性回归、一元线性回归、预测和控制预测和控制一元线性回归是根据一元线性回归是根据数据数据(xi,yi)(i=1,2,n)确定线性关系确定线性关系y=0+1 x，利利用用最最小小二二乘乘法法确确定定回回归归直直线线方方程程中中的的未未知参数知参数 0和和 1：其中其中判断变量判断变量y与与x之间是否存在线性关系之间是否存在线性关系,需要检验假设需要检验假设H0：1=0.选取统计量选取统计量U+

28、Q=Syy回归和总和残差平方和根据根据PFF (1,n-2)=下结论：下结论：如果如果FF 拒绝拒绝H0,即变量即变量y与与x之间存之间存在线性关系；在线性关系；否则接受否则接受H0,即变量即变量y与与x之间不存在线之间不存在线性关系性关系,考虑用其它回归模型考虑用其它回归模型.利用回归函数进行利用回归函数进行预测和控制预测和控制如何根据样本提供的信息来预测当变量如何根据样本提供的信息来预测当变量 x=x0 时随机变量时随机变量Y0的值？的值？一个自然的想法是用预测量一个自然的想法是用预测量 y0=0+1 x0 来来代替代替,但是它与真值但是它与真值Y0 的差值是多少呢？的差值是多少呢？预测

29、量预测量y0 的优劣取决于的优劣取决于|y0-Y0|的大小的大小.记记当当n较大时较大时,估测区间的上下限近似取作估测区间的上下限近似取作(可信程度为可信程度为95%)95%);或或(可信程度为可信程度为99%).99%).控制是预测的反问题控制是预测的反问题,即要使随机变量即要使随机变量 Y 落落在指定的区间在指定的区间(yL,yU)内内,变量变量x应控制在什么区应控制在什么区间内？间内？从方程从方程中解出中解出xL和和xU.则当则当 10 0时时,控制区间为控制区间为(xL,xU)；当当 10 0时时,控制区间为控制区间为(xU,xL).例例下面给出了悬挂不同重量下面给出了悬挂不同重量

30、x(单位：单位：g)的的物体时弹簧的长度物体时弹簧的长度y(单位：单位：cm)：xi 5 10 15 20 25 5 10 15 20 25 30 30yi 7.25 8.12 8.95 9.90 10.90 11.80 7.25 8.12 8.95 9.90 10.90 11.80 (1)(1)变量变量y与与x之间的线性关系如何？之间的线性关系如何？(2)(2)当悬挂当悬挂16g重物时弹簧的长度大约是多少重物时弹簧的长度大约是多少？(3)(3)要使弹簧的长度控制在要使弹簧的长度控制在1011cm之间之间,问问悬挂物体的重量应控制在什么范围内？悬挂物体的重量应控制在什么范围内？可线性化回归可线

31、性化回归根据经验公式或散点图根据经验公式或散点图,选择适当的曲线回归选择适当的曲线回归方程方程.为了确定其中的未知参数为了确定其中的未知参数,往往可以通过变往往可以通过变量代换量代换,把非线性回归化为线性回归把非线性回归化为线性回归,然后用线性然后用线性回归的方法确定这些参数的值回归的方法确定这些参数的值.下表列出了常用的可线性化回归下表列出了常用的可线性化回归(a0).0).曲线方程曲线方程变换公式变换公式变换后的线性方程变换后的线性方程1/y=a+b/xu=1/x,v=1/yv=a+buy=axbu=lnx,v=lnyv=c+bu(c=lna)y=a+blnxu=lnx,v=yv=a+b

32、uy=aebxu=x,v=lnyv=c+bu(c=lna)y=1/(a+be-x)u=e-x,v=1/yv=a+bu多元线性回归和预测多元线性回归和预测设随机变量设随机变量Y与与m个变量个变量x1,x2,xm有线有线性关系性关系Y=0+1 x1+2 x2+m xm+,其中其中为随机项为随机项,且且 N(0,2).记记其中其中yi为随机变量为随机变量Y的观测值的观测值,X为已知的常数矩为已知的常数矩阵阵,且残差且残差 i N(0,2).则问题归结为根据则问题归结为根据y和和X求求使残差平方和使残差平方和达到达到最小值最小值.Q=T =(y-X )T(y-X )令令得得 =(X T X)-1

33、 X T y.即得到所求的回归方程为即得到所求的回归方程为 y=0+1 x1+2 x2+m xm.相关性检验相关性检验 H0：1=2=m=0.选取统计量选取统计量U+Q=Syy根据根据PFF (m-1,n-m-1)=下结论：下结论：如果如果FF 拒绝拒绝H0,即变量即变量 y与与x1,x2,xm 之间存在线性关系；之间存在线性关系；否则接受否则接受H0,即变量即变量y与与x1,x2,xm之间之间不存在线性关系不存在线性关系.偏偏F检验法检验法在多元线性回归模型中在多元线性回归模型中,拒绝假设拒绝假设H0,即回即回归方程显著归方程显著.然而变量然而变量x1,x2,xm对对Y的影响的影响并不都是

34、十分重要的并不都是十分重要的,人们还关心人们还关心Y对对x1,x2,xm的回归中哪些因素更重要些的回归中哪些因素更重要些,哪些不重要哪些不重要.要剔除不重要的要剔除不重要的,需要采用需要采用偏偏F检验法检验法,即检即检验假设验假设Hk：k=0,k=1,2,m.通常选取统计量通常选取统计量akk是是(X T X)-1的主对角线上的主对角线上第第k+1个元素个元素.偏偏F检验法检验法检验假设检验假设Hk：k=0,k=1,2,m.通常选取统计量通常选取统计量其中其中 akk是是(X T X)-1的主对角线上第的主对角线上第k+1个元素个元素.根据根据PFkF(1,n m 1)=下结论：下结论：如果如

35、果FkF 拒绝拒绝H0,即即xk对对Y的影响显著；的影响显著；否则接受否则接受Hk,即即xk对对Y的影响不显著的影响不显著.预测问题预测问题如何根据样本提供的信息来预测当变如何根据样本提供的信息来预测当变量量(x1,x2,xm)=(x01,x02,x0m)时随机时随机变量变量Y0的值？一个自然的想法是用预测量的值？一个自然的想法是用预测量y0=0+1x01+2x02+mx0m.来代替来代替,但是它与但是它与Y0的差值是多少呢？预测的差值是多少呢？预测量量y0的优劣取决于的优劣取决于|y0-Y0|的大小的大小.多元线性回归模型的预测问题较为复多元线性回归模型的预测问题较为复杂，这里从略杂，这里

36、从略(见见P32).多项式回归多项式回归非线性回归比较复杂，通常采用适当的非线性回归比较复杂，通常采用适当的变量代换，把非线性回归转化为线性回归变量代换，把非线性回归转化为线性回归，然后用线性回归的方法确定其中的未知参数然后用线性回归的方法确定其中的未知参数以及检验其合理性以及检验其合理性.由于任意一个函数都可以用一个适当的由于任意一个函数都可以用一个适当的多项式来较好地近似，这就是多项式回归的多项式来较好地近似，这就是多项式回归的意义所在意义所在.因此下面我们主要介绍一元多项式回归因此下面我们主要介绍一元多项式回归方法，对于多元多项式回归，处理方法是类方法，对于多元多项式回归，处理方法是类

37、似的似的.一元多项式回归一元多项式回归假设回归函数假设回归函数 y=f(x)是一个是一个一元一元多项式：多项式：y=0+1 x+2 x2+m xm,其中其中m2.对自变量对自变量x作变换：作变换：xj=x j,j=1,2,m.由由此得到此得到 y=0+1 x1+2 x2+m xm.再将原来的再将原来的一元一元多项式回归问题中的多项式回归问题中的n对数对数据据(xi,yi)相应地变换成：相应地变换成：(yi;xi1,xi2,xim),i=1,2,n,其中其中xij=(xi)j,i=1,2,n,j=1,2,m.这样我们便能用上一节多元线性回归分析的这样我们便能用上一节多元线性回归分析的方法来处理

38、了方法来处理了.例例某种合金的主要成分是金属甲与金属乙某种合金的主要成分是金属甲与金属乙.经试验与分析经试验与分析,发现这两种金属成分所占的百分发现这两种金属成分所占的百分比之和比之和x与合金的膨胀系数与合金的膨胀系数y之间有一定的相关关之间有一定的相关关系系.先测试了先测试了1313次次,得数据如下：得数据如下：xi 37.0 37.5 43.0 yi 3.40 3.00 2.90 试建立试建立x与与y之间的经验公式之间的经验公式.画出散点图画出散点图,从散点图上从散点图上看出看出,这这1313个已知的数据点大个已知的数据点大致在一条抛物线的周围致在一条抛物线的周围.假定回归函数为假定回归

39、函数为y=0+1 x+2 x2,作变换作变换x1=x,x2=x2,用多元线性回归用多元线性回归分析方法得到分析方法得到y=(3.40,3.00,2.90)T,=(0,1,2)T,=(X TX)-1X T y=(300.93,-14.85,0.1843)T,残差平方和残差平方和Q=(y-X )T(y-X )=0.2944,总和总和 Syy=4.2212,回归和回归和 U=Syy-Q=3.9268.检验假设检验假设 H0：1=2=0.F=66.69F0.01(2-1,13-2-1)=10.04,所以所以拒绝拒绝H0,即即Y与与2个变量个变量 x1,x2 之间存在特别显著之间存在特别显著的线性相关关

40、系的线性相关关系.故故x与与y之间的经验公式为之间的经验公式为y=300.93-14.85x+0.1843x2.2.6 2.6 判别分析判别分析判别分析方法最初应用于考古学判别分析方法最初应用于考古学,例如要根例如要根据挖掘出来的人头盖骨的各种指标来判别其性别据挖掘出来的人头盖骨的各种指标来判别其性别年龄等年龄等.近年来近年来,在生物学分类在生物学分类,医疗诊断医疗诊断,地地质找矿质找矿,石油钻探石油钻探,天气预报等许多领域天气预报等许多领域,判别判别分析方法已经成为一种有效的统计推断方法分析方法已经成为一种有效的统计推断方法.假定需要作出判别分析的对象分成假定需要作出判别分析的对象分成 r

41、类类,记记作作A1,A2,Ar,每一类由每一类由m个指标的若干个标个指标的若干个标本确定本确定,即即A1,A2,Ar为已知的分类为已知的分类.现在问待判断的对象现在问待判断的对象x=(x1,x2,xm)T是是属于属于A1,A2,Ar中的哪一类？这就构成了判别中的哪一类？这就构成了判别分析问题的基本内容分析问题的基本内容.判别分析的原理判别分析的原理为了能识别待判断的对象为了能识别待判断的对象x=(x1,x2,xm)T是属于已知类是属于已知类A1,A2,Ar中的哪一类？中的哪一类？事先必须要有一个一般规则事先必须要有一个一般规则,一旦知道了一旦知道了x的的值值,便能根据这个规则立即作出判断便

42、能根据这个规则立即作出判断,称这样的一称这样的一个规则为个规则为判别规则判别规则.判别规则往往通过的某个函数来表达判别规则往往通过的某个函数来表达,我们我们把它称为把它称为判别函数判别函数,记作记作W(i;x).一旦知道了一旦知道了判别函数并确定了判别函数并确定了判别规则，最判别规则，最好将已知类别的对象代入检验，这一过程称为好将已知类别的对象代入检验，这一过程称为回回代检验代检验，以便检验你的，以便检验你的判别函数和判别函数和判别规则是否判别规则是否正确正确.判别分析的主要方法判别分析的主要方法判别分析的主要方法有距离判别方法、费希判别分析的主要方法有距离判别方法、费希尔尔(Fisher)

43、判别方法判别方法(见见P35-36)、贝叶斯贝叶斯(Bayes)判别方法和模糊识别方法判别方法和模糊识别方法(见见P118-122).距离判别方法距离判别方法：判别函数判别函数W(i;x)=d(x,Ai),其中其中d(x,Ai)为为待判别对象待判别对象x到第到第i类类Ai的距离的距离.判别规则为若判别规则为若W(k;x)=minW(i;x)|i=1,2,r,则则xAk.贝叶斯贝叶斯(Bayes)判别方法判别方法：判别函数：判别函数W(i;x)=pi i(x),其中其中pi为待判别对象为待判别对象xAi的概率的概率,如果没有任何这种附加的先验信息如果没有任何这种附加的先验信息,通常取通常取pi=

44、1/r.i(x)为为已知类别已知类别Ai的的分布密度分布密度判别规则为若判别规则为若W(k;x)=maxW(i;x)|i=1,2,r,则则xAk.判别效果检验判别效果检验判别效果检验判别效果检验的好坏与的好坏与A1,A2,Ar分类的合分类的合理性有关理性有关,左左图说明马氏距离判别法和费歇尔判图说明马氏距离判别法和费歇尔判别法是失效的别法是失效的,若将其重新分类如右图若将其重新分类如右图,那么判那么判别的效果将会好一些别的效果将会好一些.因此因此,需要对分类的合理需要对分类的合理性进行假设检验性进行假设检验(见见P36).2.7 2.7 建模实例建模实例两种蠓两种蠓Af和和Apf已由生物学

45、已由生物学家家W.L.Grogna和和W.W.Wirth于于1981年根据它们年根据它们的触角长和翼长的触角长和翼长加以区分加以区分,右下右下图给出了图给出了9只只Af和和6只只Apf蠓的触蠓的触角长和翼长数据角长和翼长数据,其中其中“”“”表示表示Apf,“”“”表示表示Af.根据触角长根据触角长和翼长来识别一和翼长来识别一个标本是个标本是Af还是还是Apf是重要的是重要的.给给定定一一只只Af族族或或Apf族族的的蠓蠓,如如何何正正确确地地区分它属于哪一族？区分它属于哪一族？将将你你的的方方法法用用于于触触角角长长和和翼翼长长分分别别为为 (1.24,1.80),(1.28,1.84),(

46、1.40,2.04)三个标本三个标本.设设Af是是传传粉粉益益虫虫,Apf是是某某种种疾疾病病的的载载体体,是否应修改你的分类方法？若需修改是否应修改你的分类方法？若需修改,为什么？为什么？假设假设两种群两种群Af和和Apf的触角长和翼长的期望值、标准的触角长和翼长的期望值、标准差、相关系数与由数据给出的样本的统计量一致差、相关系数与由数据给出的样本的统计量一致.两种群两种群Af和和Apf的触角长和翼长服从二元正态分的触角长和翼长服从二元正态分布布.两种群两种群Af与与Apf的数量之比为一个确定的值的数量之比为一个确定的值.所给的样本数据是无误差的所给的样本数据是无误差的.样本数据样本数据族族 1 2 1 2 先验概率先验概率Af1.4131.8040.09900.13000.5939/15=0.6Apf1.2271.9270.06280.08820.6536/15=0.4模型建立与求解模型建立与求解(见见P38-40)

展开阅读全文

概率论与数理统计 课件 数理统计方法.ppt

概率论与数理统计课件数理统计方法.ppt