实用统计分析方法与应用.ppt-得力文库

资源描述

《实用统计分析方法与应用.ppt》由会员分享，可在线阅读，更多相关《实用统计分析方法与应用.ppt（42页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、实用统计分析方法与应用p现代统计学的研究对象：统计方法和统计逻辑现代统计学的研究对象：统计方法和统计逻辑p现代统计学的分类：现代统计学的分类：从实际应用中的方法来区分可分为现代统计学概述现代统计学概述1以总体全面资料或非随机性局部资料为基础的统计理论与方法体系统计总体论）、统计设计、统计调查、统计整理、统计指数、动态分析理论、依据随机样本推断总体特征的理论与方法体系概率论、经典统计理论、贝叶斯理论、统计判决理论等描述统计数理统计R编程可视SAS编程Eviews编程可视Matlab编程可视SPSS可视Stata可视Excel可视。统计软件统计软件2p常用统计软件一览常用统计软件一览(3种数据形态

2、种数据形态)SPSS的特点：的特点：1：可：可视化操作，界面友好美化操作，界面友好美观。2：数据接口多。：数据接口多。3：操作：操作简单，用，用户体体验好。好。4：较之之Excel数据数据处理能力更理能力更强。p数理统计的基本框架：数理统计的基本框架：3微积分概率论数理统计基础。计量经济学时间序列p数理统计的基本框架：数理统计的基本框架：微积分：微积分：数学基础，为概率论的运算以及数理统计的统计量提供基础。概率论：概率论：数理统计学所考察的数据都带有随机性（偶然性）的误差。这给根据这种数据所作出的结论带来了一种不确定性，其量化要借助于概率论的概念和方法。数理统计基础：数理统计基础：对数据的结构

3、分析和条件检验。对以数据为基础的计量经济学提供前端分析。计量经济学：计量经济学：利用建立模型和优化模型解决实际问题的方法。时间序列分析：时间序列分析：是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。4p数理统计的基本框架：数理统计的基本框架：5总体所研究对象的全体。个体：总体中最小的研究单位。总体容量：总体中所包含的个体个数。总体中每一个个体都具有相同的观察特征。样本从总体中抽出若干个个体组成的集体样本容量：样本中所包含的个体个数。样本的分类取决于取得样本的方法。如简单随机样本等。随机变量对客观事物进行观察试验的结果。

4、随机变量是将试验事件数量化。6随机变量的数学特征7p随机变量的数学特征随机变量的数学特征u随机变量的分类定性分类随机变量可分为分类变量和有序变量定量分类随机变量按数据集是否能够取有限个或至多可列个值，可分为离离散型变量散型变量和连续型变量连续型变量。离散型变量：随机变量随机变量X X只可能取有限个或至多可列个值只可能取有限个或至多可列个值连续型变量：变量可以在某个区间内取任一实数，即变量的取值可以是连变量可以在某个区间内取任一实数，即变量的取值可以是连续的续的p随机变量的数学特征随机变量的数学特征8u分布：分布是形容数据的一类集体形态的特征，分布列或分布函数代表了数据出现在不同位置拥有的不同概

5、率。离散型随机变量的分布列：离散型随机变量的分布列：表现出每一个随机变量取值及出现的概率例：例：价格价格A1（70万）万）A2（88万）万）A3（108万）万）占比25%50%25%某楼盘当期开盘的户型总价分布列常见的离散型变量分布：常见的离散型变量分布：0-1分布，泊松分布分布，泊松分布p随机变量的数学特征随机变量的数学特征9p随机变量的数学特征随机变量的数学特征10最常用的连续型随机变量分布最常用的连续型随机变量分布正态分布正态分布在统计中，许多重要的分布都是连续型分布，其中一种特别重要的连续型随机变量的概率分布就是正态分布(Normal Distribution)。正态分布最初为 De

6、 Moivre于 1773 年发现，其后，拉普拉斯(Laplace)和高斯(Gauss)对它作出了很大的贡献，尤其是高斯的贡献最为突出，所以正态分布又称为高斯分布。p随机变量的数学特征随机变量的数学特征u期望期望u方差方差u协方差与相关系数协方差与相关系数u大数定律与中心极限定理大数定律与中心极限定理11p随机变量的数学特征随机变量的数学特征期望：期望：在概率论和统计学中，一个离散型随机变量的期望值（或数学期望、或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和。离散型随机变量：离散型随机变量：12以频率为权重的加权平均随机变量随机变量X的数学期望，记作的数学期望，记作E（X），

7、即），即 13例例某楼盘当期开盘的户型总价的分布列求整个项目的平均价格p随机变量的数学特征随机变量的数学特征 E（X）=70*25%+88*50%+108*25%=88.5价格价格A1（70万）万）A2（88万）万）A3（108万）万）占比25%50%25%p随机变量的数学特征随机变量的数学特征14u连续型随机变量设连续型随机变量X的概率密度为 f(x),则u正态分布的期望正态分布的期望p数学期望的意义数学期望的意义15 试验次数较大时，X的观测值的算术平均值在E(X)附近摆动数学期望又可以称为期望值(Expected Value)，均值(Mean)E(X)反映了随机变量X取值的“概率平均

8、”,是X的可能值以其相应概率的加权平均。p方差的引入方差的引入16E(X1)=50 20 30 50 70 801/8 1/8 1/2 1/8 1/8E(X2)=50 总价（万元）占比 40 50 60 1/4 1/2 1/4设有两个楼盘，其各户型总价取值规律如下：总价（万元）占比两种个楼盘的总价均值是相同的，但楼盘2的波动更大p方差方差17u均方差（标准差）设是一随机变量，如果存在，则称为的方差，记作或即 p方差的计算步骤方差的计算步骤18Step 1:计算期望 E(X)Step 2:计算 E(X2)Step 3:计算 D(X)离散型连续型离散型连续型 p协方差协方差在概

9、率论和统计学中，协方差用于衡量两个变量的总体误差。而方差在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。是协方差的一种特殊情况，即当两个变量是相同的情况。直观上来看，协方差表示的是两个变量总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。19p相关系数相关系数前面说到当两个变量互为统计独立时，

10、协方差COV=0 但反之协方差COV=0时，两个变量并不一定统计独立相关系数是变量之间相关程度的指标。样本相关系数用r表示,总体相关系数用表示,相关系数的取值范围为-1,120定义定义21样本与总体p引引言言22 随机变量及其所伴随的概率分布全面描述了随机变量及其所伴随的概率分布全面描述了随机现象随机现象的统计性规律。的统计性规律。概率论的许多问题中，随机变量的概率分布通常是已知的，或者假设是已知的，而一切计算与推理都是在这已知是基础上得出来的。但实际中，情况往往并非如此，一个随机现象所服从的分布可能是完全不知道的，或者知道其分布概型，但是其中的某些参数是未知的。例如：望今缘在开售之前做市

11、场调查，目标总体内有购房需求客户的当期支付能力或者客户当前对户型面积的需求。所得出的数据集是服从的分布是未知的。数理统计的任务则是以概率论为基础，根据试验所得到的数据，对研究对象的客观统计规律性做出合理的推断。p样本与总体样本与总体23总体与样本总体与样本在数理统计中，把研究对象的全体称为总体（population)或母体，而把组成总体的每个单元称为个体。例如我们做市场调查，目标客户群体就是总体，每一个客户称为个体。总体：总体：样本：样本：在抽取过程中，每抽取一个个体，就是对总体X进行一次随机试验，每次抽取的n个个体，称为总体X的一个容量为n的样本（sample）或子样；其中样本中所包含的

12、个体数量称为样本容量n。总体是唯一的、确定的，而样本是不确定的、可变的、随机的。总体是唯一的、确定的，而样本是不确定的、可变的、随机的。p抽样及抽样方法抽样及抽样方法241.简单随机抽样2.类型抽样3.整群抽样4.等距抽样5.阶段抽样常用抽样方法常用抽样方法定义定义从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样的目的是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。p简单随机样本样本必须具有的性质简单随机样本样本必须具有的性质25代表性即样本()的每个分

13、量与总体具有相同的概率分布。独立性即每次抽样的结果既不影响其余各次抽样的结果，也不受其它各次抽样结果的影响。满足上述两点要求的子样称为简单随机样本简单随机样本.获得简单随机样本的抽样方法叫简单随简单随机抽样机抽样.样本（sample）总体（population）抽样（sampling）总体容量（population size）N=45样本容量（sample size）n=10 为推断总体的某些特征，而从总体中按一定方法抽取若干个体，这一过程称为抽样，所抽取的个体称为样本。抽样方法自有限总体的简单随机抽样简单随机样本有限总体总体中每一个体以相等的概率被抽出，称简单随机抽样。有放回抽样与无

14、放回抽样之分。自有限总体的简单随机抽样，特指有放回抽样。2725213452326282930313336141312111098762120224243449117371635153832394041241834452383257362323129抽样方法自无限总体的简单随机抽样无限总体自无限总体抽取样本，采用无放回抽样。如果满足以下两个条件，则称简单随机抽样：每个个体来自同一个总体样本中每个个体的抽取是独立的简单随机样本抽样方法统计量计算总体确定性样本随机抽样随机性随机性样本统计量做为随机变量，具有特定的概率分布。把握住他们的分布规律就找到了推断总体参数的依据。总体参数理论上可计算

15、确定性抽样分布30统计方法p参数估计参数估计31 数理统计问题：如何选取样本来对总体的种种统计特征作出判断。参数估计问题：知道随机变量（总体）的分布类型，但确切的形式不知道，根据样本来估计总体的参数，这类问题称为参数估计参数估计。参数估计的类型点估计、区间估计点估计的方法：构造一个统计量来对总体进行估计主要方法：数字特征法、矩法、极大似然法。区间估计：点估计总是有误差的，但没有衡量偏差程度的量，区间估计则是按一定的可靠性程度对待估参数给出一个区间范围。显著性水平置信度显著性水平下，在1-置信水平下的置信区间：置信度置信度置信度,也叫置信水平。它是指特定个体对待特定命题真实性相信的程度.也就是

16、概率是对个人信念合理性的量度.概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。是否为大样本n30值是否已知值是否已知总体是否近似正态分布用样本标准差s估计用样本标准差s估计将样本容量增加到n30以便进行区间估计是是是是否否否否总体均值区间估计程序p假设检验假设检验34引言统计假设通过实际观察或理论分析对总体分布形式或对总体分布形式中的某些参数作出某种假设。假设检验根据问题的要求提出假设

17、，构造适当的统计量，按照样本提供的信息，以及一定的规则，对假设的正确性进行判断。基本原则小概率事件在一次试验中是不可能发生的。p假设检验假设检验35参数的假设检验：已知总体的分布类型，对分布函数或密度函数中的某些参数提出假设，并检验。思想：如果原假设成立，那么某个分布已知的统计量在某个区域内取值的概率应该较小，如果样本的观测数值落在这个小概率区域内，则原假设不正确，所以，拒绝原假设；否则，接受原假设。拒绝域检验水平 p假设检验假设检验36基本步骤 1、提出原假设，确定备择假设提出原假设，确定备择假设；2、构造分布已知的合适的统计量构造分布已知的合适的统计量；3、由给定的检验水平由给定的

18、检验水平，求出在，求出在H0成立的条件下的成立的条件下的临界值（上侧临界值（上侧分位数，或双侧分位数，或双侧分位数）分位数）；4、计算统计量的样本观测值，如果落在拒绝域内，计算统计量的样本观测值，如果落在拒绝域内，则拒绝原假设，否则，接受原假设。则拒绝原假设，否则，接受原假设。37p相关分析相关分析简单相关分析简单相关分析是对两个变量之间的相关程度进行分析。单相关分析是对两个变量之间的相关程度进行分析。单相关分析所用的指标称为单相关系数，又称为单相关系数、所用的指标称为单相关系数，又称为单相关系数、PearsonPearson（皮尔森）相（皮尔森）相关系数或相关系数。通常以关系数或相关

19、系数。通常以表示总体的相关系数，以表示样本的相关表示总体的相关系数，以表示样本的相关系数系数38p相关系数的检验相关系数的检验在实际的客观现象分析研究中，相关系数一般都是利用样本数据计算的，在实际的客观现象分析研究中，相关系数一般都是利用样本数据计算的，因而带有一定的随机性，样本容量越小其可信程度就越差。因此也需要进因而带有一定的随机性，样本容量越小其可信程度就越差。因此也需要进行检验，即对总体相关系数行检验，即对总体相关系数是否等于进行检验。数学上可以证明，在是否等于进行检验。数学上可以证明，在与都服从于正态分布，并且又有与都服从于正态分布，并且又有的条件下，可以采用检验来确定的条件

20、下，可以采用检验来确定的显著性。其步骤如下：的显著性。其步骤如下：39关键术语无放回抽样（无放回抽样（sampling without replacement）一个元素一旦选入样本，就从总体中剔除，不能再次被选入放回抽抽样（放回抽抽样（sampling with replacement）一个元素一旦被选入样本，仍被放回总体中。先前被选入的元素可能再次被抽到，并且在本样中可能出现多次抽样分布（抽样分布（sampling distribution）样本统计量所有可能值构成的概率分布点估计（点估计（point estimate）用做总体参数估计量的值。它是点估计量的具体的取值点估计量（点估计量（po

21、int estimator）提供总体参数点估计的样本统计量标准误差（标准误差（standard error）点估计量的标准差中心极限定理（中心极限定理（central limit theorem）当样本容量大的时候，用正态分布近似样本均值的分布和样本比率的抽样分布区间估计（区间估计（interval estimate）总体参数估计值的一个范围，确信该范围包括参数的值在内抽样误差（抽样误差（sample error）无偏估计值（如样本均值）与所估计的总体值（如总体均值）之差的绝对值置信水平（置信水平（confidence level）与区间估计相联系的置信度边际误差（边际误差（margin er

22、ror）置信区间中从点估计值中所加上或减去的值t分布（分布（t distribution）概率分布的一族，当总体是正态或者近似正态概率分布，并且总体标准差未知情况下，对总体均值进行区间估计时常用到该分布自由度（自由度（degrees of freedom）t 分布的参数，计算总体均值的区间估计中所用的t 分布的自由度为n-1，其中n是简单单随机样本的样本容量41THETHE END ENDTHANKS!THANKS!备注：备注：所有内容所有内容均均由锐理数据平台收集由锐理数据平台收集整理编辑，整理编辑，结果解释权归锐理结果解释权归锐理所有所有；若若有任何疑问，请致电：有任何疑问，请致电：028-85980781028-85980781、8533630285336302未经锐理数据平台许可，请勿转摘；未经锐理数据平台许可，请勿转摘；欢迎各位同行朋友交流，锐理数据成都机构随时欢迎您的来电来访！欢迎各位同行朋友交流，锐理数据成都机构随时欢迎您的来电来访！欢迎欢迎各位客户给我司提出宝贵的意见和建议各位客户给我司提出宝贵的意见和建议！谢谢！谢谢！

展开阅读全文