《多元统计分析与SPSS应用讲稿.ppt》由会员分享,可在线阅读,更多相关《多元统计分析与SPSS应用讲稿.ppt(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、 中共国家税务总局党校中共国家税务总局党校 国家税务总局干部学院国家税务总局干部学院多元统计分析与SPSS应用2022-9-6第一页,讲稿共二十九页哦曾经在安徽地税基层局工作12年。上海财经大学经济学博士,研究方向是财政学税收方向。曾经在国家级权威刊物管理世界上发表论文1篇,在国家级核心刊物税务研究、财贸经济、财经研究、财经问题研究、财经理论与实践、当代经济科学、中央财经大学学报等刊物上发表论文14篇。多次被新华文摘、人大书报复印资料摘载与转载。具有注册会计师资格。上海财经大学硕士生导师。简单的自我介绍简单的自我介绍第二页,讲稿共二十九页哦联系方式:联系方式:第三页,讲稿共二十九页哦授课提纲授
2、课提纲 标准值的确定与对象筛选标准值的确定与对象筛选 相关、回归分析与预测相关、回归分析与预测 聚类与因子分析聚类与因子分析第四页,讲稿共二十九页哦 统计分析方法的涵义统计分析方法的涵义应应用用数数学学统计学统计学客观数据客观数据描述统计描述统计推断统计推断统计概率论概率论事物间的客观规律事物间的客观规律第五页,讲稿共二十九页哦人们认识事物的基本规律人们认识事物的基本规律描述描述寻找关联性寻找关联性总结规律总结规律第六页,讲稿共二十九页哦统计学方法论的科学基础统计学方法论的科学基础大数定律大数定律 从数量方面表现了偶然与必然的辩证关系偶然与必然的辩证关系,科学地论证:“在表面上是偶然性在起作用
3、的地方,这种偶然性始终是受内部的隐蔽着这种偶然性始终是受内部的隐蔽着的规律支配的的规律支配的”。因而我们可以通过大量随大量随机现象的综合概括,以消除偶然性的误差,机现象的综合概括,以消除偶然性的误差,发现必然性的趋势发现必然性的趋势,认识规律的表现形式。第七页,讲稿共二十九页哦大数定律对统计分析工作指导意义大数定律对统计分析工作指导意义只有从大量现象的总体从大量现象的总体中,才能研究这些现象的规律性。现象的总体性规律,通常是以平均数的形式表现出来以平均数的形式表现出来。所研究的现象总体包含的单位愈多,平均数也就越能够正确地反映出总体包含的单位愈多,平均数也就越能够正确地反映出这些现象的规律性这
4、些现象的规律性。各单位的共同倾向决定着平均数的水平,而单位对平均数的离差则由对平均数的离差则由于足够多数单位的汇总综合的结果,而相互抵销,趋于消失于足够多数单位的汇总综合的结果,而相互抵销,趋于消失。第八页,讲稿共二十九页哦一、标准值的确定与对象筛选一、标准值的确定与对象筛选 计算描述数据的指标:平均值 中位数 标准差第九页,讲稿共二十九页哦 平均值:即指样本的算术平均值 易受极端值影响 样本的选择:同行业、同产品、同利润水平第十页,讲稿共二十九页哦 中位数:一组数从小到大排列,位置处在中间的数 不易受到极端值影响第十一页,讲稿共二十九页哦标准差:样本偏离平均值的程度2xxn()标准差第十二页
5、,讲稿共二十九页哦离差的涵义离差的涵义5x0)1(13)2(01)(xx12345678-23-11-11x2x3x4x5x6x16)1(13)2(01)(2222222xx第十三页,讲稿共二十九页哦预警区间:x 标准差/n2xxxn()第十四页,讲稿共二十九页哦几个方面的改变:均值选择总体平均值预警范围:2xxxn()第十五页,讲稿共二十九页哦二、相关、回归分析与预测二、相关、回归分析与预测客观现象之间的数量联系存在着两种不同的类型:一种是函数关系另一种是相关关系 第十六页,讲稿共二十九页哦按照相关程度分类按照相关程度分类xy完全相关完全相关相关相关xyxy不相关不相关第十七页,讲稿共二十九
6、页哦按照相关形式分类按照相关形式分类xy直线相关直线相关xy曲线相关曲线相关第十八页,讲稿共二十九页哦按照相关方向分类按照相关方向分类xy正相关正相关xy负相关负相关第十九页,讲稿共二十九页哦 总体相关系数的定义式是:(,)()()Cov X YVar X Var Y 样本相关系数的定义公式是:22()()()()ttttXXYYrXXYY第二十页,讲稿共二十九页哦 样本相关系数r有以下特点:r的取值介于-1与1之间。当r0时,没有线性关系。r0 为正相关,r 0 为负相关 r1,完全正相关,r1,完全负相关。r r0 0只是表明两个变量之间不存在线性关系它并不只是表明两个变量之间不存在线性关
7、系它并不意味着意味着X X与与Y Y之间不存在其他类型的关系。之间不存在其他类型的关系。第二十一页,讲稿共二十九页哦回归分析回归分析回归分析:回归分析:指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法。第二十二页,讲稿共二十九页哦()iiiiyabxxyyyabxy是理论模型,表明 与 变量之间的平均变动关系,而变量 的实际值应为随机干扰:各种偶然随机干扰:各种偶然因素、观察误差和其因素、观察误差和其他被忽视因素的影响他被忽视因素的影响X X对对Y Y的线性影响而形成的线性影响而形成的系统部分,反映两变的系统部分,反映两
8、变量的平均变动关系,即量的平均变动关系,即本质特征。本质特征。回归方程的内涵回归方程的内涵第二十三页,讲稿共二十九页哦bxaybxay残差残差(Residual):e第二十四页,讲稿共二十九页哦 回归分析的主要任务就是要建立能够近似反映真实总体回归函数的样本回归函数。通常采用残差平方和作为衡量总偏差的尺度。所谓最小二乘法就是根据这一思路,通过使残差平方和为最小来估计回归系数的一种方法。第二十五页,讲稿共二十九页哦 拟合程度的评价 所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量指标是称为可决系数(又称决定系数)。该指标是建立在对总离差平方和进行分
9、解的基础之上的。第二十六页,讲稿共二十九页哦总离差平方和的分解yy yy yy2)(yySST2)(yySSE2)(yySSR回归离差平回归离差平方和方和总离差平方和总离差平方和 yy剩余残差平方剩余残差平方和和第二十七页,讲稿共二十九页哦 可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高。可决系数越小,则模型对样本的拟合程度越差。221211()niniieRyy第二十八页,讲稿共二十九页哦 从可决系数的计算公式中,可以看出可决系数是介于从0到1的数,越接近于1说明回归拟合效果越好,一般地,如果可决系数的取值超过0.8,认为模型的拟合效果比较高。第二十九页,讲稿共二十九页哦