2统计描述.pdf

上传人:asd****56 文档编号:74066709 上传时间:2023-02-24 格式:PDF 页数:11 大小:261.56KB
返回 下载 相关 举报
2统计描述.pdf_第1页
第1页 / 共11页
2统计描述.pdf_第2页
第2页 / 共11页
点击查看更多>>
资源描述

《2统计描述.pdf》由会员分享,可在线阅读,更多相关《2统计描述.pdf(11页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1统计描述张文彤2005年11月10日统计描述一、连续变量的统计描述3例2.1 某市 1995 年 104 名 7 岁男童身高(cm)资料如下,请对资料进行描述。117.3 119.6 121.9 125.1 117.0 115.4 124.7 120.1 123.0122.8120.6 121.5 125.0 125.9 123.2 126.6 122.0 127.6 125.1120.1119.5 126.1 126.4 125.6 118.9 130.4 124.9 125.8 126.1120.9116.1 124.0 124.6 118.7 119.1 121.9 118.0 117

2、.0 114.6123.9116.0 125.3 123.6 123.6 126.4 115.5 119.2 114.0 123.4126.6117.3 113.6 127.6 120.5 113.6 130.2 128.3 118.2 124.7122.4118.8 123.1 122.7 126.6 127.8 125.9 110.5110.5 124.8 115.2119.4128.0 116.7 132.4 129.3 121.7 115.0 120.4 122.1 127.0135.3135.3125.7 111.2 124.3 124.2 124.7 121.7 121.3 124

3、.1 119.9121.7113.8 116.7 129.9 128.5 126.5 122.8 120.1 118.2 122.5127.7124.9 123.3 120.3 125.7 4频数表 Frequency?是一种非常直观的方法,但是比较粗糙?操作步骤:?确定组数:组数不宜过多,但也不能太少,保证大多数组都有数个观察值?确定组距:在确定了全距后,一般等距分组?组距极差/组数?确定各组段的上下限?各组的起点被称为该组的下限,终点被称为上限5频数表 Frequency?显然,各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍?对于离散型变量,编制方法也基本相同?特殊情

4、况下可以制作不等距的频数表表 2.1 某市 104 名 7 岁男童身高的频数分布 身高组段(cm)(1)频数(2)频率(%)(3)累计频率(4)110.5 2 1.921.92113.0 9 8.6510.57115.5 9 8.6519.22118.0 17 16.3535.57120.5 16 15.3850.96123.0 23 22.1273.08125.5 19 18.2791.35128.0 7 6.7398.08130.5 1 0.9699.04133.0135.5 1 0.96100合计 104 1006频数图?gen f=int(height-110.5)/2.5)*2.5+

5、110.5?graph height,bin(10)?以直方顶点的纵坐标或直方的面积大小表示频数的多少。其所反映的信息实际上等价于频数表,但它比频数表更直观、更形象。身高(cm)图 2.1 110 名 7 岁男童身高分布 27从频数图/表中可获得的信息?集中趋势?高峰组段在什么位置出现?离散趋势?数据的分布范围是什么,分散程度如何?分布形状?是否对称,分布曲线的形状?正、负偏态和左、右偏?分布特征?单、双峰,有无极端值等8一些特殊的频数图?不等距频数图?离散变量的频数图 年龄(岁)图 2.2 某市某年乙脑患者的年龄分布 9进一步的统计描述指标?通过对频数表频数图的观察,研究者可以得到上述各方面

6、信息的一个大体印象?但是,如果希望进行深入的分析,则必须要使用一些更为严谨、准确的统计指标对上述各方面特征加以描述。10集中趋势 Central tendency?均数mean?描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示?注意:均数在书写上应当带有和原始测量值相同的测量单位?均数的实质:把总体各单位的差异全部抽象化,采用取长补短的方法把变量值小于平均数的负离差全部用大于平均数的正离差抵消补齐。和X11集中趋势 Central tendency?均数的优点?高度浓缩了数据的精华,使大量的观测数据转变为一个代表性数值。数据资料中任何频次、次序和数值大小的变化,都会引起平均数的

7、改变。因此它是灵敏的,也是对资料所提供信息运用得最为充分的。12集中趋势 Central tendency?均数的缺点?把各个观测数据之间的差异性掩盖了起来,另一方面由于平均数对个别极端值反应比较灵敏,因而均数在某些情况下可能具有一定的欺骗性,这时它就有可能走样。?假设某单位有6个人,5个员工,1个经理。员工的月收入分别是:360元、380元、400元、420元、440元,经理的月收入为40000元,他们的平均月收入为7000元。显然这时用平均数就不能很贴切的反映他们收入的一般水平。313集中趋势 Central tendency?均数的适用范围?对称分布资料,特别是正态分布资料?那么,为什么

8、均数又被大量的运用??传统和习惯,横向比较的需要?由于在统计技术中,发展更多的是平均数,因此,我们应该更多地设法用上平均数,必要时可以考虑对数据进行变量变换,以达到对称分布的要求。14集中趋势 Central tendency?中位数median?中位数(Median)是将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值。它把全部数值分成两部分,比它小和比它大的数值个数正好相等。?中位数作为分布数列中处于中等水平的代表值,能够将全部总体单位按数值的大小等分为两个部分。所以中位数又称为二分位数。?表示符号:M15集中趋势 Central tendency?中位数的优点?它是位置平均数,不

9、受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均数更具有代表性。例如上面员工收入的例子,其中位数就是410元,显然要比均数更能够代表数据的集中趋势。16集中趋势 Central tendency?中位数的缺点?由于中位数只考虑居中位置,其它变量值比中位数大多少或小多少,它是无法反映出来的。所以,用中位数来描述连续变量会损失信息。?当样本量较小时,中位数会不太稳定,并不是一个好的选择。因此,对于对称分布的资料,分析者往往优先考虑使用均数,仅仅是对均数不能使用的情况才是用中位数加以描述。?sum,d17集中趋势 Central tendency?几何均数 geometric m

10、ean?在医学中经常会遇到一种特殊的资料,其数值呈等比方式记录,本身为正偏态分布,但是如果进行对数变换,则变换后的数据呈正态分布?为了能够充分利用数据信息,可以考虑先进行对数变换,然后求得此时的算术均数,最后将该均数反对数变换回来,这就是所谓的几何均数?表示符号:G18集中趋势 Central tendency?几何均数的适用范围?实际上只适用于对数正态分布资料,但往往被错误的进一步扩大到等比资料,对此要加以注意?means419连续型变量的统计描述指标?离散趋势 Dispersion tendency?全距Range?适用范围最广,但是也最不稳定?方差Variance?演变步骤?离均差描述个

11、体变异?离均差和?离均差绝对值之和数学推导困难?离均差平方和20连续型变量的统计描述指标?离散趋势 Dispersion tendency?标准差(std.deviation,标准化偏差)?解决了阅读时量纲的问题?变异系数(coefficient of variation)?解决了不同资料间变异程度对比的问题?测量尺度相差太大:比较蚂蚁和大象的体重变异?量纲不同:比较身高和体重的变异程度21连续型变量的统计描述指标?百分位数?教科书上传统将其列为集中趋势的描述指标,但实际上不仅限于此,单独列为一类可能更为妥当?适用于各种分布?P2.5 P5 P10 P25 P50 P75 P90 P95 P9

12、7.5?只有样本量较大时结果才比较稳定,对位于两端的百分位数而言更是如此?100例时,P95右侧只有5例!22连续型变量的统计描述指标?分布形状描述指标Distribution?针对某种分布进行进一步的特征描述,主要是用于正态分布?偏度系数Skewness 正态峰 正偏态 负偏态?峰度系数Kurtosis 正态峰 平阔峰 尖峭峰?其他指标?离群值与极端值列表统计描述二、分类变量的统计描述24分类变量的常用描述指标?基本的描述方式?原始数据:?频数列表?百分比?累计频数?累计百分比?集中趋势?众数血型血型6730.63013.73716.98538.8219100.0AABBO合计频率百分比52

13、5分类变量的常用描述指标?比(ratio):任意两个变量之比,这两个变量可以是性质相同的两个指标,如两个地区相同时期内某病新发病例数之比;也可以是性质不相同的两个指标之比?性别比,货物/销售人员比、人口密度等?两者的比值必须有专业意义,不能任意求两个指标之比值。26分类变量的常用描述指标?构成比(proportion):部分占总体的比例,分为k个部分(A1、Ak),其中某一个部分观察对象数与观察对象总数之比为构成比。?构成比的分子是分母的一部分,所以其取值必在0与1之间,各部分的构成比之和应当为127分类变量的常用描述指标?率(rate):某个时期内某个事件发生的频率或强度,是一个具有时间概念

14、的比,实际上可以和物理中速率的定义相对照?按上式,率的分子也应是分母的一部分,故其取值也应在0到1之间变动。察单位数该时期开始时暴露的观观察单位数某时期内发生某事件的率=28率的误用?真正意义的率。如死亡人数与手术人数之比(死亡率);手术后出院肝癌病人在5年内因肝癌死亡人数与观察满5年的人数之比(5年生存率)等?上述率指标均需观察一段时间后才能得出,在该段时间内,一部分观察对象的特征可能发生改变,是一动态过程,如患者从术后至死亡。率就是其相应概率的估计值,其分子是分母的一部分,数值在0和1之间变动。可以用以后介绍的方法计算其可信区间和进行差别的假设检验。29率的误用?由于传统的原因,医学中有许

15、多指标也会被称为“率”,他们实际上并不符合率的定义,因此不能使用和率有关的统计推断方法来进行分析?名称为率,实质为构成比的指标。?在横断面调查中常可得出某人群某病的患病率,是对人群中该病患者比例的描述,是静态的。?其他类似的还有入院诊断符合率、艾滋病知识知晓率、低体重儿发生率。这些指标的特点也是分子是分母的一部分,它们也是相应概率的估计值,因而也可以用以后介绍的方法介绍的方法计算其可信区间和进行差别的假设检验。30率的误用?名称为率,实质为比(ratio)的指标?分子与分母不是同一范畴的“率”,如婴儿死亡率?分子可重复计数的“率”,如计算某地区某年内流感的发病率?这两种情况的“率”,不能直接用

16、后面介绍的有关率的统计推断方法作差别的假设检验,也不能简单地进行可信区间的计算。?此类问题可用计算统计学方法来解决推断问题,也可按其概率分布规律来进行建模631应用相对数的注意事项?计算相对数时分母不宜过小?除非公认结局的事件,否则只有一两例的样本并不能说明什么问题?不可行的情况:只射过一箭,中了靶心,就声称自己是神箭手?可行的情况:AIDS还没有人真正治愈过,只要真的治愈一例,就足以扬名立万,这是因为以前的千万个未治愈病例在共同提供信息32应用相对数的注意事项?不宜采用构成比代替率?例1:英国科学家研究发现,数学家绝大部分都是长子,因此如果希望自己的孩子成为数学家,就重点培养家中的长子。?例

17、2:(地铁时代报新闻)清华大学今年的研究结果表明,黑车行驶在路上的事故率为50%以上,而粉色和白色车的事故率则最小。33应用相对数的注意事项?几个总率比较时要注意构成的差别,如果分母不同,不宜直接相加或者平均?例:中国汉族占了97%左右,蒙古国蒙古族占了100%,所以中国加上蒙古国,应当是蒙古族占总人数的50%多一点,汉族不到一半34应用相对数的注意事项?相对数进行比较时应注意可比性?影响率或构成比变化的因素很多,除了研究因素外,其余的影响因素应尽可能相同或相近,即在相同条件下比较才有意义?观察对象、研究方法、观察时间、地区和民族等因素应相同或相近。这些因素须在实验设计或资料分析阶段很好地控制

18、。?其它对观察结果有影响的因素在比较的各组内部构成是否相同。否则只比分组比较,或进行标准化35相对危险度(Relative Risk)?RR值是一个概率的比值,是指实验组人群反应阳性概率与对照组人群反应阳性概率的比值。?RR值用于反映实验因素与反应阳性的关联程度。取值范围从0到无限大。数值为1时,表明实验因素与反应阳性无关联;小于1时,表明实验因素导致反应阳性的发生率降低;大于1时,表明实验因素导致反应阳性的发生率增加/ttccPa nRRPc n=36优势比(Odds Ratio)?Odds:某事件发生率与不发生率之比。反映了两种结局出现的概率差异(优势)?OR:两种情况下的优势之比?由于优

19、势比是两个比值的比值,因此它不太好解释,而解释相对危险度则要容易得多,因此大多数情况下人们希望能够将优势比按照相对危险度的含义来解释。?当所关注的事件发生概率比较小时(0.1),优势比可作为相对危险度的近似。/a badORc dbc=7常见的概率分布常见的概率分布二项分布39基本概念?注意:两分类变量并非一定服从二项分布?Bernoulli试验?例:袋子里有5只乒乓球,2黄3白。每次摸1球,放回后再摸。?摸100次,摸到黄球的次数为?对每一次实验,出现的结果只有两种情况,称为Bernoulli试验。如所关心的事件A发生,称为“成功”,否则称为失败每次试验结果,只能是两个互斥的结果之一40基本

20、概念?Bernoulli试验序列?在重复实验中,如果对每一次实验,出现的结果只有两种情况,即Bernoulli试验。?每次试验的条件不变。即每次试验中,结果A发生的概率不变(假设均为pi)。?各次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。?由满足以上三个条件的n次Bernoulli试验构成的序列被称为是Bernoulli试验序列41基本概念?二项分布?对于Bernoulli试验序列的n次试验,结局A出现的次数X的概率分布服从二项分布?二项分布是次数X其各种取值的出现概率之分布?注意:二项分布是一个离散型分布X 的取值 0 1 k n 取值概率()0001)(nn()1111)

21、(nn ()knknk1)()nnnnn1)(其相应取值概率为 P(X=k)=()knknk1)(42二项分布的两个参数?显然对于不同的n、不同的pi有不同的二项分布。它们是二项分布的两个参数。?若X服从二项分布,则记XB(n,pi)。n=20,=0.5n5,=0.3 843二项分布的基本特征?二项分布的名称由来是因为计算公式中含有二项式的展开项?二项分布的均数和方差?=n*pi?方差=n*pi*(1-pi)()()()=1 1!)Pr(nnxnxnxxnx44二项分布的基本特征?当pi=0.5时,图形对称;当pi0.5时,图形呈偏态,但随n的增大,图形逐渐对称。?因此,当n较大,pi不太极端

22、时,可以采用正态近似方法计算概率分布规律(例如计算参考值范围)n=10 =0.3 n=30 =0.3 常见的概率分布Poisson分布46Poisson分布的概念?描述某罕见事件发生次数的概率?罕见事件:,n很大,而x很小,xn=0每个格子的大小恰好容纳一个细菌1L水细分格子数n 有限格子中有细菌0=47什么是Poisson分布?Poisson分布主要用于描述在单位时间(空间)中某种事件发生数的概率分布?放射性物质在单位时间内的放射次数?在单位容积充分摇匀的水中的细菌数?野外单位空间中的某种昆虫数?显然,Poisson分布也是一种离散型随机变量的分布48什么是Poisson分布?可以认为满足以

23、下三个条件的离散随机变量服从Poisson分布:?平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关?独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关)?普通性:在充分小的观察单位上X取值最多为1?实际上可以看作是在二项分布要求上更进了一步949什么是Poisson分布?Poisson分布的概率分布规律?X取值范围为非负整数,即0,1,;?其相应取值概率为?式中e:自然对数的底,e2.7182;是大于0的常数,被称为Poisson分布的参数。?X服从以lamda为参数的Poisson分布可记为XP(lamda)()=ekkXPk!50Poisson分布的特性?Po

24、isson分布的均数与方差?由Poisson分布计算概率公式可见Poisson分布只有一个参数。这个参数就是Poisson分布的总体均数。不同的总体均数对应于不同的Poisson分布?总体方差也等于此参数?这是Poisson分布的特性51Poisson分布的特性?Poisson分布的可加性?如果X 1,X 2,X k相互独立,且它们分别服从Poisson分布,则T=X 1+X 2+X k也服从Poisson分布,其参数为原各参数之和?正态分布与Poisson分布的关系?只取决于均数,均数很小时分布很偏,当均数增加时,逐渐趋于对称?当均数越来越大时,Poisson分布逐渐逼近于均数为,方差为的正

25、态分布。52 3 5 10 20 53Poisson分布的特性?Poisson分布与二项分布的关系?设X iB(pi,n),则当n且总阳性数C保持不变时,可以证明X i的极限分布是以C为参数的Poisson分布?由以上性质可得,当n很大,很小时,二项分布近似Poisson分布。当n很大时,二项分布概率的计算量相当大。因此可以利用二项分布的Poisson近似这一性质,当n很大且pi很小时,可以用Poisson分布概率计算替代二项分布的概率计算常见的概率分布正态分布1055概率分布与概率密度?对于离散变量而言,其可能的取值是有限的,相应总体中每个取值的出现概率也很好理解。但是对于连续型变量,实际上

26、其可能的取值结果是无限多的,如果考察每一个具体取值的出现概率,其大小均为0?为此我们需要引入概率密度的概念来表述其总体分布的概率特征56从频数分布到概率分布频率图00.010.020.030.040.050.060.0795.00100.00105.00110.00115.00120.00125.00130.00135.00140.0057从频数分布到概率分布?直方图频率图的性质?直条的面积实质上就是频率?面积=高度(频率/组距)宽度(组距)频率?所有直条面积相加等于1?当样本量越来越大,直条越分越细时,频率(面积)趋向概率。?并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲

27、线,这条曲线就是概率密度分布曲线58Fractionx 100105110 115 1200.02.04.60.0859从频数分布到概率分布?概率与概率密度?概率密度曲线下某一段的面积就是相应的累计概率?注意是面积而不是高度,所以当考虑某一取值的出现概率时,由于其直条宽度为0,面积(概率)也永远为0?其关系类似于速度与距离,或者密度与质量?概率密度曲线就是该连续型变量大量重复随机变异的规律60?概率分布规律的应用?身高大于110的概率?身高在105110之间的概率?身高在115以上的概率?身高等于110的概率?上述对称的概率分布曲线经过计算,发现正好对应于数学上的正态分布曲线,因此称这种情况为

28、变量服从正态分布n 100 105 1101150.02.04.60.08 1161正态分布?两个重要特征:均数和标准差?记为XN(,2)?是分布曲线的峰位置(集中趋势)?又被称为位置参数?大离散程度大、小离散程度小(离散趋势)?又被称为形状参数?正态分布的对称性62标准正态分布?均数为0,标准差为1的正态分布N(0,1)?其曲线下概率面积分布规律非常常用?95%99%?双侧1.962.58?单侧1.642.3363标准正态分布?标准正态分布N(0,1)与其他正态分布N(,2)的关系?如果XN(,2),则?标准正态分布的曲线下面积分布规律?因此,只要将相应的指标转换为服从标准正态分布,就可以根据该面积分布规律计算出累积概率)1,0(NXy=64标准正态分布应用实例?假定正常人的每分钟脉搏跳动次数服从正态分布,并且总体均数为72次/分,标准差为6。请问:?作为一个正常人脉搏跳动的次数低于60次/分的概率是多少??95的正常人脉搏跳动次数在什么范围内?65正态分布的应用价值?用来估计医学参考值?正态分布法与百分位数法?用于工业生产中的质量控制?是统计方法中许多重要统计分布的理论基础

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com