统计与概率分布基础.ppt

上传人:wuy****n92 文档编号:54707113 上传时间:2022-10-29 格式:PPT 页数:63 大小:984KB
返回 下载 相关 举报
统计与概率分布基础.ppt_第1页
第1页 / 共63页
统计与概率分布基础.ppt_第2页
第2页 / 共63页
点击查看更多>>
资源描述

《统计与概率分布基础.ppt》由会员分享,可在线阅读,更多相关《统计与概率分布基础.ppt(63页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、2004绿带先行课程培训绿带先行课程培训统计与概率分布统计与概率分布基础基础2004绿带先行课程培训“有三种类型的谎言:谎言、该死的谎言和统计数字有三种类型的谎言:谎言、该死的谎言和统计数字。”-马克吐温马克吐温统计是工具。和其他工具一样,错误使用统计也会引起误解、歪曲或错误的结论。统计是工具。和其他工具一样,错误使用统计也会引起误解、歪曲或错误的结论。只会计算是不够的,我们必须能对计算做出正确的解释。统计学统计学“统计是从数据中交流信息。统计是从数据中交流信息。”-Schilling2004绿带先行课程培训最重要的分析工具绘出数据绘出数据坚持 坚持 坚持 再坚持“只通过看就能有惊人的发现”-

2、Yogi Berra2004绿带先行课程培训弹弓发射60次的点图84 85 86 87 88 89 9078 79 80 81 82 8377点图能使实验者迅速了解:大体位置 观测值的范围2004绿带先行课程培训直方图直方图弹弓发射60次的直方图直方图是一组测量值的直观显示直方图是一组测量值的直观显示直方图表明:大体位置范围 数据分布的一般形状 2004绿带先行课程培训观察弹弓发射600次由于样本变差,频率图中凹凸部分逐渐消失。如果可以绘出所有的弹弓发射结果,结果又将如何?随着观察数量的增加随着观察数量的增加2004绿带先行课程培训想象直方图的分组组段越来越小,直到形成连续分布。弹弓发射结果的

3、理论母群体2004绿带先行课程培训样本统计量 估算 总体参数总体总体总体参数总体参数一组假设的N个观察值,从中取得样本。(N通常为无穷大)m =总体均值s2=总体方差s =总体标准差SAMPLE样本统计量样本统计量样本为一组实际的n个观察值,而统计量则是描述样本的数值。X =样本均值s2 =样本方差s =样本标准差样本样本母群体母群体样本样本(子集子集)2004绿带先行课程培训居中趋势的居中趋势的计量计量 均值均值:一组数值的算术平均值反映所有数值的影响受极值影响很大你希望你的收入为均值还是中位数?中位数中位数:反映数列的一半从小到大排列的一组数的中间数值。计算时不包含所有数值几乎不受数列中极

4、大值或极小值的影响在过程改进中,为什么采用均值,而不是中位数?在过程改进中,为什么采用均值,而不是中位数?2004绿带先行课程培训基本统计术语作用总体统计量样本统计量名称符号名称符号表示分布位置总体平均值样本平均值样本中位数表示分布形状和范围总体方差样本方差总体标准差样本标准差样本极差2004绿带先行课程培训样本均值样本均值均值均值=平均值平均值例:涂层平均重量=4击球表现:0,0,1,0,1 (0=未击中,1=击中)击球表现平均值=0+0+1+0+1 5对于离散函数S y 意思是“把所有Y值相加”2004绿带先行课程培训样本中位数样本中位数假设x1,x2,xn 是组升序数列样本,则:X=中间

5、数值(如果n是奇数)两中间数值的平均值(如果n是偶数)找出下面两组数据的均值和中位数:X:第一组数据:10,12,11,14,11,13,12,14,16,13X=X=Y:第二组数据:10,12,11,14,11,13,12,14,44,13Y=Y=2004绿带先行课程培训均值与中位数的关系均值与中位数的关系11 0100908 070605 040302 0100500正态频率均值均值,中位数中位数8 07 0605 04 03 0201 003002001000负偏态 均值均值中位数中位数对称的 y=y左偏 y y末端在右侧频率频率2004绿带先行课程培训X公司每年要新招8个工程师。今年新

6、招人员中,有4人起薪20,000美元,2人起薪30,000 美元,另外2人为专家,薪金为120,000美元!X公司印发了招聘手册,宣传他们为新员工提供富有竞争力的优厚薪金。“我公司为本科毕业生开出的平均起薪近我公司为本科毕业生开出的平均起薪近50,000美元!来吧,加入我们!美元!来吧,加入我们!”一个数字绝不足以说明一组数据。2004绿带先行课程培训散布的计量散布的计量极差=最大值-最小值12345X12345Y12345ZRx=Ry=Rz=2004绿带先行课程培训变差的计量变差的计量计算时每个数据都要用到。方差是数据值与其均值离差平方和的平均数。方差的平方根,可以反映数据与均值的标准间隔标

7、准间隔。方差方差:(s2的估计值)2004绿带先行课程培训sx2=sy2=sz2=练习练习计算下表中三组数据的方差和标准差。2004绿带先行课程培训标准差标准差偏差偏差是指测定值与测定平均值之差。偏差值偏差值=观察值-真实均值方差方差=偏差值平方和的均值或平均数 表示方差的符号标准差标准差=方差的平方根 表标准差的符号标准差是变化程度的计量。标准差是变化程度的计量。m m=总体均值总体均值i i偏差(偏离均值的大小)偏差(偏离均值的大小)s s2 2s s 2004绿带先行课程培训总体与样本总体与样本总体均值总体均值样本均值样本均值总体标准差总体标准差样本标准差样本标准差2004绿带先行课程培

8、训 如果我们要选取3个样本(n=3),样本均值为10。那么,在选择可以组成样本的3个数时,我们有几种“自由”选择?如果已知X1=8,X2=10,则X3 应为多少?X3的选择受前两个数据与均值的限制。因此,自由度为2而不是3,或者说等于n-1。自由度自由度自由度自由度=n-1 2004绿带先行课程培训Population总体总体SAMPLE样本样本总体参数总体参数m =84s2=9s =3样本统计量样本统计量约等于约等于总体参数。总体参数。样本统计量样本统计量X =84.6s2 =8.27s =2.7_2004绿带先行课程培训方差的加法性质方差的加法性质两自变量自变量之和或差的方差之和或差的方差

9、等于各自方差之和。注:如y1和y2不是自变量,则必须包括协方差。s s2 21s s2 22=变量变量1的方差的方差=变量变量2的方差的方差则则变差是可以相加的变差是可以相加的2004绿带先行课程培训准度描述的是居中精度描述的是散布准度与精度准度与精度准度、精度准度、精度2004绿带先行课程培训准度准度xxxxxxxxx准度准度上图所示的测量上图所示的测量平均值平均值偏离了真值吗?偏离了真值吗?2004绿带先行课程培训精度精度xxxxxxxxxx精度精度 上图所示的测量值散布为多少?上图所示的测量值散布为多少?2004绿带先行课程培训标准差与公差带的关系标准差与公差带的关系标准差越小,变差量就

10、越小。变差是我们的敌人!标准差越小,变差量就越小。变差是我们的敌人!标准差标准差=.04标准差标准差=.41公差带之外公差带之外所有点都在公差带内所有点都在公差带内如果我们把源于顾客的公差带分别置于标准差不相同的两个分布顶部下公差带LSL上公差带USL2004绿带先行课程培训DPM随标准差的增大而增大第一种分布第一种分布第二种分布第二种分布第三种分布第三种分布下公差带下公差带上公差带上公差带缺陷缺陷DPM=每百万单位缺陷数每百万单位缺陷数 =观测值在公差带外的比例 x 1,000,000 DPM2004绿带先行课程培训现实中的现实中的DPMDPM数据数据数据是关于阴极电阻。根据过程标准差以及所

11、需的过程公差带,测得以下DPM:1.751.7 01.6 51.6 01.5 51.5 01.451.4 0Upper SpecLower SpecRESI STANCE-OHMS9116 Cat hode Resi st ance下公差带DPM为 256,000.上公差带DPM为104,000.每百万有每百万有360,000个个 缺陷缺陷!查明并纠正变化的根源是提高质量的关键。查明并纠正变化的根源是提高质量的关键。2004绿带先行课程培训可能性可能性(韦伯斯特)韦伯斯特)自变量的概率用自变量的概率用0和和1之间的实数表示,说明某种结果出现的可能性。之间的实数表示,说明某种结果出现的可能性。对

12、于骰子对于骰子P(6点朝上的概率点朝上的概率)=1/6=0.1666对于硬币对于硬币P(正面朝上的概率正面朝上的概率)=1/2=0.50对于击球对于击球 P(击中的概率击中的概率)=#击中次数击中次数/#上场击球次数上场击球次数0.300 (10中中3次次)所有概率之和都等于所有概率之和都等于1。2004绿带先行课程培训弹弓发射的概率密度函数 1.Yy1的概率等于直方图y1右侧部分的面积。y1YRow Statistics(计算行统计量)接着,各组根据表单上的平均值画出直方图直方图。GraphHistogram(图表直方图)检查数据是否为正态分布。StatBasic Statistics No

13、rmality Test(统计基本统计量 正态测试)讨论讨论六个直方图之间有何不同?分析非正态总体时,你愿意使用哪组数据?2004绿带先行课程培训中心极限定理中心极限定理n=计算均值xbar时使用的样本数量总体分布xn=2xxn=6X的抽样分布xn=25总体分布xn=2xX的抽样分布xn=25xn=62004绿带先行课程培训中心极限定理中心极限定理 定定义义中心极限定理中心极限定理(CLT)提出,即使原始总体原始总体为非正态分布,样本均值样本均值即m 的估计值的分布分布也近似于正态分布正态分布。该分布的均值和标准差是多少?该分布的均值和标准差是多少?“平均值平均值”的分布为正态分布的分布为正态

14、分布2004绿带先行课程培训1.抽样均值等于总体均值均值等于总体均值m。2.抽样方差小于总体方差。方差小于总体方差。3.若母体为正态分布,均值抽样也为正态分布;若母体为非正态分布,且抽样数量等于或大于 30,则近似于正态分布。从总体中抽取的若干组样本(每组样本数量为n、均值为m m、标准差为s s)的均值抽样分布(Xbar)具有以下特征:均值的抽样分布均值的抽样分布2004绿带先行课程培训特性数据还是变量数据?统计工具类型数据类型2004绿带先行课程培训数据类型特性数据(定性数据)类别是、否进行、不进行机器1,机器2,机器3通过/不通过合格/有缺陷设备维护不当、纤维断裂、种子数量、缺陷数量变量

15、数据(定量数据)连续数据小数位表明数字之间的绝对差。时间、压力、排列、直径 离散数据不能被分为更精确的有意义增量。2004绿带先行课程培训如果抛硬币如果抛硬币10次,你认为有几次会正面朝上?次,你认为有几次会正面朝上?0123456789100.000.050.100.150.200.25正面朝上的次数概率之和抛10次,正面朝上的概率我们能从什么样的分布得到这样的信息?我们能从什么样的分布得到这样的信息?2004绿带先行课程培训二项分布二项分布用于每次试验结果只有两种可能的情况重复试验 好/坏 有缺陷/无缺陷 成功/失败二项式系数参数参数n=试验次数p=成功概率(0 p=6)=.025练习练习

16、2004绿带先行课程培训泊松分布泊松分布 n大、p小时,泊松分布泊松分布用作二项分布的近似分布。参数参数n=试验次数p=成功概率(0 p 1)假设:假设:n大、p小1.or或2.2004绿带先行课程培训泊松分布实例泊松分布实例已知某开关生产线缺陷率为5%。用下面两种分布确定生产100个开关中有2个缺陷的概率:1.二项分布2.泊松分布(近似于二项分布)1.二项分布中各参数分别为:x=2,n=100,p=.05=0.0812.用泊松分布关系式,输入各参数:x=2,l=100*0.05=5。得:=0.0842004绿带先行课程培训小结小结居中的计量居中的计量散布的计量散布的计量=S xi/Ni=1N

17、 =X1+X2+.XN N中间数值(如果n是奇数)两中间数值的平均值(如果n是偶数)X均值均值:m m中位数中位数:X 极差极差:R R=最大值 最小值样本方差样本方差:s2=s s2样本标准差样本标准差:s=s sns =s2=(X)n-1i2i=1-X2n-1s =s=(X)i2i=1n-X X_2004绿带先行课程培训准度 精度准度精度小结小结2004绿带先行课程培训 连续分布连续分布正态分布正态分布范围范围正态曲线下的面积比正态曲线下的面积比m-3s 和and m+3s之间m-2s 和and m+2s之间95m-1s 和and m+1s之间68小结小结2004绿带先行课程培训 离散分布离散分布泊松分布泊松分布假定:假定:n大、p小1.or或2.小结小结n=试验次数p=成功的概率预测 产品失败率优质产品优质产品与劣质产品劣质产品 参数参数二项分布二项分布

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com