概率与抽样分布精选PPT.ppt

上传人:石*** 文档编号:87294316 上传时间:2023-04-16 格式:PPT 页数:58 大小:1.13MB
返回 下载 相关 举报
概率与抽样分布精选PPT.ppt_第1页
第1页 / 共58页
概率与抽样分布精选PPT.ppt_第2页
第2页 / 共58页
点击查看更多>>
资源描述

《概率与抽样分布精选PPT.ppt》由会员分享,可在线阅读,更多相关《概率与抽样分布精选PPT.ppt(58页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、关于概率与抽样分布第1页,讲稿共58张,创作于星期二Section 3.1Random Variables随机变量第2页,讲稿共58张,创作于星期二 事件的实际发生率事件的实际发生率称为称为频率频率。设在相同条。设在相同条件下,独立重复进行件下,独立重复进行n n次试验,事件次试验,事件A A出现出现f f 次,次,则事件则事件A A出现的频率为出现的频率为f f/n n。概率概率:随机事件发生的可能性大小随机事件发生的可能性大小,用大,用大写的写的P P 表示;取值表示;取值00,11。一、频率与概率frequency and probability第3页,讲稿共58张,创作于星期二 1.样

2、本频率总是围绕概率上下波动 2.样本含量n越大,波动幅度越小,频率越接近概率。频率与概率的关系:调查株数调查株数(n)52550100200500100015002000受害株数受害株数(a)21215 33 72177 351 525 704棉株受害频棉株受害频率率(a/n)0.400.480.300.330.360.3540.3510.3500.352表表 在相同条件下盲在相同条件下盲蝽蝽象在某棉田危害程度的象在某棉田危害程度的调查结调查结果果一、频率与概率frequency and probability第4页,讲稿共58张,创作于星期二一、频率与概率frequency and prob

3、ability 小概率原理小概率原理 若事件若事件A发生的概率较小,如小于发生的概率较小,如小于0.05或或0.01,则认为事件,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的理,简称小概率原理。这里的0.05或或0.01称为小概率标准,农业试验称为小概率标准,农业试验研究中通常使用这两个小概率标准。研究中通常使用这两个小概率标准。第5页,讲稿共58张,创作于星期二二、随机变量用以记录随机试验结果(outcome)的变量,称为随机变量(random variable),用大写英文字母X,Y

4、等代表。随机变量X的概率分布,表达 X 的可能取值和取这些值的概率规则。第6页,讲稿共58张,创作于星期二离散型和连续型随机变量随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量(discrete random variable)。0,1,9。20次实验中成功的次数,二项式分布。随机变量的可能取值是某一实数的区间,如“大于0”或“-22之间”等,称为连续型随机变量(continuous random variable)。正态随机变量二、随机变量第7页,讲稿共58张,创作于星期二三、离散型随机变量的概率分布X=xix1,x2,xnP(X=xi)=pip1,p2,pn列出离散型

5、随机变量X的所有可能取值列出随机变量取这些值的概率通常用下面的表格来表示P(X=xi)=pi称为离散型随机变量的概率函数第8页,讲稿共58张,创作于星期二四、连续型随机变量的概率密度若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲线显示。直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(density curve)。第9页,讲稿共58张,创作于星期二概率密度曲线第10页,讲稿共58张,创作于星期二密度曲线的性质曲线都在水平线上(密度函数=0)。曲线下所涵盖的全部面积正好为1(所有可能性为1)。曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)。密度曲线可视为

6、是观察变量的理论分布图形。四、连续型随机变量的概率密度第11页,讲稿共58张,创作于星期二随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和描述随机变量取值的集中程度计算公式为五、随机变量的数学期望第12页,讲稿共58张,创作于星期二随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)描述离散型随机变量取值的分散程度计算公式为六、随机变量的方差第13页,讲稿共58张,创作于星期二Section 3.2The Binomial Distributions二项分布第14页,讲稿共58张,创作于星期二一、二项分布设定The Binomial Setting固

7、定的观察次数 n。n 次的观察都独立,每次的观察都不会对其他观察提供任何信息。每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。每次的观察“成功”的概率都一样,设定为 p。第15页,讲稿共58张,创作于星期二二、二项分布Binomial Distribution满足二项分布设定的试验,以 X 记录 n次观察中“成功”的次数,则称 X 的分布为参数为 n 与 p 的二项分布(binomial),记为B(n,p)。X 的所有可能取值为0,1,n。对应的概率函数为 P(X=x)=P(x)。第16页,讲稿共58张,创作于星期二 例例1 某种昆虫在某地区的死亡率为某种昆虫在某地区的死亡率为

8、40%,即,即p=0.4,现对这种,现对这种害虫用一种新药进行治疗试验,每次抽样害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问头作为一组治疗。试问如新药无疗效,则在如新药无疗效,则在10头中死头中死3头、头、2头、头、1头,以及全部愈好头,以及全部愈好的概率为多少?的概率为多少?按上述二项分布概率函数式计算按上述二项分布概率函数式计算 7头愈好,头愈好,3头死去概率:头死去概率:8头愈好,头愈好,2头死去概率:头死去概率:9头愈好,头愈好,1头死去概率:头死去概率:10头全部愈好的概率:头全部愈好的概率:三、示例第17页,讲稿共58张,创作于星期二 若问若问10头中不超过头中不超

9、过2头死去的概率为多少?则应该应用累头死去的概率为多少?则应该应用累积函数,即积函数,即三、示例第18页,讲稿共58张,创作于星期二四、二项分布的期望值与标准差期望值:E(X)=np方差:Var(X)=np(1-p)标准差:第19页,讲稿共58张,创作于星期二Section 3.3Normal Distributions正态分布第20页,讲稿共58张,创作于星期二一、特点正态曲线所有正态曲线都有相同的外型n具有对称、单峰及钟形的特性。正态曲线所代表的分布即为正态分布(normal distribution)每一正态分布都有其平均值 与标准差第21页,讲稿共58张,创作于星期二ms一、特点第22

10、页,讲稿共58张,创作于星期二正态曲线较大ms一、特点第23页,讲稿共58张,创作于星期二正态曲线的拐点拐点落在一个处拐点落在-处一、特点第24页,讲稿共58张,创作于星期二二、为什么这么重要Good descriptions for some distributions of real data身高,体重,考试成绩Good approximations to the results of many kinds of chance outcomesTossing a coin many timesMany statistical inference procedures are based o

11、n normal distributions第25页,讲稿共58张,创作于星期二三、68-95-99.7规则正态分布有其特定的数据分布规则:平均值为,标准差为 的正态分布68%的观察资料落在m 的 1 之内95%的观察资料落在m 的 2 之内99.7%的观察资料落在m 的 3 之内第26页,讲稿共58张,创作于星期二0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68%的资料95%的资料99.7%的资料三、68-95-99.7规则第27页,讲稿共58张,创作于星期二四、变量标准化(Standardization)令观察值 x 服从平均值为,标准差为 的分布,则 x 的标准化值

12、(standardized value)定义为标准化值又称为 z-值(z-score)。第28页,讲稿共58张,创作于星期二标准化变量可以证明z的平均值为0z的标准差为1四、变量标准化(Standardization)第29页,讲稿共58张,创作于星期二五、标准正态分布变量 X 服从平均值为 ,标准差为 的正态分布,简记为 X N(,2)。X 经过标准化后为 Z(=(X-)/s),则 Z 也服从正态分布,并且平均值为 0,标准差为 1,即Z N(0,1)。我们称 Z 服从标准正态(standard normal)。第30页,讲稿共58张,创作于星期二六、标准正态表z表列数字是z左边的面积z=-

13、0.44z左边的面积为0.33-0.440.33第31页,讲稿共58张,创作于星期二z表列数字是z左边的面积z=0.44z左边的面积为0.67六、标准正态表第32页,讲稿共58张,创作于星期二七、双侧临界值在标准正态曲线图下,右方与 左方的面积和为 a,则称 为标准正态分布概率为 a 的双侧临界值。可查表。m=0面积为a/2面积为a/2第33页,讲稿共58张,创作于星期二八、单侧临界值在标准正态曲线图下,右方的面积为 a,则称 为标准正态分布概率为 a 的单侧临界值。可查表。m=0面积为a第34页,讲稿共58张,创作于星期二 例例2 假定假定y是一随机变数具有正态分布,平均数是一随机变数具有正

14、态分布,平均数 =30,标准差,标准差 =5,试计算小于,试计算小于26,小于,小于40的概率,介乎的概率,介乎26和和40区间的概率以及大于区间的概率以及大于40的概率。的概率。首先计算:首先计算:先将先将x转换为转换为u值值 九、计算第35页,讲稿共58张,创作于星期二同理可得:同理可得:FN(40)=0.9773 所以:所以:P(26x40)=FN(40)FN(26)=0.97730.2119 =0.7654 P(x40)=1P(x40)=10.9773 =0.0227 查附表,当查附表,当u=0.8时,时,FN(26)=0.2119,说明这一分布从,说明这一分布从到到26范围内的变量数

15、占全部变量数的范围内的变量数占全部变量数的21.19%,或者说,或者说,x26概率为概率为0.2119.九、计算第36页,讲稿共58张,创作于星期二 例例3 在应用正态分布时,经常要讨论随机变数在应用正态分布时,经常要讨论随机变数x离其平离其平均数的差数大于或小于若干个值的概率。例如计算离均差均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于绝对值等于小于和等于大于1 的概率为:的概率为:也可以简写为也可以简写为 九、计算第37页,讲稿共58张,创作于星期二 相应地,离均差绝对值等于小于相应地,离均差绝对值等于小于2 、等于大于、等于大于2 、等于小于、等于小于3 和和

16、等于大于等于大于3 的概率值为:的概率值为:九、计算第38页,讲稿共58张,创作于星期二 例例4 计算正态分布曲线的中间概率为计算正态分布曲线的中间概率为0.99时,其时,其y或或u值值应等于多少?应等于多少?因为正态分布是对称的,故在曲线左边从因为正态分布是对称的,故在曲线左边从到到 u的概的概率和在曲线右边从率和在曲线右边从u到到的概率都应等于的概率都应等于1/2(10.99)=0.005。查表,查表,u=2.58时,时,fN(x)=0.004940.005。于是知,当于是知,当 2.58时,在其范围内包括时,在其范围内包括99%的变量,的变量,仅有仅有1%变量在此范围之外。上述结果写作:

17、变量在此范围之外。上述结果写作:九、计算第39页,讲稿共58张,创作于星期二同理可求得:同理可求得:九、计算第40页,讲稿共58张,创作于星期二同理,同理,亦可写成:亦可写成:以上以上 乃正态曲线下左边一尾乃正态曲线下左边一尾x从从到到 上的面积和右边一尾上的面积和右边一尾y从从 到到上的面积之和,亦可写成:上的面积之和,亦可写成:九、计算第41页,讲稿共58张,创作于星期二Section 3.4Sampling Distributions抽样分布第42页,讲稿共58张,创作于星期二一、总体与样本 population and sample总体总体:根据研究目的:根据研究目的确定的确定的同质同

18、质研究对象研究对象的的全体全体(集合)。分有(集合)。分有限总体与无限总体限总体与无限总体样本样本:从总体中随机抽:从总体中随机抽取的部分研究对象取的部分研究对象 第43页,讲稿共58张,创作于星期二二、总体容量与样本容量population size and sample size总体容量(总体容量(N):总体:总体中所包含的个体数目。中所包含的个体数目。根据根据N大小,总体分大小,总体分有有限总体限总体和和无限总体无限总体样本样本(n):从总体中随机:从总体中随机抽取的部分研究对象抽取的部分研究对象 第44页,讲稿共58张,创作于星期二三、随机抽样 random sampling为了保证样

19、本的为了保证样本的可靠性可靠性和和代表性代表性,需要采用随,需要采用随机的方法抽取样本(在机的方法抽取样本(在总体中每个个体具有总体中每个个体具有相相同的机会同的机会被抽到)。被抽到)。第45页,讲稿共58张,创作于星期二四、参数与统计量parameter and statistic参数参数:总体总体的统计指标,如的统计指标,如总体均数、标准差,采用总体均数、标准差,采用希腊字母分别记为希腊字母分别记为、。固定的常数固定的常数 总体总体样样本本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参 数数 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,

20、采用英文字母分的统计指标,如样本均数、标准差,采用英文字母分别记为别记为 。参数附近波动的随机变量参数附近波动的随机变量。第46页,讲稿共58张,创作于星期二五、总体均值、方差与标准差总体均值总体方差总体标准差第47页,讲稿共58张,创作于星期二六、样本均值、方差与标准差总体均值总体方差总体标准差第48页,讲稿共58张,创作于星期二七、样本的概率分布统计量(为样本的函数),亦为随机变量,其概率分布称为抽样分布(sampling distribution)。一般统计量的抽样分布,则多根据重复抽样(实验)结果来了解其概率分布。的抽样分布大数法则,中心极限定理第49页,讲稿共58张,创作于星期二八、

21、大数法则由具有有限(finite)平均数 m 的总体随机抽样,随着样本容量的增加,样本平均数 越接近总体的均数 m。样本平均数的这种行为称为大数法则(law of large numbers)。第50页,讲稿共58张,创作于星期二以 代表样本容量为 n 的资料平均数,逐渐增加样本容量,将 n 及对应的 图示如后。八、大数法则第51页,讲稿共58张,创作于星期二Number of observations,n前 n个样本的均数2223242526272829303132331510501005001000500010000八、大数法则第52页,讲稿共58张,创作于星期二九、样本平均数的均数与标准

22、差令 为样本容量为 n 的一组SRS的平均数,其总体平均数为 m 与标准差为 s。则 的分布平均数为 m 与标准差为 。因为 的分布平均数也是 m,故 又称为 m 的不偏估计。样本容量越大,则样本平均数 的变异越小。第53页,讲稿共58张,创作于星期二十、正态的样本平均数的分布若总体服从正态 N(m,s2),则SRS的平均数 也服从正态 N(m,)。第54页,讲稿共58张,创作于星期二十一、中心极限定理(CLT)若总体平均数为 m、标准差为 s,当样本容量够大时,则SRS的平均数 的分布近似正态 N(m,)。我们称之为中心极限定理(Central Limit Theorem)。总体与正态分布差

23、越多,则样本容量要越大。样本容量越大,SRS的平均数 的分布越近似正态 。第55页,讲稿共58张,创作于星期二 例例5 在江苏沛县调查在江苏沛县调查336个个m2小地老虎虫危害情况的结果,小地老虎虫危害情况的结果,=4.73头,头,=2.63,试问样本容量,试问样本容量n=30时,由于随机抽样得到样本平时,由于随机抽样得到样本平均数均数 等于或小于等于或小于4.37的概率为多少?的概率为多少?十一、中心极限定理(CLT)第56页,讲稿共58张,创作于星期二 查附表查附表,P(u0.36)=0.2266,即概率为,即概率为22.66%(属一尾概属一尾概率率)。因所得概率较大,说明差数。因所得概率较大,说明差数0.36是随机误差,从而证明这是随机误差,从而证明这样本平均数样本平均数4.37是有代表性的,变异系数为:是有代表性的,变异系数为:十一、中心极限定理(CLT)第57页,讲稿共58张,创作于星期二感感谢谢大大家家观观看看第58页,讲稿共58张,创作于星期二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com