理论分布与抽样分布概述.pptx-得力文库

资源描述

《理论分布与抽样分布概述.pptx》由会员分享，可在线阅读，更多相关《理论分布与抽样分布概述.pptx（89页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、1第四章第四章理论分布与抽样分布理论分布与抽样分布为了便于理解统计分析的基本原理，正确掌握和应用统计分析方法，本章在介绍概率论中最基本的两个概念事件、概率的基础上，重点介绍科学研究中常用的几种随机变量的概率分布正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。 21.1 事件1.1.1 1.1.1 必然现象与随机现象必然现象与随机现象在自然界与生产实践和科学试验中，人们会观察到各种各样的现象，把它们归纳起来，大体上分为两大类： 1 1 事件与概率事件与概率l 必然现象：事前可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果总是确定的，必然发生的（或必然不发生）。

2、3l随机现象：事前不可预言其结果的，即在保持条件不变的情况下，重复进行试验，其结果未必相同（带有偶然性和不确定性）。有如下特点：在一定的条件实现时，有多种可能的结果发生，事前人们不能预言将出现哪种结果；对一次或少数几次观察或试验而言，其结果呈现偶然性、不确定性；但在相同条件下进行大量重复试验时，其试验结果却呈现出某种固有的、特定的规律性频率的稳定性，通常称之为随机现象的统计规律性。41.1.2 随机试验与随机事件（1）随机试验通常我们把根据某一研究目的，在一定条件下对自然现象所进行的观察或试验统称为试验（trial）。当一个试验如果满足下述三个特性，则称其为一个随机试验（random t

3、rial），简称试验。试验可以在相同条件下多次重复进行；每次试验的可能结果不止一个，并且事先知道会有哪些可能的结果；每次试验总是恰好出现这些可能结果中的一个，但在一次试验之前却不能肯定这次试验会出现哪一个结果。 5（2）随机事件随机试验的每一种可能结果，在一定条件下可能发生，也可能不发生，称为随机事件（random event），简称事件(event），通常用A、B、C 等来表示。 a 基本事件不能再分的事件（elementary event），也称为样本点（sample point）。 6 例如，从编号为1、2、3、10 的十个篮球中随机抽取1个篮球，有10种不同的可能结

4、果： “ 取得一个编号是 1” 、 “ 取得一个编号是2”、“取得一个编号是10”，这10个事件都是不可能再分的事件，它们都是基本事件。由若干个基本事件组合而成的事件称为复合事件（compound event）。如 “取得一个编号是 2的倍数”是一个复合事件，它由 “ 取得一个编号是2 ”、 “ 是4”、“是6、“是8”、“是10” 5 个基本事件组合而成。7b 必然事件在一定条件下必然会发生的事件（certain event），用表示。例如，一个大气压下，水加热到100C，水会沸腾；种瓜得瓜、种豆得豆。c 不可能事件在一定条件下不可能发生的事件（impossible

5、event），用表示。例如，在满足一定孵化条件下，从石头孵化出小鸡，就是一个不可能事件。必然事件与不可能事件实际上是确定性现象，它们不是随机事件，但是为了方便起见，我们把它们看作为两个特殊的随机事件。81.2.1 1.2.1 概率统计定义概率统计定义 u研究随机试验，仅知道可能发生哪些随机事件是不够的，还需了解各种随机事件发生的可能性大小，以揭示这些事件的内在的统计规律性，从而指导实践。u这就要求有一个能够刻划事件发生可能性大小的数量指标，这个指标应该是事件本身所固有的，且不随人的主观意志而改变，称之为概率（probability）。事件A 的概率记为P（A）。1.2 1.2 概概率率

6、9统计概率定义：统计概率定义：在相同条件下进行 n 次重复试验，如果随机事件A 发生的次数为 m ，那么 m/n 称为随机事件 A 的频率（frequency）；当试验重复数 n 逐渐增大时，随机事件 A 的频率越来越稳定地接近某一数值 p ，那么就把 p 称为随机事件 A 的概率。如此定义的概率称为统计概率（如此定义的概率称为统计概率（statistics probability），），或者称后验概率（或者称后验概率（posterior probability）。）。10例：为了确定抛掷一枚硬币出现正面朝上这个事件的概率，历史上有人作过成千上万次抛掷硬币的试验。下表列出了他们的试验记录

7、。u可看出，随着实验次数的增多，正面朝上这个事件发生的频率越来越稳定地接近0.5，我们就把0.5作为这个事件的概率。u在一般情况下，随机事件的概率p是不可能准确得到的。通常以试验次数 n 充分大时随机事件 A 的频率作为该随机事件概率的近似值。u 即 P（A）=pm/n （ n 充分大）111.2.2 1.2.2 概率的性质概率的性质（1）对于任何事件A，有0P（A）1；（2）必然事件的概率为1，即P（）=1；（3）不可能事件的概率为0，即P（）=0。122.1 2.1 随机变量随机变量 u描述随机事件的变量称为随机变量。u随机变量的取值在一次试验前不能确定，具有随机性。u做一次试验，其

8、结果有多种可能。每一种可能结果都可用一个数来表示，把这些数作为变量 x 的取值，则试验结果可用变量 x 来表示。【例】对10种品牌袋装奶粉进行质量检测，其可能结果是“0种合格”、 “1种合格”、“2种合格”、“”、“10种袋装奶粉都合格”。若用 x 表示袋装奶粉合格品牌数，则 x 的取值为0、1、2、10。2 2、概率分布、概率分布事件的概率表示一次试验某一个结果发生的可能性大小。必须知道随机试验的概率分布。13【例】食品加工中高温杀菌可能结果只有两种，即“全部杀死细菌”与“未能全部杀死细菌”。若用变量 x 表示试验的两种结果，则可令x =0表示“未能全部杀死细菌”，x =1表示“全部杀

9、死细菌”。【例】测定关中地区不同小麦品种的蛋白质含量，其蛋白质含量在9.3-13.5之间，如用 x 表示测定结果，那么 x 值可以是这个范围内的任何实数。14离散型随机变量：如果表示试验结果的变量x，其可能取值为可列个，且以各种确定的概率取这些不同的值 ( discrete random variable)；连续型随机变量：如果表示试验结果的变量x ，其可能取值为某范围内的任何数值，且x 在其取值范围内的任一区间中取值时，其概率是确定的 (continuous random variable)。试验结果和取此结果的概率可以一一列出。试验结果和取此结果的概率可以一一列出。不能列出试验结果

10、和取此结果的概率，只能给出一定范围不能列出试验结果和取此结果的概率，只能给出一定范围和在此范围内取值的概率。和在此范围内取值的概率。15u要了解离散型随机变量x的统计规律，就必须知道它的一切可能值xi及取每种可能值的概率pi。u离散型随机变量x的概率分布或分布，常用分布列 (distribution series)来表示：如果我们将离散型随机变量x的一切可能取值xi ( i=1, 2 , )，及其对应的概率pi，记作 P(x=xi)=pi i=1,2, (33)2.2 2.2 离散型随机变量的离散型随机变量的概率分布概率分布从分布列可以一目了然看出随机变量X的可能取值及取这些值的概率。离散

11、型随机变量的概率分布具有pi0和pi=1这两个基本性质。 100听罐头净重的次数分布听罐头净重的次数分布组限组限组中值（组中值（x)频率（频率（f）频率频率/组距组距329.5-33110.003333332.5-33410.003333335.5-33760.02338.5-340210.07341.5-343320.106667344.5-346230.076667347.5-349120.04350.5-35220.006667353.5-35510.003333356.5-35810.003333图为数据资料的频率分布直方图，图中纵座标取频率与组距的比值。如果样本取得越来越大(n

12、+)，组分得越来越细(i0)，某一范围内的频率将趋近于一个稳定值概率。这时，频率分布直方图各个直方上端中点的连线频率分布折线将逐渐趋向于一条曲线。频率分布密度曲线连续型随机变量 (如身高、体重等)的概率分布不能用分布列来表示，因为其可能取值是不可数的，不能一一列出。改用随机变量x在某个区间内取值的概率P(axb)来表示。2.3 2.3 连续型随机变量的概率分布连续型随机变量的概率分布 17 当n +、组距i 0时，频率分布折线的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况，这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差，完全反映了数据资料的变动规律。

13、这条曲线叫概率分布密度曲线，相应的函数叫概率分布密度函数，简称分布密度。18上式为连续型随机变量 x 在区间a,b上取值概率的表达式。连续型随机变量的概率由概率分布密度函数确定。 badxxf)( 若变量X概率分布密度函数记为f(x)，则x取值于区间a,b）的概率为图中阴影部分的面积，即 P(axb)=19连续型随机变量概率分布的性质：分布密度函数总是大于或等于0，即f(x)0；当随机变量x取某一特定值时，其概率等于0；即 (c为任意实数) 所以，对于连续型随机变量，仅研究其在某一个区间内取值的概率，而不去讨论取某一个值（点）的概率。ccdxxfcxP0)()(连续型随机变量某一点的

14、概率为连续型随机变量某一点的概率为0。20 随机变量x取值在 -x+范围内，所以1)()(dxxfxP上式表示分布密度曲线与横轴所围成的区间全部面积为1。badxxf)(P(axb)= 随机变量X取a，b）区间值的概率为：213 3 理论分布理论分布 3.1 3.1 二项分布二项分布 3.1.1 3.1.1 贝努利试验及其概率公式贝努利试验及其概率公式贝努利试验：对于n次独立的试验，如果每次试验结果出现且只出现对立事件 A 与之一，在每次试验中出现 A 的概率是常数p(0p2）（df1）86t t 分布密度曲线图分布密度曲线图87 （1）t 分布受自由度的制约，每一个自由度都有一

15、条t分布密度曲线。（2）t 分布密度曲线以纵轴为对称轴，左右对称，且在t0时，分布密度函数取得最大值。（3）与标准正态分布曲线相比，t 分布曲线顶部略低，两尾部稍高而平。df 越小这种趋势越明显。df 越大，t分布越趋近于标准正态分布。当n 30时，t分布与标准正态分布的区别很小；n 100时，t分布基本与标准正态分布相同；n时，t 分布与标准正态分布完全一致。t t分布的分布的特点特点88 t 分布的概率分布函数为：因而t 在区间（t1，+）取值的概率右尾概率为1-F t (df)。由于t分布左右对称，t在区间（-，-t1）取值的概率也为1-F t df)。于是 t 分布曲线下由 -

16、 - t 1和由t 1 + 两个相等的概率之和（两尾概率）为 2(1-F t (df)。对于不同自由度下t分布的两尾概率及其对应的临界t值已编制t分布表。 1)()(1)(tdftdttfttPF89 例如，当df=15时，查附表得两尾概率等于0.05的临界t 值为 = 2.131，其意义是： P(-t-2.131)= P(2.131t+) = 0.025； P(-t-2.131)+ P(2.131t+) = 0.05。由附表可知，当df一定时，概率P越大，临界t值越小；概率P越小，临界t值越大。当概率 P 一定时，随着df的增加，临界t值在减小，当df=时，临界t值与标准正态分布的临界u值相等。

展开阅读全文