试验设计与分析园艺第二章理论分布与抽样分布.ppt

上传人:wuy****n92 文档编号:91088325 上传时间:2023-05-21 格式:PPT 页数:88 大小:1,017KB
返回 下载 相关 举报
试验设计与分析园艺第二章理论分布与抽样分布.ppt_第1页
第1页 / 共88页
试验设计与分析园艺第二章理论分布与抽样分布.ppt_第2页
第2页 / 共88页
点击查看更多>>
资源描述

《试验设计与分析园艺第二章理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《试验设计与分析园艺第二章理论分布与抽样分布.ppt(88页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第二章 理论分布与抽样分布 n 第一节 试验数据资料的整理与描述 n 第二节 二项分布 n 第三节 正态分布 n 第四节 抽样分布 第一节 试验数据资料的整理与描述一、相关统计学术语二、试验数据资料的性质 三、次数分布表与分布图 四、数量资料的特征数一、相关统计学术语1 数据与变量数据:组成样本的每种性状的观察值的集合,也称资料变量:构成数据的每一个观察值2 参数与统计数参数:由总体的全部变量计算所得到的总体某一特征数,用希腊字母表示,如表示总体平均数,表示总体标准差 统计数:由样本的全部变量计算所得到的样本某一特征数,用拉丁字母表示,如 表示样本平均数,s 表示样本标准差 二、试验数据资料的

2、性质 1 数量性状资料(quantitative trait)指可以通过一定的度量方式而用数字描述的性状,其度量有计数和量测两种方式,其所得的变量不同(1)不连续性或间断性变量:指用计数方法获得的资料,如出苗数、叶片数等,其各个观察值必须以整数表示,不允许有带小数点的数值存在。(2)连续性变量:指用称量、度量或测量方法得到的数据,如千粒重等,其各个观察值并不限于整数,小数位数的多少,因称量的精度而异 二、试验数据资料的性质 2 质量性状资料(qualitative trait)指只能观察叙述而不能测量的性状,即属性性状如果实的色泽、叶色、叶片上毛茸的有无等 要获得这些性状的数量资料,可采用下列

3、 3 种方法 三、次数分布表与分布图 1 不连续性数量性状变量资料的整理 采用单项式分组法进行整理特点:用样本变量自然值进行分组,每组均用一个或几个观察值来表示。分组时,可将数据资料中每个观察值分别归入相应的组内,然后制成次数分布表。(1)如果观察值个数较少,或变异幅度较小,就以每一个变量为一组进行整理。(2)如果观察值个数较多,或变异幅度较大,就以相邻的几个变量为一组进行整理。三、次数分布表与分布图第11页,例1-2-1,100个麦穗的每穗小穗数18 15 17 19 16 15 20 18 19 1717 18 17 16 18 20 19 17 16 1817 16 17 19 18 1

4、8 17 17 17 1818 15 16 18 18 18 17 20 19 1817 19 15 17 17 17 16 17 18 1817 19 19 17 19 17 18 16 18 1717 19 16 16 17 17 17 15 17 1618 19 18 18 19 19 20 17 16 1918 17 18 20 19 16 18 19 17 1615 16 18 17 18 17 17 16 19 17三、次数分布表与分布图每穗小穗数(y)次数(f)频次(f/y)15 6 0.0616 15 0.1517 32 0.3218 25 0.2519 17 0.1720 5

5、 0.05合计 100 1100个麦穗每穗小穗数的次数分布表(图)频率小穗数三、次数分布表与分布图2 连续性数量性状变量资料的整理 类似于不连续性变量资料的第2种情况(第12页例1-2-2)1.83 1.77 1.81 1.81 1.80 1.79 1.82 1.82 1.81 1.81 1.871.78 1.80 1.81 1.87 1.81 1.77 1.78 1.77 1.78 1.77 1.771.71 1.95 1.78 1.81 1.79 1.80 1.77 1.76 1.82 1.80 1.821.79 1.90 1.82 1.79 1.82 1.79 1.86 1.76 1.7

6、8 1.83 1.751.78 1.73 1.83 1.81 1.81 1.83 1.89 1.81 1.86 1.82 1.821.84 1.84 1.84 1.81 1.81 1.74 1.78 1.78 1.80 1.74 1.781.79 1.85 1.75 1.71 1.71 1.88 1.82 1.76 1.85 1.73 1.781.79 1.77 1.78 1.87 1.87 1.83 1.65 1.64 1.78 1.75 1.821.80 1.77 1.81 1.83 1.83 1.90 1.80 1.85 1.81 1.77 1.781.84 1.85 1.84 1.85

7、 1.85 1.84 1.82 1.85 1.84 1.78 1.78120个黄瓜叶片中叶绿素a含量的测定值三、次数分布表与分布图2 连续性数量性状变量资料的整理(1)求极差极差:所有数据中最大观察值与最小观察值的差值,也称全距。表示整个样本的变异幅度。用R表示。R=()mg/g鲜重=0.31 mg/g鲜重(2)确定组数组数要根据样本的容量、全距、便于计算、能反映资料的真实面貌等因素来确定。样本容量 分组数30-60 5-860-100 7-10100-200 9-15200-500 12-18500以上 15-30三、次数分布表与分布图2 连续性数量性状变量资料的整理(3)计算组距组距:每组

8、内的上下限范围。分组时要求各组的距离相同,即各组是等组距的。组距=极差/组数=0.31/15 mg/g鲜重0.02mg/g鲜重三、次数分布表与分布图2 连续性数量性状变量资料的整理(4)确定组限与组中值组限:每组观察值的界限。包括上限和下限。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不至于含糊不清。为了把资料中最小和最大的观察值包括在内,最小一组的下限必须小于最小观察值,最大一组的上限必须大于最大观察值。组中值:每组下限和上限的中间值。为了避免第一组中观察值数过多,一般第一组的组中值最好接近或等于资料中的最小值。组中值=(下限+上限)/2=下限+1/2组距=上限-1/2组

9、距 三、次数分布表与分布图 2 连续性变量资料的整理 频率叶绿素a含量(mg/g鲜重)三、次数分布表与分布图属性分组 次 数频率有色非糯 491 0.6608有色糯性 76 0.1023无色非糯 90 0.1211无色糯性 86 0.1158合 计 743 13 质量性状变量资料的整理 整理前,把资料按各种质量性状进行分类,分类数等于组数,根据各个观察值在质量属性上的具体表现,归入相应的组内,即可得到属性分布的规律性认识。第14页 例1-2-3,水稻杂种F2代植株米粒性状的分离情况 四、数量资料的特征数120个黄瓜叶片中叶绿素a含量的次数分布图 集中性离散性变异数平均数(一)平均数1.平均数的

10、意义l 数据资料的代表值,表示全部观察值的中心位置,代表该组数据与其他数据进行比较2.平均数的种类 l 算术平均数:l 几何平均数:l 中位数:大小居中的观察值(Md)l 众数:次数最多的观察值(M0)(一)平均数3.算术平均数的性质l 离均差之和为零,即各观察值与其平均数之差的总和等于零(一)平均数3.算术平均数的性质l 离均差平方和最小,即各观察值与其平均数的差数的平方的总和,小于各观察值与任何一个数值的差数的平方的总和(二)变异数1.引入变异数的意义l 平均数作为数据资料的代表,其代表性的强弱由各观察值变异程度的大小决定 A 组 10;8;10;11;11B 组 2;18;8;15;7

11、l 使用平均数描述数据资料是不够的,还需要引进一个表示变异程度的统计数,即变异数l 常用的有极差、方差、标准差和变异系数(二)变异数2.极差l 定义:又称全距(R),最大和最小观察值的差值 l 缺点:由观察值中两个极端值决定,不能反映全部观察值的信息,而且容易受资料中不正常极端值的影响l 优点:快速简单A 组 10;8;10;11;11 R=3B 组 2;18;15;8;7 R=16C 组 2;18;10;10;10 R=16(二)变异数3.方差l 离均差:可以反映全部观察值的变异情况,但 A 组 8;8;12;12B 组 8;12l 平方和:各个离均差的平方的总和(二)变异数3.方差l 方差

12、:用观察值数目来除平方和 为什么用n-1,而不用n?l 总体方差:l 样本方差:(二)变异数 估计l n-1称为自由度(df)l 多数情况下:l 这样,用样本SS代替总体SS就会使2值偏小,为了校正,分母使用较小的n-1而不是nl 当n30时,分母必须使用n-1,当n30时,n和n-1差异不大,分母可使用n估计(二)变异数4.标准差l 方差的缺点 度量单位也平方 平方使数值的量增大,与实际变异度有差距 l 标准差:方差的平方根l 标准差的优点:保留方差的优点;度量单位上与平均数一致;在数量水平上也比较客观l 数量资料的表示方法:(二)变异数5.变异系数l 标准差的缺点:比较两个样本的变异程度时

13、,两个样本的单位、平均数和性质必须相同 l 如果不同,需要引入表示相对变异程度的变异数,即变异系数(CV)l 变异系数在田间试验中有重要用途,如在空白试验时,可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响,因此,在使用变异系数时,要同时列举平均数和标准差,否则可能会引起误解。(二)变异数5.变异系数l 例:小麦A品种的株高为959.02(cm),B品种为758.50(cm),问哪个品种株高整齐度好?直接用标准差比较:9.028.50(cm),B品种较整齐 但二者平均数不相同,需用变异系数比较:9.511.3(%),A品种较整齐(三)自由度的含义自由度l 样本内独立而能自由变动的离均

14、差个数 如一个样本为(3,4,5,6,7),平均数为5,前面4个数的离均差分别为2,1,0,1,那么第5个数的离均差必须为2,才能满足各观察值的离均差之和为零这个特性。一般来说,样本自由度等于观察值的个数(n)减受条件约束的个数(k),即df=nk在应用上,小样本一定要用自由度来估计标准差,大样本的n和n 1相差不大,也可不用自由度,而直接用n作除数。但大样本与小样本之间没有明确的界限和统一的规定,所以一般样本在估计标准差时,都用自由度。(四)标准差的计算1、直接计算 在直接计算标准差时,先求出,再求,最后再计算s。这样比较麻烦,而且当 由四舍五入而来时,容易引起计算误差。所以将 作如下变形:

15、2、利用矫正数矫正数,Cn 120个黄瓜叶片中叶绿素a含量的平均数与标准差mg/g鲜重mg/g鲜重(四)标准差的计算3、减去常数法 如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,所得的s值不变。第二节 二项式分布一、二项总体二、二项式分布三、二项式分布的概率计算方法四、二项式分布的形状五、二项式分布的参数六、多项式分布七、泊松分布一、二项总体n 二项总体:由非此即彼的两项(对立事件)构成的总体n 黄瓜种子发芽和不发芽n 桃果实的有毛和无毛n 豌豆的黄色与绿色、圆粒与皱粒等n“此”事件以变量“1”表示,具概率p;“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0-1总体,其

16、概率则显然有:p+q=1或q=1p二、二项式分布n 二项式分布:如果从二项总体进行n次重复抽样,设出现“1”的次数为k,那么k的取值可能为0、1、2、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量k及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布三、二项式分布的概率计算方法n 例:在两个班63名学生中,有30名女学生(1),33名男学生(0)。如果从全体学生中抽取3人次参加志愿者,那么女学生被抽到2次的概率是多少?第1次抽取 第2次抽取 第3次抽取事件概率性别 概率 性别 概率 性别 概率1 30/631 30/631 30/63(30/63)30

17、 33/63(30/63)2(33/63)0 33/631 30/63(30/63)2(33/63)0 33/63(30/63)(33/63)20 33/631 30/631 30/63(30/63)2(33/63)0 33/63(30/63)(33/63)20 33/631 30/63(30/63)(33/63)20 33/63(33/63)3n 3个“1”的概率:(30/63)3=27000/250047n 2个“1”、1个“0”的概率:n 3*(30/63)2(33/63)=89100/250047n 1个“1”、2个“0”的概率:n 3*(30/63)(33/63)2=98010/25

18、0047n 3个“0”的概率:(33/63)3=35937/250047n 总概率:(27000+89100+98010+35937)/250047=1 n 女学生被抽到2次的概率n 3*(30/63)2(33/63)=89100/250047n 每一个复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率n 这一复合事件的可能组合数目则相当于从n个物体中任取k个物体的组合数 n 二项分布的概率计算公式应用举例(P19:例1-3-1)n 一批玉米种子的出苗率为0.8,现每穴播5粒,问每穴出3棵苗的概率是多少?n 问每穴至少出2棵苗的概率是多少?应用举例(P19:例1-3-1)四、二项式分布

19、的形状n 左图为上述抽取男女学生的概率分布图n 右图为学生总数为64名,男女学生各为32名的概率分布图n 如果p=q,二项式分布呈对称形状,如果pq,则表现偏斜形状。如果n足够大,即使pq,图形也对称。当 n时,就变为二项分布的极限分布,即正态分布五、二项式分布的参数n 平均数和方差2(或标准差)是描述总体分布的两个重要参数n 二项式分布的=np、2=npq、n 如抽取学生参加志愿者的实验中,女学生被抽中的平均人次数为=np=3*(30/63)=1.43人次六、多项式分布n 多项总体:如果总体内包含2种以上的特性或分类标志,可以将总体中的个体分为几类,这样的总体称为多项总体。n 如:给某一人群

20、使用一种新药,可能有的疗效好,有的无疗效,而有的会产生副作用。n 多项式分布:研究多项总体随机变量的概率分布。四、泊松分布 n 如果在二项分布中,p或q很小而n很大时,它描述的是大量试验中的随机稀疏现象,这样的分布为二项分布的极限分布,称为泊松概率分布,简称泊松分布。n 某种昆虫在一定面积上的分布等n 泊松分布的概率函数为n 其中,=np;k=0,1,2,;e=2.71828为自然对数的底数n 泊松分布的=;2=。n 泊松分布的形状由的大小决定。n 当值小时分布呈很偏斜形状,增大后则逐渐对称,趋近于下面要讲的正态分布。n 实例:P20例1-3-2。第三节 正态分布一、研究正态分布的意义 二、正

21、态分布的定义三、正态分布曲线的特征四、正态分布的标准化五、正态分布的概率计算六、两尾概率和一尾概率 一、研究正态分布的意义n 什么是正态?n 试验中许多数量指标总是在正常范围内有差异,偏离正常,表现过高或过低的情况总是比较少,而且越不正常的可能性越少,这就是所谓的常态或称为“正态”。n 正态分布是连续性变数的理论分布。n 研究正态分布的意义:n 客观世界中有许多现象的数据服从正态分布;n 适当条件下可以用来做二项分布和其它间断性或连续性分布的近似分布;n 虽然有些总体并不服从正态分布,但从总体中抽出的样本平均数和其它一些统计数的分布,在样本容量大时仍然趋近正态分布。二、正态分布的定义n 如果连

22、续性随机变量x的概率分布密度函数为n 则称随机变量x服从正态分布,记为xN(,2)。n 其中,为平均数,2为方差,N专指正态曲线n 其概率分布函数为三、正态分布曲线的特征(1)正态分布曲线是以x=为对称轴的对称曲线,且当x=时有最大值f()。其算术平均数、中数和众数均为。(2)正态分布曲线是以参数和的不同而表现为一系列曲线,确定它在横轴上的位置,而确定它的宽窄。(3)正态分布资料的次数分布表现为多数次数集中于算术平均数附近,且在x-左右相等范围内具有相等次数;在x-3以上次数极少。(4)正态曲线在x-=1处有“拐点”。曲线两尾向左右伸展,永不接触横轴,所以当y,分布曲线以x轴为渐近线,曲线全距

23、为(,+)。(5)正态曲线与横轴之间的总面积等于1,因此在曲线下横轴的任何定值,例如从x=x1到x=x2之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于x落于这个区间内的概率。n 正态曲线的任意x1到x2之间的面积或概率乃完全以曲线的和确定的。区间1 2 3 1.96 2.58面积或概率0.6827 0.9545 0.9973 0.9500 0.9900应用举例n 水稻140行产量资料的样本分布表现出接近正态分布,其=157.9g,s=36.4gks 数值(g)区间(g)区间内包括的次数次数%1s 157.9 36.4 121.5194.5 99 70.712s 157.9 72

24、.8 85.1230.7 134 95.713s 157.9109.2 48.7267.1 140 100.00n=3n 逐渐增大n四、正态分布的标准化n 正态分布的参数为n=0、2=1时的正态分布称为标准正态分布n 记作uN(0,1)-3-2-1 0 1 2 3概率密度函数 概率分布函数/psai/fai/n 标准化变换:n u称为标准正态变量或标准正态离差n 附表2为正态分布表,从中可以查到u在某一个区间内取值的概率五、正态分布的概率计算(1)标准正态分布的概率计算n u在u1,u2内取值的概率为:P(u2)(u1)n(u2)和(u1)可由附表2查得。u1 u2P(u1uu2)fN(u)u

25、n 其它计算:n P(0uu1)(u1)0.5n P(uu1)1(u1)n P(|u|u1)21(u1)1P(u1uu1)n P(|u|u1)21(u1)n 熟记以下几种概率n P(1u1)0.6826n P(2u2)=0.9545n P(3u3)=0.9973n P(1.96u1.96)=0.95n P(2.58u2.58)=0.99(2)一般正态分布的概率计算n 将区间的上下限作标准化变换,查附表2计算。n 如:设x服从30.26,25.102的正态分布,求P(21.64x32.98)。n 令n 则 P(21.64x32.98)P(-1.69u0.53)=0.65643六、两尾概率和一尾概

26、率n 两尾概率:随机变量x落在k区间之外的概率。n 一尾概率:随机变量x小于k或大于k的概率。n 利用附表3可查得已知两尾概率时的u值。应用举例n 如从附表3可查得 P=0.01时u=2.5758,即表示:P(|u|2.5758)=0.01 P=0.05时u=1.9599,即表示:P(|u|1.9599)=0.05 n 如果仅计算一尾,则为两尾概率值的1/2。例如计算 P(u1.6448)=1/2*P(|u|1.6448)=1/2*(0.1)=0.05第四节 抽样分布 一、引言二、样本平均数的抽样分布三、样本总和数的抽样分布四、两个独立随机样本平均数差数的抽样分布五、正态总体抽样的分布规律 六

27、、二项成数分布 七、二项次数分布一、引言n 统计学主要任务:总体和样本的关系n 研究方向n 总体样本(抽样分布)n 样本总体(统计推断)n 抽样分布:从总体中随机抽取若干样本,样本观察值的统计数分布。n 抽样分布是统计推断的基础 总体1 2 3 无穷随机样本二、样本平均数的抽样分布n 从容量为N的有限总体中抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。n 每个样本可以计算一个平均数,所有可能的样本的平均数集合起来便构成一个新总体。n 每个样本平均数构成新总体的一个随机变量,其概率分布称为样本平均数抽样分布。n 样本平均数与原总体平均数相比往往表现出不同程度的差异,这种差异是由随机

28、抽样造成的,称为抽样误差。n 样本平均数抽样总体的标准差称为标准误。n 样本平均数抽样总体与原总体特征参数的关系实例验证n 设有一个包含4个个体的有限总体(N4),变量为2、3、4、5。从该总体中抽取样本容量n2的复置随机抽样,计算样本平均数总体的平均数与标准差。第1次抽样 第2次抽样平均数22 23 2.54 35 3.532 2.53 34 3.55 442 33 3.54 45 4.552 3.53 44 4.55 5n 样本平均数抽样总体n 原总体n 总体变量x与样本平均数变量 概率分布间的关系:(1)若总体随机变量x服从正态分布,则从此总体中抽取的随机样本的统计数也是正态分布。(2)

29、若随机变量x不服从正态分布,则从此总体中抽取的随机样本的统计数的概率分布,当n很大时逼近正态分布。这就是中心极限定理。三、样本总和数的抽样分布n 样本总和数的抽样分布参数与母总体的关系:(1)该抽样分布的平均数与母总体的平均数之间的关系为:。(2)该抽样分布的方差与母总体方差的关系为:。四、两个独立随机样本 平均数差数的抽样分布n 如果从一个总体中随机地抽取一个样本容量为n1的样本,同时随机独立地从另外一个总体中抽取一个样本容量为n2的样本,那么可以得到分别属于两个总体的样本,其平均数分别用 和 表示,方差分别用 和 表示。n 设这两个样本所来自的两个总体的平均数分别为 和,方差分别为 和。n

30、 这两个独立随机抽取的样本平均数间差数()的抽样分布参数与两个原总体间的关系:实例验证n 第一个总体包含3个观察值,2、4、6(N13),抽取的样本容量为2(n12)。所有的样本数为Nn32=9。n 第二个总体包含2个观察值,3、6(N22),抽取的样本容量为3(n23)。所有的样本数为Nn23=8。n 计算两个独立样本差数分布的参数。第1次抽取 第2次抽取22 24 36 442 34 46 562 44 56 6第1次抽取第2次抽取第3次抽取333 36 463 46 5633 46 563 56 6f f f2 1 2 43 2 6 184 3 12 485 2 10 506 1 6 3

31、6 9 36 156f f f3 1 3 94 3 12 485 3 15 756 1 6 36 8 36 168f f2(1)3(1)-1 15(2)3 2 24(3)-2 3 4 1 65(3)-3 3 5 0 66(1)-4 1 6-1 23(2)3 0 26(1)3 3 14-1 6 4 2 35-2 6 5 1 36-3 2 6 0 14(3)3 1 34 0 95-1 96-2 3f f f-4 1-4 16 16-3 5-15 9 45-2 12-24 4 48-1 18-18 1 180 18 0 0 01 12 12 1 142 5 10 4 203 1 3 9 9 72-3

32、6 168五、正态总体抽样的分布规律n 从正态总体抽取的样本,无论样本容量大或小,其样本平均数 和两个独立样本平均数差数 的抽样分布必然服从正态分布。n 平均数的标准化n 平均数差数的标准化六、二项成数分布n 二项分布观察值中有“0”和“1”两种数据,将样本观察值总加起来后除以样本容量(n),得到的平均数实际上就是“1”所占的比例,即成数或百分数。n 从二项总体进行抽样得到样本,样本平均数(成数)的分布也为二项分布,叫二项成数分布,也叫二项百分数分布。七、二项次数分布n 从二项总体进行抽样得到的样本的总和实际上就是“1”出现的次数。n 从二项总体进行抽样得到样本,样本总和数(次数)的分布也为二项分布,叫二项次数分布。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com