实验数据的收集整理ppt课件.ppt-得力文库

资源描述

《实验数据的收集整理ppt课件.ppt》由会员分享，可在线阅读，更多相关《实验数据的收集整理ppt课件.ppt（61页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、教学基本要求：教学基本要求：了解资料的类型；理解次数分布表与次数分布图的概了解资料的类型；理解次数分布表与次数分布图的概念；掌握次数分布表与次数分布图的制作方法。了解念；掌握次数分布表与次数分布图的制作方法。了解常用统计量的种类；理解样本平均数、样本标准差、常用统计量的种类；理解样本平均数、样本标准差、样本变异系数的意义、作用；掌握样本平均数、样本样本变异系数的意义、作用；掌握样本平均数、样本标准差、样本变异系数的计算方法。标准差、样本变异系数的计算方法。教学重点难点：教学重点难点：重点：大样本连续型变数资料的分组方法，次数分布表重点：大样本连续型变数资料的分组方法，次数分布表与次数分布图

2、的制作。样本平均数、样本标准差、样与次数分布图的制作。样本平均数、样本标准差、样本变异系数的意义、作用和计算方法。本变异系数的意义、作用和计算方法。难点：分组数列的确定。样本标准差的统计意义难点：分组数列的确定。样本标准差的统计意义教学建议：教学建议：分组收集资料分组收集资料建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n1.1 1.1 资料的分类资料的分类n1.2 1.2 数据的收集数据的收集

3、n1.3 1.3 资料的检查和核对资料的检查和核对n1.4 1.4 资料的整理和分组资料的整理和分组n1.5 1.5 特征数特征数n 1.5.1 1.5.1 平均数平均数n 1.5.2 1.5.2 变异数变异数3建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n正确地进行资料的分类是资料整理的前正确地进行资料的分类是资料整理的前提。在调查或试验中，由观察、测量所提。在调查或试验中，由观察、测量所得的数

4、据按其性质的不同，一般可以分得的数据按其性质的不同，一般可以分为：为：n数量性状资料数量性状资料n质量性状资料质量性状资料 4建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n一、数量性状资料一、数量性状资料5建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发

5、展提供技术支持和示范模式。提供技术支持和示范模式。6建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。7建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n二、质量性状资料二、质量性状资料n质量性状质量性状(qu

6、alitative trait) 指能观察而不能指能观察而不能量测的性状，即属性性状，如肤色，花、子粒量测的性状，即属性性状，如肤色，花、子粒等器官的颜色，绒毛的有无等。等器官的颜色，绒毛的有无等。n由只能观察描述或感觉而难以量测的性状获得由只能观察描述或感觉而难以量测的性状获得的数量资料为的数量资料为质量性状资料质量性状资料。这些性状本身不。这些性状本身不能以数字来表示，要获得这类性状的数量资料，能以数字来表示，要获得这类性状的数量资料，可采用下列两种方法进行数量化可采用下列两种方法进行数量化: 8建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及

7、生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n1.统计次数法统计次数法在一定总体或样本内，统计其在一定总体或样本内，统计其具有某个性状的个体数目及具有不同性状的个具有某个性状的个体数目及具有不同性状的个体数目，按类别计其次数或相对次数，以次数体数目，按类别计其次数或相对次数，以次数作为质量性状的数据。作为质量性状的数据。n例如在例如在320株水稻植株中有株水稻植株中有240株为紫色柱头株为紫色柱头的，的， 80株黄色柱头的。这类由质量性状数量株黄色柱头的。这类由质量性状数量化得来的资料也

8、称为化得来的资料也称为次数次数(或频次或频次)资料资料。9建立节水型的优质高效农业发展建立节水型的优质高效农业发展模式。模式。提高区域农业水资源利用率及生提高区域农业水资源利用率及生产效率。产效率。为节水条件下农业高效持续发展为节水条件下农业高效持续发展提供技术支持和示范模式。提供技术支持和示范模式。n2. 给予每类性状以相对数量的方法给予每类性状以相对数量的方法(给分法给分法) 对某一质量性状，因其类别不同，分别给予不对某一质量性状，因其类别不同，分别给予不同的级别或分值，例如，小麦子粒颜色有白有同的级别或分值，例如，小麦子粒颜色有白有红，可令白色的数量值为红，可令白色的数量值为0，呈红色的

9、数量值，呈红色的数量值为为1。从这类变异所得资料，处理方法同间断。从这类变异所得资料，处理方法同间断型变数资料。型变数资料。n1、数据的收集方法、数据的收集方法：n 调查调查n 试验试验n2、收集数据的要求、收集数据的要求：n1.突出研究目的突出研究目的n2.严格执行研究方案严格执行研究方案n3.控制误差控制误差检查和核对原始资料的目的在于确保原始资料的检查和核对原始资料的目的在于确保原始资料的完整性完整性和和正确性正确性。完整性完整性是指原始资料无遗缺或重复。是指原始资料无遗缺或重复。正确性正确性是指原始资料的测量和记载无差错或未进行不合是指原始资料的测量和记载无差错或未进行不合理的归

10、并。理的归并。要特别注意特大、特小和异常数据；要特别注意特大、特小和异常数据；有重复、异常或遗漏的资料有重复、异常或遗漏的资料，应予以删除或补齐，应予以删除或补齐；有错误、相互矛盾的资料应进行更正，必要时复查。有错误、相互矛盾的资料应进行更正，必要时复查。资料的检查与核对工作虽然简单，但却是一项非常重要资料的检查与核对工作虽然简单，但却是一项非常重要的步骤，只有完整、正确的资料，才能真实地反映出调查的步骤，只有完整、正确的资料，才能真实地反映出调查或试验的客观情况，才能经过统计分析得出正确的结论。或试验的客观情况，才能经过统计分析得出正确的结论。13 14 15161718 192

11、021222324252627282930 313233 3435一、一、平均数平均数二、二、变异数变异数三、三、变异系数变异系数37由次数分布可以看到任何一个变数的分布具有两种由次数分布可以看到任何一个变数的分布具有两种明显的基本特征，即明显的基本特征，即集中性集中性和和离散性离散性。集中性集中性是变数在趋势上有着向某一中心聚集、或者是变数在趋势上有着向某一中心聚集、或者说以某一数值为中心而分布的性质。说以某一数值为中心而分布的性质。离散性离散性是变数又有着离中的分散变异的性质。是变数又有着离中的分散变异的性质。为了反映变数分布的这两种基本性质，显然必须算为了反映变数分布的这

12、两种基本性质，显然必须算出它们的特征数。出它们的特征数。反映集中性的特征数是反映集中性的特征数是平均数平均数；反映离散性的特征数为反映离散性的特征数为变异数变异数。38 39(1) 算术平均数算术平均数一个数量资料中各个观察值的总和除以观一个数量资料中各个观察值的总和除以观察值个数所得的商数，称为算术平均数，记作察值个数所得的商数，称为算术平均数，记作。因其应。因其应用广泛，简称平均数或均数用广泛，简称平均数或均数(mean)。均数的大小决定于样。均数的大小决定于样本的各观察值。本的各观察值。(2) 中数中数将资料内所有观察值从大到小排序，居中间位置将资料内所有观察值从大到小排序，居

13、中间位置的观察值称为中数的观察值称为中数(median)，计作，计作Md。(3) 众数众数资料中最常见的一数，或次数最多一组的中点值，资料中最常见的一数，或次数最多一组的中点值，称为众数称为众数(mode) ，计作，计作Mo。 (4) 几何平均数几何平均数如有如有n个观察值，其相乘积开个观察值，其相乘积开n次方，即为次方，即为几何平均数几何平均数(geometric mean)，用，用G代表。代表。y402.算术平均数的计算算术平均数的计算算术平均数可根据样本大小及分组情况而采用直接法算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。或加权法计算。直接法直接法主要用于样本含量主

14、要用于样本含量n30以下、未经分组资料以下、未经分组资料平均数的计算。平均数的计算。设某一资料包含设某一资料包含n个观测值：个观测值：y1、y2、 yn ，则样本平，则样本平均数可通过下式计算：均数可通过下式计算：其中，其中，为总和符号；表示从第一个观测值为总和符号；表示从第一个观测值y1累加到第累加到第n个个观测值观测值yn 。当在意义上已明确时，可简写为。当在意义上已明确时，可简写为y，改写为：，改写为：nynyyyyniin121nyy41例例在水稻品种比较试验中，湘矮早四号的在水稻品种比较试验中，湘矮早四号的5个小个小区产量分别为区产量分别为20.0、19.0、21.0、17.5、

15、18.5kg，求该品种的小区平均产量。，求该品种的小区平均产量。由定义式有：由定义式有：kgnyy2 .1955 .185 .170 .210 .190 .2042加权法加权法对于样本含量对于样本含量n30以上且已分组的资料，可以上且已分组的资料，可在次数分布表的基础上采用加权法计算算术平均数，即在次数分布表的基础上采用加权法计算算术平均数，即用组中点值代表该组出现的观测值以计算平均数，其公用组中点值代表该组出现的观测值以计算平均数，其公式为：式为：（3-2）式中：式中：第第i组的组中值；组的组中值；第第i组的次数；组的次数；分组数分组数第第i组的次数组的次数fi是权衡第是权衡第i组

16、组中值组组中值yi在资料中所占比重大在资料中所占比重大小的数量，因此小的数量，因此fi称为是称为是yi的的“权权”，加权法也由此而得，加权法也由此而得名。名。ffyfyffffyfyfyfykiikiiikkk11212211iyifk43例例利用表利用表3.6资料计算平均每行水稻产量。资料计算平均每行水稻产量。若采用直接法，若采用直接法，因此，两者的结果十分相近。因此，两者的结果十分相近。)(93.157140221101402551907752gffyy)(47.157gy 44平均数的基本性质平均数的基本性质、样本各观测值与平均数之差的和为零，简称离均差，、样本各观测值与平均数之差的

17、和为零，简称离均差，即离均差之和等于零。即离均差之和等于零。或简写成或简写成、样本各观测值与平均数之差的平方和，较各个观察、样本各观测值与平均数之差的平方和，较各个观察值与任意其他数值的差数平方的总和为小，即离均差平方值与任意其他数值的差数平方的总和为小，即离均差平方和为最小。和为最小。（常数（常数a ）以上两个性质可用代数方法予以证明。以上两个性质可用代数方法予以证明。统计学中常用样本平均数（统计学中常用样本平均数（）作为总体平均数（）作为总体平均数（）的估）的估计量，并已证明样本平均数是总体平均数计量，并已证明样本平均数是总体平均数的无偏估计量。的无偏估计量。 0)(1yynii0

18、)(yyiniiniiayyyQ1212)()(y0yy45n二、变异数二、变异数n 每个样本有一批观察值，除以每个样本有一批观察值，除以平均数平均数作为样本的平均表现作为样本的平均表现外，还应该考虑样本内各个观察值的变异情况，才能通过样本外，还应该考虑样本内各个观察值的变异情况，才能通过样本的观察数据更好地描述样本，乃至描述样本所代表的总体。如的观察数据更好地描述样本，乃至描述样本所代表的总体。如果各观测值变异小，则平均数对样本的代表性强；如果各观测果各观测值变异小，则平均数对样本的代表性强；如果各观测值变异大，则平均数代表性弱。值变异大，则平均数代表性弱。n 因而仅用平均数对一个资料的特征

19、作统计描述是不全面的，因而仅用平均数对一个资料的特征作统计描述是不全面的，还需引入一个表示资料中观测值变异程度大小的统计量。为此还需引入一个表示资料中观测值变异程度大小的统计量。为此必须有度量变异的统计数。必须有度量变异的统计数。n 常用的变异程度指标有常用的变异程度指标有:极差、方差、标准差和变异系数。极差、方差、标准差和变异系数。4647yy yy yy 48n为了解决离均差有正、有负，离均差之和为零的问题，可为了解决离均差有正、有负，离均差之和为零的问题，可以采用将离均差平方的办法来解决离均差有正、有负及离以采用将离均差平方的办法来解决离均差有正、有负及离均差之和为零的问题：均差之和为零

20、的问题：n先将各个离均差平方，即先将各个离均差平方，即 ( )2，再求离均差平方和，再求离均差平方和，即即，简称平方和，记为，简称平方和，记为SS；n由于离差平方和常随样本大小而改变，为了消除样本大小由于离差平方和常随样本大小而改变，为了消除样本大小的影响，用平方和除以样本大小，即的影响，用平方和除以样本大小，即，求出离均，求出离均差平方和的平均数。差平方和的平均数。yy 2)(yynyy/)(249n为了使所得的统计量是相应总体参数的无偏为了使所得的统计量是相应总体参数的无偏估计量，统计学证明，在求离均差平方和的平估计量，统计学证明，在求离均差平方和的平均数时，分母不用样本含量均数时，分

21、母不用样本含量n，而用自由度，而用自由度n-1，于是，我们采用统计量于是，我们采用统计量表示资料的变表示资料的变异程度。统计量异程度。统计量n称为均方（称为均方（mean square缩写为缩写为MS）,又称又称样本方差，记为样本方差，记为S2，即，即1/)(2nyy1/)(2nyy1/)(22nyyS50n n由于样本方差带有原观测单位的平方单位，在仅表由于样本方差带有原观测单位的平方单位，在仅表示一个资料中各观测值的变异程度而不作其它分析时，示一个资料中各观测值的变异程度而不作其它分析时，常需要与平均数配合使用，这时应将平方单位还原，常需要与平均数配合使用，这时应将平方单位还原，即应求出

22、样本方差的平方根。统计学上把样本方差即应求出样本方差的平方根。统计学上把样本方差S2的平方根叫做的平方根叫做样本标准差样本标准差，记为，记为S，即：，即：2Ny/)(221)(2nyyS51n n在统计学中，常用样本标准差在统计学中，常用样本标准差S估计总体标准差估计总体标准差。12)(2nySny)2()(222yyyyyy222ynyyy222)()(2nynnyynyy22)(Ny/)(252n(2).方差、标准差的计算方法方差、标准差的计算方法n 直接法直接法对于未分组或小样本资料，可直接计算标准差。对于未分组或小样本资料，可直接计算标准差。n例例设某一水稻单株粒重的样本有设某一水

23、稻单株粒重的样本有5个观察值，以克为单位，其数为个观察值，以克为单位，其数为2、8、7， 5、4(用用y代表代表)。n此例此例n=5，经计算得：，经计算得：y=26，y2=22.8，代入公式得：，代入公式得：n该水稻单株粒重的标准差为该水稻单株粒重的标准差为2.39g。n 矫正数，记作矫正数，记作C。上法为。上法为n矫正数法，可以比较简便地算矫正数法，可以比较简便地算n出标准差。出标准差。gnnyyS39. 21510/268 .221/)(222ny2)(53n式中，f为各组次数；y为各组的组中值；f = n为总次数。n例P151/)(1)(222fffyfyfyxfS54n标准差的特性标准

24、差的特性n 标准差的大小，受资料中每个观测值的影响，如观测值间标准差的大小，受资料中每个观测值的影响，如观测值间变异大，求得的标准差也大，反之则小。变异大，求得的标准差也大，反之则小。n 在资料服从正态分布的条件下，资料中在资料服从正态分布的条件下，资料中n约有约有68.26%的观测值在平均数左右一倍标准差（的观测值在平均数左右一倍标准差（ S）范围内；范围内；n约有约有95.43%的观测值在平均数左右两倍标准差（的观测值在平均数左右两倍标准差（ 2S）范围内；范围内；n约有约有99.73%的观测值在平均数左右三倍标准差（的观测值在平均数左右三倍标准差（ 3S）范围内。也就是说全距近似地等于范

25、围内。也就是说全距近似地等于6倍标准差，可用（倍标准差，可用（）来）来粗略估计标准差。粗略估计标准差。yyy6/全距55n虽然有几种不同的度量偏斜的方法，但是建立在三阶中心虽然有几种不同的度量偏斜的方法，但是建立在三阶中心矩矩(third central moment)基础上的方法有最好的特性，基础上的方法有最好的特性，因而使用得最广泛。因而使用得最广泛。y56n制定一个没有任何单位的量。制定一个没有任何单位的量。n (1.17)n其中其中n ( 1.18)n 称为二阶中心矩。称为二阶中心矩。n 称为二阶原点矩。称为二阶原点矩。类似于方差类似于方差s2，不同的是，不同的是的的分母是分母是

26、n而而s2的分母是的分母是n 1。同样，。同样，称为一阶中心矩，称为一阶中心矩，一阶中心矩恒等于一阶中心矩恒等于0，相应的，相应的称为一阶原点矩。称为一阶原点矩。n 即为标准化的三阶中心矩，它是一个纯数，不带有任何单即为标准化的三阶中心矩，它是一个纯数，不带有任何单位。它的大小说明曲线偏斜的程度，称为位。它的大小说明曲线偏斜的程度，称为偏斜度偏斜度。的判断的判断没有任何界限，一般当没有任何界限，一般当时偏斜就已经很大了。时偏斜就已经很大了。2/3231mmgnyym22)(nyym33)(2mnym222mnyym11)(nym11g21g2m1g57n第二个度量曲线形状的量是第二个度

27、量曲线形状的量是，称为，称为峭度峭度。n (1.19)n其中其中称为四阶中心矩称为四阶中心矩，相应的，相应的称为四阶原称为四阶原点矩点矩，永远是正值。当永远是正值。当接近接近3时，即时，即在在0附近时，附近时，可以认为数据是可以认为数据是“正态的正态的”(见图见图1 -6a)。当。当为正数时，频为正数时，频数分布图的走势比较尖峭；当数分布图的走势比较尖峭；当为负数时，频数分布图的走为负数时，频数分布图的走势比较平坦。图势比较平坦。图1 -6a的的几乎为几乎为0，因此该分布在峭度上是，因此该分布在峭度上是“正态正态”的。的。n一般来说，对于一个频数分布，当一般来说，对于一个

28、频数分布，当 0.2， 0.3时，时，便可以认为其便可以认为其“正态性正态性”很好了。很好了。n图图1 -6b的的 =3.843 6，说明该分布比说明该分布比“正态的正态的”要尖峭。要尖峭。32242mmgnyym44)(nym444m224mm2g2g2g2g1g2g2g2g5859n4.变异系数变异系数n .变异系数的作用变异系数的作用n变异系数是衡量资料中各观测值变异程度的另一个统计量。变异系数是衡量资料中各观测值变异程度的另一个统计量。n当进行两个或多个资料变异程度的比较时，如果度量单位与当进行两个或多个资料变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单

29、位和（或）平均数相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其变异程度就不能采用标准差，而需采用平均数不同时，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较。标准差与平均数的比值（相对值）来比较。n标准差与平均数的比值称为标准差与平均数的比值称为变异系数变异系数，记为，记为CV。变异系数可。变异系数可以消除单位和（或）平均数不同对两个或多个资料变异程度比以消除单位和（或）平均数不同对两个或多个资料变异程度比较的影响。较的影响。60n.变异系数的计算变异系数的计算n变异系数的计算公式为：变异系数的计算公式为：n %100ySVC61n. 变异系

30、数的特点变异系数的特点n变异系数是一个不带单位的纯数，可用以比较二个事物的变变异系数是一个不带单位的纯数，可用以比较二个事物的变异度大小。异度大小。n例如两个小麦品种主茎高度的平均数、标准差和变异系数。例如两个小麦品种主茎高度的平均数、标准差和变异系数。如只从标准差看，品种甲比乙的变异大些；但因两者的均数不如只从标准差看，品种甲比乙的变异大些；但因两者的均数不同，标准差间不宜直接比较。算出变异系数相互比较，乙品种同，标准差间不宜直接比较。算出变异系数相互比较，乙品种的变异系数为的变异系数为11.3% ，甲品种为，甲品种为9.5% ，乙品种的相对变异，乙品种的相对变异程度较大。程度较大。n在使用变异系数时，应该认识到它是由标准差和平均数构成在使用变异系数时，应该认识到它是由标准差和平均数构成的比数，既受标准差的影响，又受平均数的影响。因此，在使的比数，既受标准差的影响，又受平均数的影响。因此，在使用变异系数表示样本变异程度时，宜同时列举平均数和标准差，用变异系数表示样本变异程度时，宜同时列举平均数和标准差，否则可能会引起误解否则可能会引起误解。

展开阅读全文