1.统计数据的收集与整理.ppt

上传人:赵** 文档编号:66099108 上传时间:2022-12-14 格式:PPT 页数:48 大小:1.46MB
返回 下载 相关 举报
1.统计数据的收集与整理.ppt_第1页
第1页 / 共48页
1.统计数据的收集与整理.ppt_第2页
第2页 / 共48页
点击查看更多>>
资源描述

《1.统计数据的收集与整理.ppt》由会员分享,可在线阅读,更多相关《1.统计数据的收集与整理.ppt(48页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、生物统计学生物统计学泰山学院生物科学与技术系泰山学院生物科学与技术系林贞贤林贞贤电话:电话:13954892494E-mail:What is Biostatistics?生物统计学是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。生生生生 的的的的物物物物 基基基基统统统统 本本本本计计计计 内内内内学学学学 容容容容试试试试 验验验验 设设设设 计计计计统统统统 计计计计 分分分分 析析析析基本原则基本原则方案制定方案制定常用试验设计方法常用试验设计方法资料的搜集和整理资料的搜集和整理数

2、据特征数的计算数据特征数的计算统计推断统计推断方差分析方差分析回归和相关分析回归和相关分析协方差分析协方差分析主成分分析主成分分析聚类分析聚类分析对比设计对比设计随机区组设计随机区组设计裂区设计裂区设计拉丁方设计拉丁方设计正交设计正交设计常用统计学术语常用统计学术语试验资料的性质与分类试验资料的性质与分类频数分布表频数分布表平均数平均数变异数变异数生物统计基础生物统计基础一、总体与样本p具有相同性质或属性的个体所组成的集合称为总体 (population),它是指研究对象的全体;p组成总体的基本单元称为个体(individual);p总体又分为有限总体和无限总体:常用统计学术语常用统计学术语例

3、如:计算总体平均数例如:计算总体平均数这个公式十分简单,把总体中所有观察值相加,再除以观察值个数就行了,但由于N,我们无法完成计算。样本(Sample):是总体的一部分。其容量用n表示,样本容量n一般都不是很大,因而,可以计算出样本的平均数:因此统计学的重要任务之一,就是用样本的结果去推断总体的结果。一、总体与样本p构成样本的每个个体称为样本单位;样本中所包含的个体数目叫样本容量或样本大小(sample size),样本容量常记为n。p一般在生物学研究中,通常把n30的样本叫小样本,n 30的样本叫大样本。对于小样本和大样本,在一些统计数的计算和分析检验上是不一样的。p研究的目的是要了解总体,

4、然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。一、总体与样本常用统计学术语常用统计学术语二、变量与常量 变量,或变数,指相同性质的事物间表现差异性或差异特征的数据。常数,表示能代表事物特征和性质的数值,通常由变量计算而来,在一定过程中是不变的。常用统计学术语常用统计学术语p为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。p描述总体特征的数量称为参数(parameter),也称参量。常用希腊字母表示参数,例如用表示总体平均数,用表示总体标准差;p描述样本特征的数量称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,

5、例如用 表 示样本平均数,用s表示样本标准差。三、参数与统计数常用统计学术语常用统计学术语四、效应与互作p通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。p互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。常用统计学术语常用统计学术语五、随机误差与系统误差变异效应效应误差误差随机误差随机误差系统误差系统误差常用统计学术语常用统计学术语例1.2 试验配方1(x)和配方2(y)两种不同饲料配方对鸡增重的影响,饲养5周后,增重如下(教材出错丢失1个数):增

6、重配方1(x)1.49 1.36 1.50 1.65 1.27 1.45 1.38 1.52 1.40 配方2(y)1.25 1.50 1.33 1.45 1.27 1.32 1.60 1.41 1.30 1.52 例1.3 如果上例中结果变成下表的数据:增重配方1(x)1.40 1.42 1.50 1.39 1.46 1.45 1.51 1.44 1.41 1.38 配方2(y)1.38 1.41 1.35 1.50 1.36 1.33 1.42 1.38 1.37 1.41 是否说配方1比配方2 好呢?p 随机误差,也叫 抽样误差(sampling error)。这是由于试验中无法控制的内

7、在和外在的偶然因素所造成。p如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。p如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。常用统计学术语常用统计学术语p系统误差,也叫片面误差(lopsided error)。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。p系统误差影响试验的准确性。只要以认真负

8、责的态度和细心的工作作风是完全可以避免的。常用统计学术语常用统计学术语六、准确性与精确性准确性(accuracy),也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。设某一试验指标或性状的真值为,观测值为 x,若 x与相差的绝对值|x|越小,则观测值x的准确性越高;反之则低。p精确性(precision),也叫精确度,指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi、xj 相差的绝对值|xi xj|越小,则观测值精确性越高;反之则低。常用统计学术语常用统计学术语试验试验资料的性质与分类资料的性质与分类数量性状的度量有计数

9、与量测两种方式。离散型数据(计数数据):指用计数方法获得的数据。连续型数据(度量数据):指称量、度量或测量方法得到的数据。质量性状指能观察而不能量测的性状。统计次数法给予每类性状以相对数量的方法一、数量性状与质量性状频数分布频数分布表表例:调查每天出生的10名新生儿中,体重超过3kg的人数,共调查120天。每天的10名新生儿中,体重超过3kg的人数,可能有11种情况:1名也没有,有1名,有2名,10名都是,如表第一列所示,这一组称为组值。每10名新生儿体重超过3kg的人数频数(率)表 频数分布图频数分布图1、每10名新生儿体重超过3kg的人数频数(率)图 连续性变数资料的整理以下表以下表1.3

10、1.3的的100100株小麦株高资料为例株小麦株高资料为例1551591501591571611581481641581531581501611491591551631551661591531601561531611531561561541551531561411531561511631581541501441601561551621571541641571591561551451621511561581481671571501601561541521531521641571591571511531521541471631541591511601571581621571581581571701

11、52150155161155162155154165158连续性变数资料的整理以表1.3的100株小麦株高资料为例(P4)1、数据排序(sort)2、求极差(range)R=Max(1n)Min(1n)本例中:R 170-141=29cm3、确定组数和组距(class interval)组距R/组数因而必须先确定组数,美国统计学家斯特吉斯提出分组数公式:n=1+3.322lgN(式中为样本数)。表1-3“三尺三”株高频数(率)表 下限上限中值频数累积频数14114314211144146145231471491484715015215113201531551542444156158157277

12、1159161160158616216416310961651671663991681701691100p属性变数资料的整理属性变数资料的整理p把资料按把资料按各种质量性状进行分类各种质量性状进行分类,分类数等于组数,然后根据,分类数等于组数,然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况:的分离情况:次数(f)属性分组(y)红米非糯红米糯稻白米非糯白米糯稻96373115合计(n)179p直方图直方图(hi

13、stogram)适用于表示连续性变数的次数分布。图1 “三尺三”株高直方图 频数分布图频数分布图p多边形图多边形图(polygon),以每组中点值为横坐标,以次数为纵坐标。图2 “三尺三”株高多边形图(不适用多边形图)频数分布图频数分布图p条形图条形图适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状,纵坐标表示次数。频数分布图频数分布图红米非糯红米糯稻白米非糯白米糯稻020406080100120p饼图饼图饼图适用于饼图适用于间断性和属性资料间断性和属性资料,用以表示这些变数中各,用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百种属性或各种间断性数据观察

14、值在总观察值个数中的百分比。分比。红米非糯红米糯稻白米非糯白米糯稻 频数分布图频数分布图p累积频数图累积频数图用以表示某一中值以下的有多少株,以及一定数量的植株在哪一高度之下。图4“三尺三”株高累积频数图 频数分布图频数分布图平均数平均数p平均数的意义平均数的意义p平均数平均数(average)(average)是数据的代表性,是数据的代表性,表示资料中观察表示资料中观察值的中心位置,值的中心位置,并且可以资料的代表而于另一组资料并且可以资料的代表而于另一组资料相比较,借以明确两者之间相差的情况。相比较,借以明确两者之间相差的情况。p平均数的种类平均数的种类1 1、算术平均数算术平均数(ari

15、thmetic mean)(arithmetic mean):一个数量资料中:一个数量资料中各个观察值的总和除以观察值的个数所得的商,记作各个观察值的总和除以观察值的个数所得的商,记作2 2、中数中数(median)(median):将资料内所有观察值从大到将资料内所有观察值从大到小排列,居中间位置的观察值称为中数,记作小排列,居中间位置的观察值称为中数,记作M Md d例如:例如:1 1、2 2、3 3、4 4、5 5中数是中数是3 3 1 1、2 2、3 3、4 4、5 5、6 6中数是:中数是:(3+4)/2=3.5(3+4)/2=3.53、众数众数(mode)(mode):资料中最常见

16、的一数,或次数最多一组的中点值,称为众数,记为Mo。例如:在资料23、24、23、22、23、25、20、23、中 Mo234、几何平均数几何平均数(geometric mean)(geometric mean):n个观察值,其乘积开n次方,即为几何平均数,用G代表。算术平均数的计算方法算术平均数的计算方法1、直接以观察值进行计算2、若样本较大,且已分组,可采用加权法计算算术平均数,即以组中值代表该组出现的观察值以计算平均数。利用每利用每1010名新生儿体重超过名新生儿体重超过3kg3kg的人数计算的人数计算平均每10个新生儿中,大约有7个体重超过3kg。利用“三尺三”株高频数分布计算算术平均

17、数的重要特性算术平均数的重要特性1、样本各观察值与其平均数的差数(简称离均差,deviation from mean)的总和为0。即:2、样本各观察值与其平均数的差数平方总和,较各个观察值与任意其它数值的差数平方的总和为小,亦即离均差平方的总和最小。总体平均数总体平均数总体平均数用来表示,其计算公式为:从公式中可以看出,除非是从公式中可以看出,除非是有限总体有限总体,否则总体平,否则总体平均数是无法通过计算得到的。均数是无法通过计算得到的。变异数变异数常用的变异数有:极差、方差、标准差、变异系数等。极差极差极差(range),又称全距,记为R,是资料中最大值与最小值之差。极差的计算简单,但是它

18、只是两个极端数据决定的,没有地方充分利用资料的全部信息,而且易于受到资料中不正常的极端值的影响。所以用它来代表整个样本的变异度是有缺陷的。变异数变异数方差方差p由于算术平均数的可信度比较高,我们设想用观察值与算术平均数之间的差异来度量一组观察值的变异性,但是这又遇到 的困难。为了解决这一矛盾,将离均差平方后再相加就不再为0。从这个式子知道 愈大,则资料的变异程度也就愈大。称为离均差的平方和(简称平方和),记为SS(Sum Of square)。变异数变异数样本的平方和为总体的平方和为由于各个样本所包含的观察值数目不同,为便于比较,用观察值数目除平方和,得到平均平方和,简称均方均方(mean s

19、quare)(mean square)或方差或方差(variance)(variance)。样本均方用s s2 2表示,定义为:它是总体方差(2)无偏估计值。标准差标准差标准差的定义标准差是方差的正平方根值,一个表示资料中观测值变异程度大小的统计量。样本标准差的计算公式为:总体标准差用表示:变异数变异数离散型频数资料,可采用下面公式计算连续型数据:用中值代替利用每10名新生儿体重超过3kg的人数计算方差s大样本分母也可不用N-1,直接用N自由度的意义自由度的意义自由度(degree of freedom)最早是一个物理学上的名词,它表示一个质点在空间运动的自由程度。统计学借此来反映一批变量的约

20、束条件。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。自由度记作df,具体数值用表示一般,样本自由度等于观察值个数(n)减去约束条件的个数(k),即df n k。变异系数变异系数涵义:衡量原始数据相对变异程度的数学指标。若比较两个样本的变异度,则因单位不同或平均数不同,不能用标准差直接比较。这时要构造一个不代单位,不受平均数大小影响的变异数,这就是变异系数(coefficient of variation),用CV表示。两个小麦品种株高变异的比较品种平均数(cm)S(cm)变异系数CV(%)甲95.09.02乙75.08.509.511.3 本章学习要点1、基本概念:总体、样本、观察值、变数、参数、统计数 2、平均数的意义,算术平均数的两个重要特性。3、变数异数的意义,比较不同样本的变异程度时 通常用什么变异数及其原因?

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com