生态学统计问题幻灯片.ppt-得力文库

资源描述

《生态学统计问题幻灯片.ppt》由会员分享，可在线阅读，更多相关《生态学统计问题幻灯片.ppt（105页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、生态学统计问题第1页，共105页，编辑于2022年，星期日重要假定n作者所处理的数据属于随机变量的特定样本。作者所处理的数据属于随机变量的特定样本。n作者已经掌握最基本的数理统计学常识，如概率、假设检作者已经掌握最基本的数理统计学常识，如概率、假设检验、均值、方差、标准差、正态分布、相关分析、回归分验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析析、方差分析。第2页，共105页，编辑于2022年，星期日数理统计问题的重要性数理统计问题的重要性n在科学研究中，经常会涉及到对随机变量在科学研究中，经常会涉及到对随机变量大小大小、离散离散及及分布分布特征特征的描述以及对的描述以及对2

2、2个或多个随机变量之间的个或多个随机变量之间的关系关系描述问题。描述问题。地学、环地学、环境科学研究也不例外境科学研究也不例外。n对随机变量及随机变量之间的关系进行定量描述的数学工具就是对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理数理统计学统计学。n在科学研究中，能否正确使用各种数理统计方法关系到所得出结论的客观在科学研究中，能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。所以，性和可信性。所以，来稿中使用的数理统计方法是否正确来稿中使用的数理统计方法是否正确应是学术期刊应是学术期刊编辑们极为重视的问题。编辑们极为重视的问题。n目前，国内环境科学与技术类学术期刊对

3、稿件中数理统计方法问题的重视目前，国内环境科学与技术类学术期刊对稿件中数理统计方法问题的重视程度存在差异。程度存在差异。第3页，共105页，编辑于2022年，星期日1 统计软件的选择统计软件的选择 n统计分析通常涉及大量的数据，需要较大的计算工统计分析通常涉及大量的数据，需要较大的计算工作量。作量。n在进行统计分析时，尽管作者可以自行编写计算程在进行统计分析时，尽管作者可以自行编写计算程序，但在统计软件很普及的今天，这样做是毫无必序，但在统计软件很普及的今天，这样做是毫无必要的。要的。n出于对出于对工作效率工作效率以及对以及对算法的通用性、可比性算法的通用性、可比性的考的考虑，一些学术期刊要求

4、作者采用专门的数理统计虑，一些学术期刊要求作者采用专门的数理统计软件进行统计分析。软件进行统计分析。第4页，共105页，编辑于2022年，星期日1 统计软件的选择统计软件的选择n环境科学学报环境科学学报的编辑们在处理稿件时的编辑们在处理稿件时经常发现的问题是：经常发现的问题是：作者未使用专门的数作者未使用专门的数理统计软件，而采用理统计软件，而采用Excel这样的电子表格这样的电子表格软件进行数据统计分析。软件进行数据统计分析。n由于电子表格软件提供的统计分析功能十由于电子表格软件提供的统计分析功能十分有限，只能借助它进行较为简单的统计分有限，只能借助它进行较为简单的统计分析，故我们不主张作者

5、采用这样的软件分析，故我们不主张作者采用这样的软件进行统计分析。进行统计分析。第5页，共105页，编辑于2022年，星期日1 统计软件的选择统计软件的选择n目前，国际上已开发出的专门用于统计分析的商业软件很目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有多，比较著名有SPSS(Statistical Package for Social Sciences)和和SAS(Statistical Analysis System)。此外，还此外，还有有BMDP和和STATISTICA等等。nSPSS是专门为社会科学领域的研究者设计的，但此是专门为社会科学领域的研究者设计的，但此软件在自

6、然科学领域也得到广泛应用。软件在自然科学领域也得到广泛应用。nBMDP是专门为生物学和医学领域研究者编制的统计是专门为生物学和医学领域研究者编制的统计软件。软件。第6页，共105页，编辑于2022年，星期日1 1 统计软件的选择统计软件的选择n目前，国际学术界有一条不成文的约定：凡目前，国际学术界有一条不成文的约定：凡是用是用SPSS和和SAS软件进行统计分析所获得的软件进行统计分析所获得的结果，在国际学术交流中不必说明具体算法。结果，在国际学术交流中不必说明具体算法。由此可见，由此可见，SPSS和和SAS软件已被各领域研究软件已被各领域研究者普遍认可。者普遍认可。n我们建议作者们在进行统计分

7、析时尽量使用我们建议作者们在进行统计分析时尽量使用这这2个专门的统计软件。目前，有关这个专门的统计软件。目前，有关这2个软个软件的使用教程在书店中可很容易地买到。件的使用教程在书店中可很容易地买到。第7页，共105页，编辑于2022年，星期日2 2 均值的计算均值的计算：理论问题n均值（准确的称呼应为均值（准确的称呼应为“样本均值样本均值”）的统计学意义：反映）的统计学意义：反映随机变量样本的大小特征。随机变量样本的大小特征。n均值对应于随机变量总体的数学期望均值对应于随机变量总体的数学期望总体的数学期望客观上决总体的数学期望客观上决定着样本的均值，反过来，通过计算样本的均值可以描述总定着样本

8、的均值，反过来，通过计算样本的均值可以描述总体的数学期望。体的数学期望。n在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。条件下同一随机变量的多个不同取值进行统计处理的问题。n为找到代表这些观测值总体大小特征的代表值（统计量，该统计量根为找到代表这些观测值总体大小特征的代表值（统计量，该统计量根据样本数据算出），多数作者会不假思索地直接给出算术平均值和标据样本数据算出），多数作者会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的准差。显然，这种做法是不严谨的不一

9、定总是正确的。不一定总是正确的。第8页，共105页，编辑于2022年，星期日2 均值的计算：技术问题均值的计算：技术问题n在数理统计学中，作为描述随机变量样本的在数理统计学中，作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。平均值和中位数等多个。n何时用算术平均值？何时用几何平均值？以何时用算术平均值？何时用几何平均值？以及何时用中位数？及何时用中位数？这不能由研究者根据主观这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特意愿随意确定，而要根据随机变量的分布特征确定征确定。第9页，共105页，编辑于2022年，

10、星期日2 均值的计算：技术问题均值的计算：技术问题n反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其数学期望就可以用样本的算术平均值描述。此时，服从正态分布时，其数学期望就可以用样本的算术平均值描述。此时，可用样本的可用样本的算术平均值算术平均值描述随机变量的大小特征。描述随机变量的大小特征。n如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量该变量的大小特征。在这种情况下

11、，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是数学期望的值。此时，就可以计算变量的数学期望的值。此时，就可以计算变量的几何平均值几何平均值。n如果随机变量既不服从正态分布也不服从对数正态分布，则按现如果随机变量既不服从正态分布也不服从对数正态分布，则按现有的数理统计学知识，尚无合适的统计量描述该变量的大小特征。有的数理统计学知识，尚无合适的统计量描述该变量的大小特征。此时，可用此时，可用中位数中位数来描述变量的大小特征。来描述变量的大小特征。第10页，共105页，编辑于2022年，星期日3

12、3 相关分析相关分析：相关系数的选择：相关系数的选择 n在相关分析中，作者们常犯的错误是：简单地计算在相关分析中，作者们常犯的错误是：简单地计算Pearson 积积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是出所计算的相关系数就是Pearson 积矩相关系数。积矩相关系数。n在数理统计学中，除有针对数值变量设计的在数理统计学中，除有针对数值变量设计的Pearson 积矩相关系积矩相关系数（对应于数（对应于“参数方法参数方法”）外，还有针对顺序变量（即）外，还有针对顺序变量（即“秩变量秩变量”）设计的）设计

13、的Spearman秩相关系数和秩相关系数和Kendall秩相关系数（对应于秩相关系数（对应于“非参数方法非参数方法”）等。）等。nPearson 积矩相关系数可用于描述积矩相关系数可用于描述2个随机变量的线性相关程度，个随机变量的线性相关程度，Spearman或或Kendall秩相关系数用来判断两个随机变量在二维秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。和多维空间中是否具有某种共变趋势。第11页，共105页，编辑于2022年，星期日3 相关分析：相关系数的选择相关分析：相关系数的选择n在相关分析中，计算各种相关系数是有前提条件的。在相关分析中，计算各种相关系数是有前

14、提条件的。n在相关分析中，对于秩变量，一般别无选择，只能计算在相关分析中，对于秩变量，一般别无选择，只能计算Spearman或或Kendall秩相关系数。秩相关系数。n对于数值变量，只要条件许可，应尽量使用对于数值变量，只要条件许可，应尽量使用检验功效最高检验功效最高的参数方法，即计算用的参数方法，即计算用Pearson 积矩相关系数。只有计积矩相关系数。只有计算算Pearson 积矩相关系数的前提不存在时，才考虑积矩相关系数的前提不存在时，才考虑退而求其次，计算专门为秩变量设计的退而求其次，计算专门为秩变量设计的Spearman或或Kendall秩相关系数（秩相关系数（尽管这样做会导致检验功

15、效的尽管这样做会导致检验功效的降低降低）。）。第12页，共105页，编辑于2022年，星期日3 相关分析：相关系数的选择相关分析：相关系数的选择n对于数值变量，相关系数选择的依据是变量是否服从正态分布，对于数值变量，相关系数选择的依据是变量是否服从正态分布，或变换后的数据是否服从正态分布。或变换后的数据是否服从正态分布。n对于二元相关分析，如果对于二元相关分析，如果2个随机变量服从二元正态分布假设，个随机变量服从二元正态分布假设，则应该用则应该用Pearson 积矩相关系数描述这积矩相关系数描述这2个随机变量间的相关关个随机变量间的相关关系。系。n如果样本数据不服从二元正态分布，则可尝试进行数

16、据变换，看如果样本数据不服从二元正态分布，则可尝试进行数据变换，看变换后的数据是否符合正态分布？如果是，则可以针对变换后的变换后的数据是否符合正态分布？如果是，则可以针对变换后的数据计算数据计算Pearson 积矩相关系数；否则，就不能计算积矩相关系数；否则，就不能计算Pearson 积积矩相关系数，而应改用检验功效较低的矩相关系数，而应改用检验功效较低的Spearman或或Kendall秩相关系数（此时，如果强行计算秩相关系数（此时，如果强行计算Pearson 积矩相关系数有可能积矩相关系数有可能会得出完全错误的结论）。会得出完全错误的结论）。第13页，共105页，编辑于2022年，星期日4

17、相关分析与回归分析的区别相关分析与回归分析的区别 n相关分析和回归分析是极为常用的相关分析和回归分析是极为常用的2种数理种数理统计方法，在环境科学及其它科学研究领域统计方法，在环境科学及其它科学研究领域有着广泛的用途。然而，由于这有着广泛的用途。然而，由于这2种数理统种数理统计方法在计算方面存在很多相似之处，且在计方法在计算方面存在很多相似之处，且在一些数理统计教科书中没有系统阐明这一些数理统计教科书中没有系统阐明这2种种数理统计方法的内在差别，从而使一些研究数理统计方法的内在差别，从而使一些研究者不能严格区分相关分析与回归分析者不能严格区分相关分析与回归分析。第14页，共105页，编辑于2

18、022年，星期日4 相关分析与回归分析的区别相关分析与回归分析的区别n最常见的错误是最常见的错误是:用回归分析的结果解释相用回归分析的结果解释相关性问题。例如，作者将关性问题。例如，作者将“回归直线（曲线）回归直线（曲线）图图”称为称为“相关性图相关性图”或或“相关关系图相关关系图”；将回归直线的将回归直线的R2(拟合度，或称拟合度，或称“可决系数可决系数”)错误地称为错误地称为“相关系数相关系数”或或“相关系数相关系数的平方的平方”；根据回归分析的结果宣称；根据回归分析的结果宣称2个变个变量之间存在正的或负的相关关系。量之间存在正的或负的相关关系。第15页，共105页，编辑于2022年，星期

19、日4 相关分析与回归分析的区别相关分析与回归分析的区别n相关分析与回归分析均为研究相关分析与回归分析均为研究2个或多个个或多个变量间关联性的方法，但变量间关联性的方法，但2种数理统计方种数理统计方法存在本质的差别，即它们用于不同的法存在本质的差别，即它们用于不同的研究目的。研究目的。n相关分析的目的在于检验两个随机变量相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预归分析的目的则在于试图用自变量来预测因变量的值。测因变量的值。第16页，共105页，编辑于2022年，星期日4 相关分析与回归分析的区别相关分析

20、与回归分析的区别n在相关分析中，两个变量必须同时都是在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析。这是相机变量，就不能进行相关分析。这是相关分析方法本身所决定的。关分析方法本身所决定的。第17页，共105页，编辑于2022年，星期日4 相关分析与回归分析的区别相关分析与回归分析的区别n对于回归分析，其中的因变量肯定为随对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有的），而自变量则可以是普通变量（有确定的取值）也可以是随机变

21、量。确定的取值）也可以是随机变量。第18页，共105页，编辑于2022年，星期日4 相关分析与回归分析的区别相关分析与回归分析的区别n如果自变量是普通变量，即模型如果自变量是普通变量，即模型回归分析，采用回归分析，采用的回归方法就是最为常用的最小二乘法。的回归方法就是最为常用的最小二乘法。n如果自变量是随机变量，如果自变量是随机变量，即模型即模型回归分析，回归分析，所采用的所采用的回归方法与计算者的目的有关。回归方法与计算者的目的有关。n在以预测为目的的情况下，仍采用在以预测为目的的情况下，仍采用“最小二乘法最小二乘法”（但精度（但精度下降下降最小二乘法是专为模型最小二乘法是专为模型设计的，

22、未考虑自变量设计的，未考虑自变量的随机误差）；的随机误差）；n在以估值为目的（如计算可决系数、回归系数等）的在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如情况下，应使用相对严谨的方法（如“主轴法主轴法”、“约化主轴法约化主轴法”或或“BartlettBartlett法法”）。）。第19页，共105页，编辑于2022年，星期日4 相关分析与回归分析的区别相关分析与回归分析的区别n显然，对于回归分析，如果是模型显然，对于回归分析，如果是模型回归分析，鉴于两个随机回归分析，鉴于两个随机变量客观上存在变量客观上存在“相关性相关性”问题，只是由于回归分析方法本身不能问题，

23、只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提若以预测为目的，最好不提“相关性相关性”问题；问题；若以探索两者的若以探索两者的“共变趋势共变趋势”为目的为目的，应该改用相关分析。，应该改用相关分析。n如果是模型如果是模型回归分析，就根本不可能回答变量的回归分析，就根本不可能回答变量的“相关性相关性”问题，问题，因为普通变量与随机变量之间不存在因为普通变量与随机变量之间不存在“相关性相关性”这一概念这一概念（问题在于，大多数的回归分析都是模型（问题在于，大多数的回归分析都是模

24、型回归分析！）。此回归分析！）。此时，即使作者想描述时，即使作者想描述2个变量间的个变量间的“共变趋势共变趋势”而改用相关分析，而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。也会因相关分析的前提不存在而使分析结果毫无意义。第20页，共105页，编辑于2022年，星期日4 相关分析与回归分析的区别相关分析与回归分析的区别n需要特别指出的是，回归分析中的需要特别指出的是，回归分析中的R2在数学上恰好是在数学上恰好是Pearson积矩相关系数积矩相关系数r的平方。因此，这极易使作者们错误地理解的平方。因此，这极易使作者们错误地理解R2的含的含义，认为义，认为R2就是就是“相关系数相

25、关系数”或或“相关系数的平方相关系数的平方”。问题在于，。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型机变量的模型回归分析，回归分析，2个变量之间的个变量之间的“相关性相关性”概念根本不概念根本不存在，又何谈存在，又何谈“相关系数相关系数”呢？呢？n更值得注意的是，一些早期的教科书作者不是用更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果来描述回归效果（拟合程度，拟合度）的，而是用（拟合程度，拟合度）的，而是用Pearson积矩相关系数来描述。积矩相关系数来描述。这就更容易误导读者。这就更

26、容易误导读者。第21页，共105页，编辑于2022年，星期日5 重要的数理统计学常识n1）假设检验n假设检验的基本思想假设检验的基本思想n统计推断统计推断：是根据样本数据推断总体特征的一种方法。：是根据样本数据推断总体特征的一种方法。n假设检验：假设检验：是进行是进行统计推断统计推断的途径之一（另一种途径是参数估计，如点估的途径之一（另一种途径是参数估计，如点估计和区间估计）。计和区间估计）。n假设检验的基本思路是假设检验的基本思路是：首先，对总体参数值提出假设（原假设）；然：首先，对总体参数值提出假设（原假设）；然后，利用样本数据提供的信息来验证所提出的假设是否成立（统计推断）后，利用样本数

27、据提供的信息来验证所提出的假设是否成立（统计推断）-如果样本数据提供的信息不能证明上述假设成立，则应拒绝该假设；如果样本数如果样本数据提供的信息不能证明上述假设成立，则应拒绝该假设；如果样本数据提供的信息不能证明上述假设不成立，则不应拒绝该假设。据提供的信息不能证明上述假设不成立，则不应拒绝该假设。n接受或拒绝原假设的依据接受或拒绝原假设的依据：小概率事件不可能发生。显然，这样做是有风险的：小概率事件不可能发生。显然，这样做是有风险的（小概率事件真的发生了）。（小概率事件真的发生了）。n假设检验中的关键问题假设检验中的关键问题：1）在原假设成立的情况下，如何计算样本值或）在原假设成立的情况下，

28、如何计算样本值或某一极端值发生的概率？某一极端值发生的概率？2）如何界定小概率事件？）如何界定小概率事件？第22页，共105页，编辑于2022年，星期日5 重要的数理统计学常识n1）假设检验n假设检验的基本步骤n1）提出原假设（或称）提出原假设（或称“零假设零假设”，H0）；）；n2）选择检验统计量；）选择检验统计量；n3）根据样本数据计算检验统计量观测值的发）根据样本数据计算检验统计量观测值的发生概率（相伴概率，生概率（相伴概率，p）；）；n4）根据给定的小概率事件界定标准（显著性）根据给定的小概率事件界定标准（显著性水平，如水平，如0.05，0.01）做出统计推断。）做出统计推断。第23页

29、，共105页，编辑于2022年，星期日假设检验的基本步骤n为什么要设计并计算检验统计量？为什么要设计并计算检验统计量？n在假设检验中，样本值（或更极端的取值）发生的概率不能直接通在假设检验中，样本值（或更极端的取值）发生的概率不能直接通过样本数据计算，而是通过计算过样本数据计算，而是通过计算检验统计量观测值检验统计量观测值的发生概率而的发生概率而间接得到的。间接得到的。n所设计的检验统计量一般服从或近似服从某种已知的理论分布（如所设计的检验统计量一般服从或近似服从某种已知的理论分布（如t-分布、分布、F-分布、卡方分布），易于估算其取值概率。分布、卡方分布），易于估算其取值概率。n对于不同的假

30、设检验和不同的总体，会有不同的选择检验对于不同的假设检验和不同的总体，会有不同的选择检验统计量的理论和方法统计量的理论和方法。第24页，共105页，编辑于2022年，星期日假设检验的基本步骤n计算检验统计量观测值的发生概率计算检验统计量观测值的发生概率n在假定原假设成立的前提下，利用样本数据计算检验统计量观测值发生的概率（即p值，又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率）。该概率值间接地给出了在原假设成立的条件下样本值（或更极端值）发生的概率。第25页，共105页，编辑于2022年，星期日假设检验的基本步骤n进行统计推断进行统计推断n依据预先确定的“显著性水平”（

31、即值），如0.01或0.05，决定是否拒绝原假设。n如果p值小于值，即认为原假设成立时检验统计量观测值的发生是小概率事件，则拒绝原假设。否则，就接受原假设。第26页，共105页，编辑于2022年，星期日显著性水平：概念与意义显著性水平：概念与意义n在假设检验中，在假设检验中，显著性水平（显著性水平（Significant level，用用表表示）的确定是假设检验中至关重要的问题。示）的确定是假设检验中至关重要的问题。n显著性水平是在原假设成立时检验统计量的制落在某显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此，如果取个极端区域的概率值。因此，如果取=0.05，如果计，如

32、果计算出的算出的p值小于值小于，则可认为原假设是一个不可能发生，则可认为原假设是一个不可能发生的小概率事件。当然，如果真的发生了，则犯错误的的小概率事件。当然，如果真的发生了，则犯错误的可能性为可能性为5%。显然，显著性水平反映了拒绝某一原显然，显著性水平反映了拒绝某一原假设时所犯错误的可能性，或者说，假设时所犯错误的可能性，或者说，是指拒绝了事是指拒绝了事实上正确的原假设的概率。实上正确的原假设的概率。第27页，共105页，编辑于2022年，星期日显著性水平：通常的取值显著性水平：通常的取值n值一般在进行假设检验前由研究者根据实际的需要确定。值一般在进行假设检验前由研究者根据实际的需要确定。

33、n常用的取值是常用的取值是0.05或或0.01。对于前者，相当于在原假。对于前者，相当于在原假设事实上正确的情况下，研究者接受这一假设的可能设事实上正确的情况下，研究者接受这一假设的可能性为性为95%；对于后者，则研究者接受事实上正确的原；对于后者，则研究者接受事实上正确的原假设的可能性为假设的可能性为99%。n显然，降低显然，降低值可以减少拒绝原假设的可能性。因此，在值可以减少拒绝原假设的可能性。因此，在报告统计分析结果时，必须给出报告统计分析结果时，必须给出值。值。第28页，共105页，编辑于2022年，星期日显著性水平：进行统计推断显著性水平：进行统计推断n在进行假设检验时，各种统计软件

34、均会给出在进行假设检验时，各种统计软件均会给出检验统计量观测检验统计量观测值值以及原假设成立时该检验统计量取值的以及原假设成立时该检验统计量取值的相伴概率相伴概率（即（即检检验统计量验统计量某特定取值及更极端可能值出现的概率，用某特定取值及更极端可能值出现的概率，用p p表示）表示）。np p值是否小于事先确定的值是否小于事先确定的值，是接受或拒绝原假设的依值，是接受或拒绝原假设的依据。据。n如果如果p p值小于事先已确定的值小于事先已确定的值，就意味着检验统计量值，就意味着检验统计量取值的可能性很小，进而可推断原假设成立的可能性很取值的可能性很小，进而可推断原假设成立的可能性很小，因而可以拒

35、绝原假设。相反，如果小，因而可以拒绝原假设。相反，如果p p值大于事先已确值大于事先已确定的定的值，就不能拒绝原假设。值，就不能拒绝原假设。第29页，共105页，编辑于2022年，星期日统计推断：过去的回忆统计推断：过去的回忆n在计算机技术十分发达，以及专业统计软件功能十分强大的今天，计算检验统计量及其在计算机技术十分发达，以及专业统计软件功能十分强大的今天，计算检验统计量及其相伴概率是一件十分容易的事情。相伴概率是一件十分容易的事情。n然而，在然而，在20世纪世纪90年代以前，只有服从标准正态分布的检验统计量，人们可以年代以前，只有服从标准正态分布的检验统计量，人们可以直接查阅事先准备好的直

36、接查阅事先准备好的标准正态分布函数表标准正态分布函数表，从中获得特定计算结果的相伴概率。而，从中获得特定计算结果的相伴概率。而对于的服从对于的服从t-分布、分布、F-分布、卡方分布或其它特殊的理论分布的检验统计量（大分布、卡方分布或其它特殊的理论分布的检验统计量（大多数的假设检验是这样），人们无法直接计算相伴概率。人们通常查阅各类假多数的假设检验是这样），人们无法直接计算相伴概率。人们通常查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率设检验的临界值表进行统计推断。这些表格以自由度和很少的几个相伴概率（通常为（通常为0.1、0.05和和0.01）为自变量，以检验统计

37、量的临界值为函数排列。）为自变量，以检验统计量的临界值为函数排列。n在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某一自由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临一自由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的界值相比较。如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的显著性水平，便可拒绝原假设。否则，可接受原假设。显著性水平，便可拒绝原假设。

38、否则，可接受原假设。第30页，共105页，编辑于2022年，星期日显著性水平：举例显著性水平：举例n在根据显著性水平进行统计推断时，应注意原假设的性质。在根据显著性水平进行统计推断时，应注意原假设的性质。n以二元相关分析为例，相关分析中的原假设是以二元相关分析为例，相关分析中的原假设是“相关系数为零相关系数为零”（即（即2个随机变量间不存在显著的相关关系）。如果计算出个随机变量间不存在显著的相关关系）。如果计算出的检验统计量的相伴概率（的检验统计量的相伴概率（p值）低于事先给定值）低于事先给定值（如值（如0.05），），就可以认为就可以认为“相关系数为零相关系数为零”的可能性很低，的可能性很低

39、，既既2个随机变量之个随机变量之间存在显著的相关关系。间存在显著的相关关系。n在正态分布检验时，原假设是在正态分布检验时，原假设是“样本数据来自服从正态分布的总体样本数据来自服从正态分布的总体”。此时，如果计算出的检验统计量的相伴概率（。此时，如果计算出的检验统计量的相伴概率（p值）低于事先给值）低于事先给定定值（如值（如0.05），则表明数据不服从正态分布。只有），则表明数据不服从正态分布。只有p值高于值高于值时，数据才服从正态分布。值时，数据才服从正态分布。这与相关分析的假设检验不同。这与相关分析的假设检验不同。第31页，共105页，编辑于2022年，星期日显著性水平显著性水平n作者在描述

40、相关分析结果时常有的失误是：仅给出相关系数的作者在描述相关分析结果时常有的失误是：仅给出相关系数的值，而不给出显著性水平。这就无法判断值，而不给出显著性水平。这就无法判断2个随机变量间的相个随机变量间的相关性是否显著。关性是否显著。n有时作者不是根据显著性水平判断相关关系是否显著，而是根据相有时作者不是根据显著性水平判断相关关系是否显著，而是根据相关系数的大小来推断（相关系数越近关系数的大小来推断（相关系数越近1，则相关关系越显著）。问，则相关关系越显著）。问题是，相关系数本身是一个基于样本数据计算出的观测值，其题是，相关系数本身是一个基于样本数据计算出的观测值，其本身的可靠性尚需检验。本身的

41、可靠性尚需检验。n此外，作者在论文中常常用此外，作者在论文中常常用“显著相关显著相关”和和“极显著相关极显著相关”来描述来描述相关分析结果，即认为相关分析结果，即认为p值小于值小于0.05就是显著相关关系（或显著相就是显著相关关系（或显著相关），小于关），小于0.01就是极显著相关关系（或极显著相关）。就是极显著相关关系（或极显著相关）。第32页，共105页，编辑于2022年，星期日统计推断的注意事项统计推断的注意事项n在假设检验中，只有在假设检验中，只有“显著显著”和和“不显著不显著”，没有，没有“极显著极显著”这样的断语。只要计算出的检验统计量的相这样的断语。只要计算出的检验统计量的相伴概

42、率（伴概率（p值）低于事先确定的值）低于事先确定的值，就可以认为检验值，就可以认为检验结果结果“显著显著”（相关分析的原假设是（相关分析的原假设是“相关系数为零相关系数为零”，故此处的，故此处的“显著显著”实际意味着实际意味着“相关系数不为零相关系数不为零”，或说，或说“2个随机变量间有显著的相关关系个随机变量间有显著的相关关系”）；同）；同样，只要计算出的检验统计量的相伴概率（样，只要计算出的检验统计量的相伴概率（p值）高于值）高于事先确定的事先确定的值，就可以认为检验结果值，就可以认为检验结果“不显著不显著”。第33页，共105页，编辑于2022年，星期日统计推断的注意事项统计推断的注意事

43、项n在进行相关分析时，不能同时使用在进行相关分析时，不能同时使用0.05和和0.01这这2个显著性水平来决定是否拒个显著性水平来决定是否拒绝原假设，只能使用其中的绝原假设，只能使用其中的1个。个。第34页，共105页，编辑于2022年，星期日有关相关分析的断语有关相关分析的断语n1）显著和不显著：描述相关关系是否存在。n2）相关性强或不强：在存在相关关系的前提下，这种相关关系的强或弱。可以认为，相关系数越接近1，则相关性越强。n声明：第声明：第1 1）条是公认的数理统计常识，但第）条是公认的数理统计常识，但第2 2）条是个人理解，仅）条是个人理解，仅供参考。本文不对第供参考。本文不对第2 2）

44、条承担责任。）条承担责任。第35页，共105页，编辑于2022年，星期日5 重要的数理统计学常识n1）假设检验n统计推断：单侧检验与双侧检验n对于假设检验，其检验统计量的异常取值有2个方向，即概率分布曲线的左侧（对应于过小的值）和右侧（对应于过大的值）。第36页，共105页，编辑于2022年，星期日检验统计量的极端取值n检验统计量在左侧和右侧均有可能取值检验统计量的取值空间第37页，共105页，编辑于2022年，星期日单侧检验与双侧检验n一般情况下，概率分布函数曲线两侧尾端的小概率事件都要考虑（即双侧检验）。一般情况下，概率分布函数曲线两侧尾端的小概率事件都要考虑（即双侧检验）。如果事先有把握

45、确定其中的一侧不可能取值，则仅需对另一侧的小概率事件进行检如果事先有把握确定其中的一侧不可能取值，则仅需对另一侧的小概率事件进行检验即可（单侧检验）。验即可（单侧检验）。n在用在用“查表法查表法”进行统计推断时，基于单侧小概率事件检验的临界值表称进行统计推断时，基于单侧小概率事件检验的临界值表称“单尾表单尾表”，基于双侧小概率事件检验的临界值表称，基于双侧小概率事件检验的临界值表称“双尾表双尾表”。除除t-t-分布临界值表是双尾表分布临界值表是双尾表外，大多数的检验临界值表均为单尾表外，大多数的检验临界值表均为单尾表。n在显著性水平一定的情况下（例如在显著性水平一定的情况下（例如=0.05=0

46、.05），对于单尾表，单侧检验时仍使用），对于单尾表，单侧检验时仍使用进行统计推断，双侧检验则用进行统计推断，双侧检验则用/2/2进行统计推断；对于双尾表，单侧检验进行统计推断；对于双尾表，单侧检验时改用时改用2 2进行统计推断，双侧检验则用进行统计推断，双侧检验则用进行统计推断。进行统计推断。n在统计软件（如在统计软件（如SPSS或或SAS统计软件）给出的计算结果中，已标注出所计算统计软件）给出的计算结果中，已标注出所计算的相伴概率是单侧还是双侧，对应于上述的单尾表和双尾表。的相伴概率是单侧还是双侧，对应于上述的单尾表和双尾表。第38页，共105页，编辑于2022年，星期日单侧检验与双侧检

47、验n以下是以下是SPSS 中的单样本中的单样本t检验输出结果：检验输出结果：nOne-Sample Test（原假设：储户1次平均存取的现金与2000元无显著差异）nTest Value=2000（均值比较的参比值）nt=1.240(检验统计量的观测值)ndf=312(自由度，样本量N=313)nSig.(2-tailed)=0.216（双侧相伴概率p）nMean Difference=473.78（均值的标准误差）n95%Confidence Interval of the Difference（总体均值与原假设值之差的95%的置信区间）:-278.131225.69（有95%的把握可认为：

48、储户1次平均存取的金额为1721.873225.69元）n上述检验属“均值比较”，是双侧检验（大于或小于2000元都算拒绝原假设），计算的相伴概率也是双侧的。因此，可直接用p与比较。取=0.05,则因p大于，故不能拒绝原假设（不是小概率事件）。统计推断结果：根据313个储户调查数据，每个储户一次平均存取金额大体为2000元。第39页，共105页，编辑于2022年，星期日单侧检验与双侧检验n在统计软件中，可通过选择Test of Significance选项来控制所输出的相伴概率是单尾（1 tailed）概率还是双尾（2 tailed）概率。第40页，共105页，编辑于2022年，星期日5 重要

49、的数理统计学常识n2）正态分布检验n目的：检验样本是否来自正态分布的总体n原假设：样本来自正态分布的总体n分布检验只能使用非参数方法（只有分布形式已知时才能使用参数方法）。n不同的统计软件给出了不同的检验方法。第41页，共105页，编辑于2022年，星期日正态分布检验n在SAS中，提供了Shapiro-Wilk(适用于样本量小于50的情形)检验法。此检验无单尾、双尾之分。n在SPSS中提供了卡方检验（Chi-Square Test）和单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称K-S)检验。后者比前者精确一些，建议采用。第42页，共105页，编辑于2022年，

50、星期日正态分布检验n单样本的 Kolmogorov-Smirnov(柯尔莫哥洛夫-斯米尔诺夫，简称K-S)检验属于双侧检验，计算检验统计量（Z）的双尾概率。第43页，共105页，编辑于2022年，星期日5 重要的数理统计学常识n3)均值比较na)将样本均值与某一特定值相比：t-检验（参数检验）n原假设：总体均值与特定值无显著差异n前提：样本来自正态分布的总体n双侧检验：是否等于。n单侧检验：已知不可能大于（或不可能小于），检验是否等于。nb)比较2个独立样本均值：t-检验（参数检验）n原假设：2个样本所代表的2个总体的均值无显著差异n用于对2个来自正态分布总体的样本的大小进行比较，且2个样本相

展开阅读全文