统计资料.docx

上传人:安*** 文档编号:16374034 上传时间:2022-05-17 格式:DOCX 页数:13 大小:23KB
返回 下载 相关 举报
统计资料.docx_第1页
第1页 / 共13页
统计资料.docx_第2页
第2页 / 共13页
点击查看更多>>
资源描述

《统计资料.docx》由会员分享,可在线阅读,更多相关《统计资料.docx(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、统计资料【关键词】统计学;医学;数据分析,统计HuCY,HuLP.JChinIntegrMed.2009;7(1):7478.ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.Freefulltext(andPDF).ForwardlinkingandreferencelinkingviaCrossRef.DOI:10.3

2、736/jcim20090112OpenAccessHowtoidentifystatisticaldataChunyanHU,LiangpingHUConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,ChinaKeywords:statistics;medicine;dataanalysis,statistical统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。1何为统计资料

3、1.1数据不等于统计资料某研究者提交了如下内容。请问:它们能否叫统计资料?6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5它们不叫统计资料,由于这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据

4、罢了。1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,能否可称其为统计资料呢?仍然不能够!由于还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?有些似乎能够,有些则不能够。由于有些列仅有变量名,其专业含义并不清楚,如“G代表什么,其下方的“1与“2又分别代表什么,“X1的含义可通过其下方的“男、“女得知其代表“性别,但“X3X13的含义都不清楚,“X14代表联合用药情况。1.4有指标名称又有度

5、量衡单位的数据能否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶neuronspecificenolase,NSE的含量,其单位是ng/ml,此时,它们能否就能叫统计资料?若要求不高,基本上能够称其为统计资料;若要求严格,还不能这样称呼。由于它们测自什么样的受试者并不清楚!比方有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果1.5统计资料应具备4个基本要素应当讲,指标或变量名称、度量衡单位和详细取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是讲,统计资料还应包括实现特定研究目的所对应的

6、特定条件。比方讲,前面给出的68个数据是某年从某地区1860岁全部正常成年人中随机抽取的68人血液NSE酶的详细数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都一样。这样条件下测得的NSE酶含量ng/ml所得的统计资料,运用适当的统计分析方法,才能够揣测该年该地区1860岁全部正常成年人血中NSE酶含量的1100%容许区间医学上习惯称为正常值范围和NSE酶含量总体平均值的1100%置信区间也有人称为可信区间。概括起来讲,统计资料应具备4个要素:影响因素测定条件、有明确专业含义的指标名称、度量衡单位和详细取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称

7、为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其别人,要使两组人具有较好的可比性,与其可构成对照的是某年从某地区1860岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5X11加上相应的度量衡单位,就是一个比拟正规且可到达一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果2统计资料的分类2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料

8、,但有时影响因素和观测结果都可包含定性与定量两类资料。2.2资料类型的两种划分方法资料类型的划分方法有传统与当代两种。现将这两种划分方法作一扼要介绍,并对其加以比拟。2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高cm、体质量kg、血红蛋白g/L和总铁结合力mol/L等所得的资料。计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为15

9、98、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后盘点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、+、+的分别有494、296、239人。2.2.2资料类型的当代划分方法资料类型的当代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分

10、为名义资料和有序资料两小类。其定义如下。定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。计量资料:指标的取值能够带度量衡单位,甚至能够带小数标志测量的精度的定量资料,就叫计量资料。例如测得正常成年男子身高cm、体质量kg、血红蛋白g/L和总铁结合力mol/L等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。计数资料:在定量资料中,若指标的取值能够带度量衡单位,但不能够带小数只能取整数,通常为正整数的定量资料,就叫计数资料。例如测得正常成年男子脉搏数次/min和引体向上的次数次/min。定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。名义资料

11、:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统A型、B型、AB型、O型来记录每个人的情况所得的资料;又例如某市全体员工按职业工人、农民、知识分子、军人来记录每个人的情况所得的资料。有序资料:指标质的不同状况状态个数3之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效治愈、显效、好转、无效、死亡来划分所得的资料;又例如矽肺病患者按肺门密度级别+、+、+来划分所得的资料。若用一张表将资料类型的当代划分方法表示出来,则一目了然。见表3。表3统计资料类型的

12、当代划分方法2.2.3资料类型两种划分方法的比拟资料类型的传统划分方法是从资料的收集方式角度来定义,可以以讲是就“形式而言;而资料类型的当代划分方法是从资料的性质角度来定义,可以以讲是就“本质而言。事实上,当人们看到一个记号“1时,人们无法知道这个“1究竟代表的是什么含义。由于它能够代表1个人的年龄为1天或1个月或1岁,能够代表某定量指标的一个详细取值,可以以代表某组个体中具有某种阳性反响的人数是1人频数为1,还能够代表受试者的一个特定性别如用“1代表男性,用“0代表女性。这讲明仅从事物的外表看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称变量名

13、,通常隐含专业意义,若含义不明,应明确给出和详细取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的详细取值,“25是“年龄X1的一个详细取值,“农民是“职业X4的一个详细取值,同理,“+是“尿糖X7的一个详细取值。对于资料类型的当代划分方法而言,能够讲出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便讲出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分

14、方法就显得“心有余而力缺乏了。3误判资料类型的案例例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,天天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判定标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比拟,差异有统计学意义P0.01。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发

15、生率的影响对过失的辨析与释疑统计资料经常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,P0.05经历算,就计算本身而言,原作者的计算结果是正确的。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因此本资料从性质上讲应属于定性资料。但原作者却错误地将其判定为定量资料,表的标题后

16、括号内写了xs的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来讲,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。正确断定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用合适此类资料的分析方法如Fisher准确检验进行统计分析。例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在讨论雌激素受体estrogenreceptor,ER和孕激素受体progesteronereceptor,PR在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状

17、血管瘤、淋巴管瘤及正常皮肤组织的ER和PR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,46m切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞百分率,统计方法用2检验。结果见表5。表5血管瘤和淋巴管瘤中ER和PR检测结果对过失的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位针对此资料,其观察单位是病例标本测得的指标是用详细的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的

18、性质,并不能用详细的数值表示,其又细分为名义资料和有序资料。对于本资料来讲,测量细胞的结果是“阳性或“阴性,且一般以为带有“率的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的ER和PR阳性细胞率之均值能否一样,从每一个病例标本中得到的是ER和PR阳性细胞率,是一详细的数值,因此应属于定量资料。假如仅从资料的外表现象有“率进行判定,而不考虑每一个数值的实际含义,没有从资料的本质上进行判定,很容易判定错误。本资料的受试对象为病例标本,测量指标为“阳性细胞百分率,因此应为定量资料,其涉及一个

19、实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经历,宜做平方根反正弦变换,使资料检验知足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不知足前提条件,则用非参数检验。例3有人对103例冠心病患者G=1和100例正常对照者G=2进行了多项指标的观测,资料见表2。若以X5X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型为影响因素,有人讲此表中的资料类型为定性资料,也有人以为是定量资料。请问:此表中的统计资料究竟是什么资料1。对过失的辨析与释疑将此表中的资料讲成

20、是定性资料或定量资料都不对,由于此表中有很多列,各列资料的性质不尽一样。若笼统地讲,此表中的资料为混合型统计资料;详细地讲,应根据各列变量、取值及其专业含义,区别对待。第1列“编号不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量。第2列“组别区分正常人和冠心病病人、第3列“性别、第5列“能否有高血压史和第6列“能否吸烟都是定性资料,其变量性质应叫做“二值名义变量。第7列第13列都是“血脂指标,它们都是定量资料,详细应叫做计量资料。第14列和第15列分别是两种“基因型通常有3种表现:/、/+、+/+,它们都是定性资料,其变量性质应叫做“三值名义变量。第16列是“服药情况,其变量性质应叫做“多值名义变量。4小结本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按当代划分方法来命名统计资料,有利于捉住问题的本质。科研设计的质量好坏和施行经过中的质量控制水平的高低决定了所收集的统计资料能否准确、可靠;而正确识别各种研究问题中的统计资料类型,则是合理选用统计分析方法处理统计资料的关键环节。这是所有希望靠数据来讲话的科研工作者不可小视的一个大问题!

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 文案大全

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com